#очистка_данных — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #очистка_данных, aggregated by home.social.
-
Основы парсинга сайтов: от HTML до готового датасета для NLP
Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.
https://habr.com/ru/companies/otus/articles/1029766/
#парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели
-
Основы парсинга сайтов: от HTML до готового датасета для NLP
Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.
https://habr.com/ru/companies/otus/articles/1029766/
#парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели
-
Основы парсинга сайтов: от HTML до готового датасета для NLP
Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.
https://habr.com/ru/companies/otus/articles/1029766/
#парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели
-
Основы парсинга сайтов: от HTML до готового датасета для NLP
Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.
https://habr.com/ru/companies/otus/articles/1029766/
#парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели
-
Как подготовить данные к анализу: очистка и предобработка, без которых всё остальное не имеет смысла
Ваши данные врут. Не потому, что кто-то хотел вас обмануть, а потому, что вы им это позволили. Всё выглядит правильно: модель обучилась, метрики зелёные, дашборд аккуратный. А потом бизнес-решение, принятое на основе этих данных, приводит не туда. В этот момент начинают проверять алгоритм, гипотезу или эксперимент. Но в большинстве случаев проблема была раньше — в данных, которые никто толком не подготовил. Даже аккуратный дашборд может скрывать проблемы в данных, если этап подготовки был сделан формально. Пройти путь до данных, которым доверяем →
https://habr.com/ru/companies/netologyru/articles/1026754/
#подготовка_данных_к_анализу #очистка_данных #data_cleaning #предварительная_обработка_данных #удаление_дубликатов_данных #обработка_выбросов #подготовка_данных_для_ML #data_preparation #минимизация_шума #очистка_данных_от_ошибок
-
Почему нормализация контактных данных сложнее, чем кажется: опыт разработки движка очистки CRM-баз на Python
Грязные данные в CRM — это всегда дубли, ошибки в рассылках и «кривая» аналитика. В статье рассказываю, как я реализовал API для автоматической нормализации телефонов, email и имен на FastAPI, и почему простая проверка регулярками не заменяет систему оценки качества данных (QC). Попробовать Demo API
https://habr.com/ru/articles/1010892/
#API #нормализация_данных #очистка_данных #CRM #FastAPI #контактные_данные #обработка_персональных_данных #python
-
Почему российский бизнес проигрывает битву за информацию и как это исправить. Введение и Часть 1
Российский бизнес переживает эпоху «Великого перехода». Санкционное давление и уход западных вендоров заставили компании в спешке мигрировать на отечественное ПО. Но гонка за новыми платформами обнажила старую как мир проблему: наши системы полны «мусора» . На многочисленных проектах по миграции с SAP и западных CRM на российские решения наблюдается одна и та же картина: бизнес ждет «магии» от новой системы, а получает перенос хаоса. Аналитики и ИТ-специалисты приходят к выводу: битва за качество данных проигрывается не из-за отсутствия талантливых разработчиков, а потому что бизнес-анализ как дисциплина в России до сих пор не воспринимает данные как стратегический актив. В этом цикле будут разобраны три фатальные ловушки, в которые попадают компании, и главное — предложены пошаговые рецепты спасения, основанные на реальной практике и современных методологиях.
https://habr.com/ru/articles/1010370/
#системный_анализ #бизнесанализ #миграция_данных #управление_данными #качество_данных #очистка_данных #data_governance #erpсистемы #историчность_данных #требования_к_данным
-
Проверка на Data Poisoning в MLSecOps
В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.
https://habr.com/ru/articles/920936/
#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность
-
Проверка на Data Poisoning в MLSecOps
В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.
https://habr.com/ru/articles/920936/
#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность
-
Проверка на Data Poisoning в MLSecOps
В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.
https://habr.com/ru/articles/920936/
#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность
-
Проверка на Data Poisoning в MLSecOps
В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.
https://habr.com/ru/articles/920936/
#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность
-
PostgreSQL: вернуть место после delete
У вас есть таблицы, либо ряд таблиц, строки которых нужно очистить и единственный способ, которым вы можете это сделать - это операция DELETE . Помимо очевидной цели - очистки ненужных данных из таблицы, хотелось бы также увеличить свободное место в области диска, доступного для данных postgresql. Но при определенных условиях - операция DELETE не возвращает место, а операция UPDATE дополнительно его забирает.
-
Миф о чистых данных: почему ваш аналитик похож на сапёра
Миф о чистых данных: почему ваш аналитик похож на сапёра. Как бороться с самым частым убеждением при работе с данными.
https://habr.com/ru/articles/862772/
#данные #очистка_данных #витрина_данных #визуализация_данных #ошибки_в_бизнесе #подготовка_данных #бизнесаналитика #целостность_данных #обработка_данных #data_quality
-
Создание и обработка медицинской базы данных с помощью python/R
Идея: в медицинском учреждении выписные эпикризы (информация из истории болезни) пациентов хранятся в общегоспитальной локальной сети. Необходимо сформировать базу данных пациентов с перенесенным заболеванием COVID-19 (один выписной эпикриз ДО заболевания COVID-19, один выписной эпикриз во время заболевания и один ПОСЛЕ заболевания). Telegram для контактов: @doctor_pogozhy
https://habr.com/ru/articles/836734/
#база_даных #медицина #сбор_данных #очистка_данных #covid19 #pyhon #rstudio
-
Контролируем качество данных с помощью Python
В работе с данными одной из самых больших трудностей является обеспечение их качества. В процессе анализа и обработки информации приходится сталкиваться с множеством проблем, таких как отсутствие нужных значений, неправильно отформатированные данные или ошибки, появляющиеся при сборе данных с веб-ресурсов. В этой статье мы рассмотрим, как с помощью Python можно автоматизировать процесс проверки и очистки данных, используя популярные библиотеки, такие как pandas и pyspark. Мы исследуем практические подходы к подготовке данных для анализа, включая поиск аномалий, постобработку и работу с пустыми значениями, что поможет обеспечить высокое качество данных для дальнейших исследований и принятия решений.
https://habr.com/ru/companies/otus/articles/903634/
#qa #data_analysis #качество_данных #аналитика_данных #Python_для_анализа_данных #pandas #Pyspark #Очистка_данных #Аномалии_в_данных
-
Очистка данных перед загрузкой в хранилище: Подробное руководство с техническими деталями
Детально рассмотрим, кто занимается очисткой данных, какие инструменты и языки программирования используются для этой цели, приведем примеры кода на SQL для очистки данных, узнаем, сколько времени может занять этот процесс и какие последствия могут наступить при его игнорировании.
https://habr.com/ru/articles/794036/
#очистка_данных #хранилище_данных #etlпроцессы #etl #пайплайн
-
GPT: Революция или Апокалипсис
GPT : Революция или Апокалипсис Человек против машины. Нейросети — конец эпохи человеческого интеллекта?
https://habr.com/ru/articles/866478/
#gpt #аналитик_данных #современные_технологии #человек_vs_компьютер #хитрости_программирования #оптимизация_запросов #нейросети #тренды #обработка_данных #очистка_данных
-
[Перевод] Основы очистки данных в data science
В реальной жизни данные, к сожалению, не идеальны и требуют тщательной предобработки. Проблемы с данными могут возникать по разным причинам: из-за их природы, способа сбора или ошибок при вводе. Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей. Давайте рассмотрим пять задач, с которыми можно столкнуться в рамках очистки данных. Это не исчерпывающий список, но он послужит хорошим ориентиром при работе с реальными датасетами. Все примеры мы будем рассматривать на Ames Housing Dataset , который содержит информацию о продажах жилой недвижимости в городе Эймс, штат Айова, США
https://habr.com/ru/articles/875662/
#python #выбросы #пропуски #очистка_данных #анализ_данных #руководство #туториал #для_начинающих #data_science #pandas
-
[Перевод] Основы очистки данных в data science
В реальной жизни данные, к сожалению, не идеальны и требуют тщательной предобработки. Проблемы с данными могут возникать по разным причинам: из-за их природы, способа сбора или ошибок при вводе. Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей. Давайте рассмотрим пять задач, с которыми можно столкнуться в рамках очистки данных. Это не исчерпывающий список, но он послужит хорошим ориентиром при работе с реальными датасетами. Все примеры мы будем рассматривать на Ames Housing Dataset , который содержит информацию о продажах жилой недвижимости в городе Эймс, штат Айова, США
https://habr.com/ru/articles/875662/
#python #выбросы #пропуски #очистка_данных #анализ_данных #руководство #туториал #для_начинающих #data_science #pandas
-
[Перевод] Основы очистки данных в data science
В реальной жизни данные, к сожалению, не идеальны и требуют тщательной предобработки. Проблемы с данными могут возникать по разным причинам: из-за их природы, способа сбора или ошибок при вводе. Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей. Давайте рассмотрим пять задач, с которыми можно столкнуться в рамках очистки данных. Это не исчерпывающий список, но он послужит хорошим ориентиром при работе с реальными датасетами. Все примеры мы будем рассматривать на Ames Housing Dataset , который содержит информацию о продажах жилой недвижимости в городе Эймс, штат Айова, США
https://habr.com/ru/articles/875662/
#python #выбросы #пропуски #очистка_данных #анализ_данных #руководство #туториал #для_начинающих #data_science #pandas
-
[Перевод] Основы очистки данных в data science
В реальной жизни данные, к сожалению, не идеальны и требуют тщательной предобработки. Проблемы с данными могут возникать по разным причинам: из-за их природы, способа сбора или ошибок при вводе. Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей. Давайте рассмотрим пять задач, с которыми можно столкнуться в рамках очистки данных. Это не исчерпывающий список, но он послужит хорошим ориентиром при работе с реальными датасетами. Все примеры мы будем рассматривать на Ames Housing Dataset , который содержит информацию о продажах жилой недвижимости в городе Эймс, штат Айова, США
https://habr.com/ru/articles/875662/
#python #выбросы #пропуски #очистка_данных #анализ_данных #руководство #туториал #для_начинающих #data_science #pandas
-
Миф о чистых данных: почему ваш аналитик похож на сапёра
Миф о чистых данных: почему ваш аналитик похож на сапёра. Как бороться с самым частым убеждением при работе с данными.
https://habr.com/ru/articles/862772/
#данные #очистка_данных #витрина_данных #визуализация_данных #ошибки_в_бизнесе #подготовка_данных #бизнесаналитика #целостность_данных #обработка_данных #data_quality
-
Миф о чистых данных: почему ваш аналитик похож на сапёра
Миф о чистых данных: почему ваш аналитик похож на сапёра. Как бороться с самым частым убеждением при работе с данными.
https://habr.com/ru/articles/862772/
#данные #очистка_данных #витрина_данных #визуализация_данных #ошибки_в_бизнесе #подготовка_данных #бизнесаналитика #целостность_данных #обработка_данных #data_quality
-
Миф о чистых данных: почему ваш аналитик похож на сапёра
Миф о чистых данных: почему ваш аналитик похож на сапёра. Как бороться с самым частым убеждением при работе с данными.
https://habr.com/ru/articles/862772/
#данные #очистка_данных #витрина_данных #визуализация_данных #ошибки_в_бизнесе #подготовка_данных #бизнесаналитика #целостность_данных #обработка_данных #data_quality