#извлечение_данных — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #извлечение_данных, aggregated by home.social.
-
Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *
В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.
https://habr.com/ru/articles/1027992/
#словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy
-
Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *
В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.
https://habr.com/ru/articles/1027992/
#словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy
-
Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *
В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.
https://habr.com/ru/articles/1027992/
#словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy
-
Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *
В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.
https://habr.com/ru/articles/1027992/
#словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy
-
Как из факапа родился продукт: история EasyDoc
Привет, Хабр! Меня зовут Вадим Петросян , я директор по развитию бизнеса в ITFB Group . Почти десять лет я занимаюсь тем, что мы теперь называем Intelligent Document Processing (IDP). А началось всё с досадной подставы в договоре, которая влекла за собой большие расходы, но вместо этого подарила рынку одного из игроков в сфере OCR/IDP. Сегодня EasyDoc — это платформа №1 по версии CNews, работающая в крупнейших банках, пенсионных фондах и госорганах. А тогда, в 2016 году, мы просто не захотели платить 50% прибыли вендору за его движок. И решили сделать свой. Читать кейс
https://habr.com/ru/companies/itfb/articles/1026674/
#itfb #easydoc #распознавание_документов #idp #ocr #извлечение_данных #llm #импортозамещение #классификация #архитектура_по
-
Как из факапа родился продукт: история EasyDoc
Привет, Хабр! Меня зовут Вадим Петросян , я директор по развитию бизнеса в ITFB Group . Почти десять лет я занимаюсь тем, что мы теперь называем Intelligent Document Processing (IDP). А началось всё с досадной подставы в договоре, которая влекла за собой большие расходы, но вместо этого подарила рынку одного из игроков в сфере OCR/IDP. Сегодня EasyDoc — это платформа №1 по версии CNews, работающая в крупнейших банках, пенсионных фондах и госорганах. А тогда, в 2016 году, мы просто не захотели платить 50% прибыли вендору за его движок. И решили сделать свой. Читать кейс
https://habr.com/ru/companies/itfb/articles/1026674/
#itfb #easydoc #распознавание_документов #idp #ocr #извлечение_данных #llm #импортозамещение #классификация #архитектура_по
-
Как из факапа родился продукт: история EasyDoc
Привет, Хабр! Меня зовут Вадим Петросян , я директор по развитию бизнеса в ITFB Group . Почти десять лет я занимаюсь тем, что мы теперь называем Intelligent Document Processing (IDP). А началось всё с досадной подставы в договоре, которая влекла за собой большие расходы, но вместо этого подарила рынку одного из игроков в сфере OCR/IDP. Сегодня EasyDoc — это платформа №1 по версии CNews, работающая в крупнейших банках, пенсионных фондах и госорганах. А тогда, в 2016 году, мы просто не захотели платить 50% прибыли вендору за его движок. И решили сделать свой. Читать кейс
https://habr.com/ru/companies/itfb/articles/1026674/
#itfb #easydoc #распознавание_документов #idp #ocr #извлечение_данных #llm #импортозамещение #классификация #архитектура_по
-
Как из факапа родился продукт: история EasyDoc
Привет, Хабр! Меня зовут Вадим Петросян , я директор по развитию бизнеса в ITFB Group . Почти десять лет я занимаюсь тем, что мы теперь называем Intelligent Document Processing (IDP). А началось всё с досадной подставы в договоре, которая влекла за собой большие расходы, но вместо этого подарила рынку одного из игроков в сфере OCR/IDP. Сегодня EasyDoc — это платформа №1 по версии CNews, работающая в крупнейших банках, пенсионных фондах и госорганах. А тогда, в 2016 году, мы просто не захотели платить 50% прибыли вендору за его движок. И решили сделать свой. Читать кейс
https://habr.com/ru/companies/itfb/articles/1026674/
#itfb #easydoc #распознавание_документов #idp #ocr #извлечение_данных #llm #импортозамещение #классификация #архитектура_по
-
Можно ли доверить важные документы open-source LLM: эксперимент Рег.облака и Raft
Привет, Хабр! На связи команды Рег.облака и Raft . За последние годы автоматизация работы с юридическими документами прошла несколько этапов: регулярные выражения, классический NLP, первые нейросетевые модели. Почти всегда результат упирался в одно и то же — либо качество оказывалось недостаточным для бизнеса, либо сопровождение и доработки делали решение слишком дорогим. В начале декабря Рег.облако выделило грант команде Raft на использование облачных серверов с GPU A100 80 ГБ. Задача эксперимента — проверить, как современные open-source LLM работают с длинными юридическими документами и можно ли использовать их для промышленного извлечения бизнес-критичных данных. В этой статье мы разбираем результаты эксперимента: с какими ограничениями столкнулись, какие инженерные решения оказались критичными и к каким метрикам в итоге пришли.
https://habr.com/ru/companies/runity/articles/987424/
#регоблако #raft #ai #llm #нейросети #исследование #эксперимент #договор #извлечение_данных #извлечение_информации
-
Можно ли доверить важные документы open-source LLM: эксперимент Рег.облака и Raft
Привет, Хабр! На связи команды Рег.облака и Raft . За последние годы автоматизация работы с юридическими документами прошла несколько этапов: регулярные выражения, классический NLP, первые нейросетевые модели. Почти всегда результат упирался в одно и то же — либо качество оказывалось недостаточным для бизнеса, либо сопровождение и доработки делали решение слишком дорогим. В начале декабря Рег.облако выделило грант команде Raft на использование облачных серверов с GPU A100 80 ГБ. Задача эксперимента — проверить, как современные open-source LLM работают с длинными юридическими документами и можно ли использовать их для промышленного извлечения бизнес-критичных данных. В этой статье мы разбираем результаты эксперимента: с какими ограничениями столкнулись, какие инженерные решения оказались критичными и к каким метрикам в итоге пришли.
https://habr.com/ru/companies/runity/articles/987424/
#регоблако #raft #ai #llm #нейросети #исследование #эксперимент #договор #извлечение_данных #извлечение_информации
-
Можно ли доверить важные документы open-source LLM: эксперимент Рег.облака и Raft
Привет, Хабр! На связи команды Рег.облака и Raft . За последние годы автоматизация работы с юридическими документами прошла несколько этапов: регулярные выражения, классический NLP, первые нейросетевые модели. Почти всегда результат упирался в одно и то же — либо качество оказывалось недостаточным для бизнеса, либо сопровождение и доработки делали решение слишком дорогим. В начале декабря Рег.облако выделило грант команде Raft на использование облачных серверов с GPU A100 80 ГБ. Задача эксперимента — проверить, как современные open-source LLM работают с длинными юридическими документами и можно ли использовать их для промышленного извлечения бизнес-критичных данных. В этой статье мы разбираем результаты эксперимента: с какими ограничениями столкнулись, какие инженерные решения оказались критичными и к каким метрикам в итоге пришли.
https://habr.com/ru/companies/runity/articles/987424/
#регоблако #raft #ai #llm #нейросети #исследование #эксперимент #договор #извлечение_данных #извлечение_информации
-
Можно ли доверить важные документы open-source LLM: эксперимент Рег.облака и Raft
Привет, Хабр! На связи команды Рег.облака и Raft . За последние годы автоматизация работы с юридическими документами прошла несколько этапов: регулярные выражения, классический NLP, первые нейросетевые модели. Почти всегда результат упирался в одно и то же — либо качество оказывалось недостаточным для бизнеса, либо сопровождение и доработки делали решение слишком дорогим. В начале декабря Рег.облако выделило грант команде Raft на использование облачных серверов с GPU A100 80 ГБ. Задача эксперимента — проверить, как современные open-source LLM работают с длинными юридическими документами и можно ли использовать их для промышленного извлечения бизнес-критичных данных. В этой статье мы разбираем результаты эксперимента: с какими ограничениями столкнулись, какие инженерные решения оказались критичными и к каким метрикам в итоге пришли.
https://habr.com/ru/companies/runity/articles/987424/
#регоблако #raft #ai #llm #нейросети #исследование #эксперимент #договор #извлечение_данных #извлечение_информации
-
Как заработать на LLM, перестав писать «правильные промпты»
В этой статье я бросаю вызов общепринятому представлению о больших языковых моделях как о «тупых исполнителях», которые ничего не понимают, галлюционируют, но позволяют получить результат быстрее (нередко за счет качества). Подобные мифы активно распространяются в сети, а также на курсах, на которых обучают «правильно» писать промпты. Я на Хабре уже написал несколько статей, разоблачающих отсутствие мышления у LLM, но здесь я опишу способность больших языковых моделей решать задачи , людям недоступные . Из этой статьи вы узнаете, как на самом деле надо использовать нейронки, чтобы получать максимальную пользу от них.
https://habr.com/ru/articles/982008/
#llm #промптинжиниринг #автоматизация_процессов #обработка_документов #извлечение_данных #парсинг_pdf #python #скриптинг #кейс #вайбкодинг
-
Как заработать на LLM, перестав писать «правильные промпты»
В этой статье я бросаю вызов общепринятому представлению о больших языковых моделях как о «тупых исполнителях», которые ничего не понимают, галлюционируют, но позволяют получить результат быстрее (нередко за счет качества). Подобные мифы активно распространяются в сети, а также на курсах, на которых обучают «правильно» писать промпты. Я на Хабре уже написал несколько статей, разоблачающих отсутствие мышления у LLM, но здесь я опишу способность больших языковых моделей решать задачи , людям недоступные . Из этой статьи вы узнаете, как на самом деле надо использовать нейронки, чтобы получать максимальную пользу от них.
https://habr.com/ru/articles/982008/
#llm #промптинжиниринг #автоматизация_процессов #обработка_документов #извлечение_данных #парсинг_pdf #python #скриптинг #кейс #вайбкодинг
-
Как заработать на LLM, перестав писать «правильные промпты»
В этой статье я бросаю вызов общепринятому представлению о больших языковых моделях как о «тупых исполнителях», которые ничего не понимают, галлюционируют, но позволяют получить результат быстрее (нередко за счет качества). Подобные мифы активно распространяются в сети, а также на курсах, на которых обучают «правильно» писать промпты. Я на Хабре уже написал несколько статей, разоблачающих отсутствие мышления у LLM, но здесь я опишу способность больших языковых моделей решать задачи , людям недоступные . Из этой статьи вы узнаете, как на самом деле надо использовать нейронки, чтобы получать максимальную пользу от них.
https://habr.com/ru/articles/982008/
#llm #промптинжиниринг #автоматизация_процессов #обработка_документов #извлечение_данных #парсинг_pdf #python #скриптинг #кейс #вайбкодинг
-
Как заработать на LLM, перестав писать «правильные промпты»
В этой статье я бросаю вызов общепринятому представлению о больших языковых моделях как о «тупых исполнителях», которые ничего не понимают, галлюционируют, но позволяют получить результат быстрее (нередко за счет качества). Подобные мифы активно распространяются в сети, а также на курсах, на которых обучают «правильно» писать промпты. Я на Хабре уже написал несколько статей, разоблачающих отсутствие мышления у LLM, но здесь я опишу способность больших языковых моделей решать задачи , людям недоступные . Из этой статьи вы узнаете, как на самом деле надо использовать нейронки, чтобы получать максимальную пользу от них.
https://habr.com/ru/articles/982008/
#llm #промптинжиниринг #автоматизация_процессов #обработка_документов #извлечение_данных #парсинг_pdf #python #скриптинг #кейс #вайбкодинг
-
Парсинг pdf-отчётов публичных компаний для получения трейдерских инсайтов
Здравствуйте! В этой статье рассмотрим, как с помощью Python мониторить сайты компаний, парсить отчёты из PDF, извлекать ключевые данные и отправлять обработанные результаты в Telegram. Публичные компании обязаны публиковать свою отчётность (финансовые результаты, годовые отчёты, пресс-релизы) на своих сайтах, часто в формате PDF. Для трейдера или инвестора скорость получения и анализа этой информации критически важна: тот, кто первым увидит тренд или аномалию в отчёте, может принять лучшее решение и получить преимущество на рынке. Мы создадим скрипт на Python, который будет скачивать с сайта (разберём на примере Яндекс) отчёт в формате PDF, преобразовывать неструктурированный текст в структурированные данные, извлекать ключевые метрики (выручка, чистая прибыль) и отправлять сжатый инсайт в Telegram-бот.
https://habr.com/ru/companies/amvera/articles/949966/
#парсинг_pdf #xbrl #сигналы_для_трейдинга #мониторинг_отчетов #извлечение_данных #сервис_для_трейдинга #bloomberg_terminal
-
Три причины не выбрасывать старый айфон
Привет, Хабр! Меня зовут Виталий, в Positive Technologies занимаюсь расследованиями инцидентов, произошедших с мобильными устройствами. Всего мобильной криминалистикой занимаюсь уже больше шести лет. За это время я исследовал много разных телефонов: от самых простых вариантов — без запароленного доступа к содержимому, до телефонов с разбитым экраном, поврежденным интерфейсным разъемом, утопленных, заблокированных и сброшенных. Много среди них было и айфонов. Недавно, перебирая вещи в квартире, я наткнулся на старый айфон, который долгое время пылился на полке. Включив устройство, я увидел не слишком обнадеживающее сообщение: «iPhone отключен. Подключитесь к iTunes». Оно чаще всего говорит о том, что доступ к данным безвозвратно утерян. Однако кое-что исследователю всё же доступно. О том, что мне удалось откопать — рассказываю под катом. Погрузиться
https://habr.com/ru/companies/pt/articles/885370/
#iphone #checkm8 #аппаратная_уязвимость #айфоны #извлечение_данных #данные_приложения #данные_пользователя #файловые_системы #iphone_x
-
Три причины не выбрасывать старый айфон
Привет, Хабр! Меня зовут Виталий, в Positive Technologies занимаюсь расследованиями инцидентов, произошедших с мобильными устройствами. Всего мобильной криминалистикой занимаюсь уже больше шести лет. За это время я исследовал много разных телефонов: от самых простых вариантов — без запароленного доступа к содержимому, до телефонов с разбитым экраном, поврежденным интерфейсным разъемом, утопленных, заблокированных и сброшенных. Много среди них было и айфонов. Недавно, перебирая вещи в квартире, я наткнулся на старый айфон, который долгое время пылился на полке. Включив устройство, я увидел не слишком обнадеживающее сообщение: «iPhone отключен. Подключитесь к iTunes». Оно чаще всего говорит о том, что доступ к данным безвозвратно утерян. Однако кое-что исследователю всё же доступно. О том, что мне удалось откопать — рассказываю под катом. Погрузиться
https://habr.com/ru/companies/pt/articles/885370/
#iphone #checkm8 #аппаратная_уязвимость #айфоны #извлечение_данных #данные_приложения #данные_пользователя #файловые_системы #iphone_x
-
Три причины не выбрасывать старый айфон
Привет, Хабр! Меня зовут Виталий, в Positive Technologies занимаюсь расследованиями инцидентов, произошедших с мобильными устройствами. Всего мобильной криминалистикой занимаюсь уже больше шести лет. За это время я исследовал много разных телефонов: от самых простых вариантов — без запароленного доступа к содержимому, до телефонов с разбитым экраном, поврежденным интерфейсным разъемом, утопленных, заблокированных и сброшенных. Много среди них было и айфонов. Недавно, перебирая вещи в квартире, я наткнулся на старый айфон, который долгое время пылился на полке. Включив устройство, я увидел не слишком обнадеживающее сообщение: «iPhone отключен. Подключитесь к iTunes». Оно чаще всего говорит о том, что доступ к данным безвозвратно утерян. Однако кое-что исследователю всё же доступно. О том, что мне удалось откопать — рассказываю под катом. Погрузиться
https://habr.com/ru/companies/pt/articles/885370/
#iphone #checkm8 #аппаратная_уязвимость #айфоны #извлечение_данных #данные_приложения #данные_пользователя #файловые_системы #iphone_x
-
Три причины не выбрасывать старый айфон
Привет, Хабр! Меня зовут Виталий, в Positive Technologies занимаюсь расследованиями инцидентов, произошедших с мобильными устройствами. Всего мобильной криминалистикой занимаюсь уже больше шести лет. За это время я исследовал много разных телефонов: от самых простых вариантов — без запароленного доступа к содержимому, до телефонов с разбитым экраном, поврежденным интерфейсным разъемом, утопленных, заблокированных и сброшенных. Много среди них было и айфонов. Недавно, перебирая вещи в квартире, я наткнулся на старый айфон, который долгое время пылился на полке. Включив устройство, я увидел не слишком обнадеживающее сообщение: «iPhone отключен. Подключитесь к iTunes». Оно чаще всего говорит о том, что доступ к данным безвозвратно утерян. Однако кое-что исследователю всё же доступно. О том, что мне удалось откопать — рассказываю под катом. Погрузиться
https://habr.com/ru/companies/pt/articles/885370/
#iphone #checkm8 #аппаратная_уязвимость #айфоны #извлечение_данных #данные_приложения #данные_пользователя #файловые_системы #iphone_x