home.social

#дамп — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #дамп, aggregated by home.social.

  1. Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *

    В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.

    habr.com/ru/articles/1027992/

    #словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy

  2. Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *

    В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.

    habr.com/ru/articles/1027992/

    #словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy

  3. Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *

    В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.

    habr.com/ru/articles/1027992/

    #словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy

  4. Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *

    В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.

    habr.com/ru/articles/1027992/

    #словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy

  5. Я календарь переверну — и снова 5 апреля: CPU-утилизация во имя интернационализации

    Недавно наша команда столкнулась с необычным поведением системы, которая начала использовать избыточное количество CPU-ресурсов. В начале года мы запустили миграцию сервиса в новое хранилище PostgreSQL с существующего NoSQL-решения. Сервис среднестатистический, не High-Load, но занимает ключевое место в обработке бизнес-процессов, отвечает за генерацию заданий для коммуникаций с клиентами. Без проблем держит поступающие 30 RPS, ежедневно обрабатывает около миллиона джобов, хранит сотни миллионов строк данных и в среднем потребляет 125ms CPU. До отключения старой инфраструктуры оставались считаные дни, в бэклоге было несколько задач на миграцию, и мы стремились уложиться в сроки. В бэкграунде крутились джобы миграции данных в новую базу, десятки фичатоглов распределяли запросы к базам данных по репозиториям для обратной совместимости, но планы рухнули из-за неожиданного поведения системы.

    habr.com/ru/companies/tbank/ar

    #траблшутинг #потребление_ресурсов #таймзона #профайлинг #дамп

  6. [Перевод] Одна строка кода, которая заблокировала 102 потока

    В прошлом месяце я исследовал периодически возникающие всплески задержек в нашем сервисе отчётности и обнаружил нечто, заставившее меня не поверить своим глазам: 102 потока блокировалось одновременно, и все они ждали одной блокировки. Причиной этого оказалась одна строка кода, выглядевшая совершенно невинно. Это история о том, как DatatypeFactory.newInstance() поставил на колени наш высокопроизводительный Java-сервис, и об удивительно простом решении, позволившем полностью избавиться от проблемы.

    habr.com/ru/articles/1002732/

    #дамп #classloader #потоки

  7. [Перевод] История о потоке UI, зависавшем при вызове ядра

    Однажды клиент обратился ко мне с вопросом о застарелом, но частом зависании, причину которого никак не удавалось выявить. Насколько можно было судить, поток пользовательского интерфейса направлял вызов в ядро, и этот вызов просто зависал без видимых причин. К сожалению, в дампе ядра не выводился стек пользовательского режима, поскольку стек был вытеснен из памяти. Причём, это логично: ведь зависший поток не использовал свой стек. Поэтому, как только в системе возникал дефицит памяти, этот стек из памяти вытеснялся.

    habr.com/ru/articles/902458/

    #Linux #потоки #взаимная_блокировка #баги #стектрейс #дамп

  8. Возвращение блока управления ABS от VAG из состояния “кирпич”

    В данной статье рассматривается процесс восстановления блока управления ABS, который перестал функционировать после неудачной попытки замены ПО. Прошивка была выполнена с использованием файла ODIS, предназначенного для другой модификации блока управления. В результате оригинальное программное обеспечение было повреждено, и его восстановление оказалось сложной задачей из-за отсутствия доступа к исходным данным.

    habr.com/ru/articles/863650/

    #дамп #flash #abs #прошивка #vag #процессор #audi #скрипт #python #ремонт

  9. Хронология ремонта ЭБУ SRS от Volkswagen Crafter

    В статье обсуждается ремонт блока SRS от Volkswagen Crafter посредством исследования его прошивки. Статья рассчитана на профессионалов в области автомобильной электроники.

    habr.com/ru/articles/855834/

    #автомобиль #volkswagen #crafter #срс #srs #дамп #прошивка #безопасность

  10. Как обнаружить хакера на этапе дампа учетных данных в Windows?

    Одна из самых часто используемых техник при атаках — получение учетных данных из операционной системы. В этом можно убедиться, читая аналитические отчеты различных компаний: техника T1003 OS Credential Dumping в подавляющем большинстве случаев входит в ТОП-5. После проникновения в систему злоумышленникам необходимы учетки для перемещения по сети и доступа к конфиденциальной информации, а данная техника направлена на извлечение локальных и доменных учетных записей из системных файлов, реестра и памяти процессов. В этой статье мы акцентируем внимание на своевременном выявлении подозрительной активности с помощью мониторинга ИБ и расскажем, как на основе событий штатной подсистемы аудита ОС обнаружить, что пытаются сдампить учетные данные в Windows. Логика детектирования будет представлена в общем виде по полям событий, а также в виде псевдокода, который можно адаптировать под синтаксис любой системы мониторинга. Ну и для возможности тестирования правил корреляции будут приведены краткая справка по атакам и способы их реализации. Рассмотрим покрытие таких подтехник, как: · дамп процесса lsass.exe; · кража данных из базы SAM; · дамп базы NTDS; · извлечение секретов LSA; · получение кэшированных данных; · атака DCSync.

    habr.com/ru/companies/jetinfos

    #учетные_данные #мониторинг #дамп #детектирование #псевдокод #атаки #кража_данных #sam #ntds #секреты