#обработка_естественного_языка — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #обработка_естественного_языка, aggregated by home.social.
-
Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 3]
Продолжаем рассмотрение, того как правильно оценивать качество ИИ систем, в данной части поговорим про метрики характерные для RAG системы. Способах оценить полноту, точность и соответствия выдачи контексту в подобной системе. На примере библиотеки RAGAS, с разбором того, как эти метрики работают изнутри.
https://habr.com/ru/articles/1035300/
#искусственный_интеллект #качество_продукта #обработка_естественного_языка #ragas #rag #ииагенты
-
Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 3]
Продолжаем рассмотрение, того как правильно оценивать качество ИИ систем, в данной части поговорим про метрики характерные для RAG системы. Способах оценить полноту, точность и соответствия выдачи контексту в подобной системе. На примере библиотеки RAGAS, с разбором того, как эти метрики работают изнутри.
https://habr.com/ru/articles/1035300/
#искусственный_интеллект #качество_продукта #обработка_естественного_языка #ragas #rag #ииагенты
-
Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 3]
Продолжаем рассмотрение, того как правильно оценивать качество ИИ систем, в данной части поговорим про метрики характерные для RAG системы. Способах оценить полноту, точность и соответствия выдачи контексту в подобной системе. На примере библиотеки RAGAS, с разбором того, как эти метрики работают изнутри.
https://habr.com/ru/articles/1035300/
#искусственный_интеллект #качество_продукта #обработка_естественного_языка #ragas #rag #ииагенты
-
Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 3]
Продолжаем рассмотрение, того как правильно оценивать качество ИИ систем, в данной части поговорим про метрики характерные для RAG системы. Способах оценить полноту, точность и соответствия выдачи контексту в подобной системе. На примере библиотеки RAGAS, с разбором того, как эти метрики работают изнутри.
https://habr.com/ru/articles/1035300/
#искусственный_интеллект #качество_продукта #обработка_естественного_языка #ragas #rag #ииагенты
-
AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику
Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, статистики и векторов. В этой статье разберём Bag of Words и TF–IDF – фундаментальные подходы, с которых начинались NLP, поисковые системы и анализ текста. А заодно реализуем поиск похожих документов на чистом PHP без библиотек.
https://habr.com/ru/articles/1034874/
#php #machinelearning #bagofwords #tfidf #BoW #NLP #обработка_естественного_языка #cosine_similarity #векторизация_текста #машинное_обучение
-
AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику
Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, статистики и векторов. В этой статье разберём Bag of Words и TF–IDF – фундаментальные подходы, с которых начинались NLP, поисковые системы и анализ текста. А заодно реализуем поиск похожих документов на чистом PHP без библиотек.
https://habr.com/ru/articles/1034874/
#php #machinelearning #bagofwords #tfidf #BoW #NLP #обработка_естественного_языка #cosine_similarity #векторизация_текста #машинное_обучение
-
AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику
Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, статистики и векторов. В этой статье разберём Bag of Words и TF–IDF – фундаментальные подходы, с которых начинались NLP, поисковые системы и анализ текста. А заодно реализуем поиск похожих документов на чистом PHP без библиотек.
https://habr.com/ru/articles/1034874/
#php #machinelearning #bagofwords #tfidf #BoW #NLP #обработка_естественного_языка #cosine_similarity #векторизация_текста #машинное_обучение
-
AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику
Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, статистики и векторов. В этой статье разберём Bag of Words и TF–IDF – фундаментальные подходы, с которых начинались NLP, поисковые системы и анализ текста. А заодно реализуем поиск похожих документов на чистом PHP без библиотек.
https://habr.com/ru/articles/1034874/
#php #machinelearning #bagofwords #tfidf #BoW #NLP #обработка_естественного_языка #cosine_similarity #векторизация_текста #машинное_обучение
-
От каши к структуре: гибридная AI-система для обработки свободного текста
Как превратить десятки неструктурированных описаний участников сообщества в систему поиска Занимаюсь бэкендом лет 7, Go и Python, немного ML» — попробуйте найти среди двухсот таких описаний нужного человека. Руками — часы. Я автоматизировал это через гибрид LLM + детерминированного кода, и отловил все возможные проблемы. Рассказываю про архитектуру, промпты и решения. * На обложке — Архимболдо «Библиотекарь» (1566): из разрозненных книг складывается цельный образ. Как и профиль участника в системе
https://habr.com/ru/articles/1027724/
#LLM #структурирование_данных #гибридная_архитектура #нормализация #Python #Qwen #YAML #поиск_по_профилям #нетворкинг #обработка_естественного_языка
-
От каши к структуре: гибридная AI-система для обработки свободного текста
Как превратить десятки неструктурированных описаний участников сообщества в систему поиска Занимаюсь бэкендом лет 7, Go и Python, немного ML» — попробуйте найти среди двухсот таких описаний нужного человека. Руками — часы. Я автоматизировал это через гибрид LLM + детерминированного кода, и отловил все возможные проблемы. Рассказываю про архитектуру, промпты и решения. * На обложке — Архимболдо «Библиотекарь» (1566): из разрозненных книг складывается цельный образ. Как и профиль участника в системе
https://habr.com/ru/articles/1027724/
#LLM #структурирование_данных #гибридная_архитектура #нормализация #Python #Qwen #YAML #поиск_по_профилям #нетворкинг #обработка_естественного_языка
-
От каши к структуре: гибридная AI-система для обработки свободного текста
Как превратить десятки неструктурированных описаний участников сообщества в систему поиска Занимаюсь бэкендом лет 7, Go и Python, немного ML» — попробуйте найти среди двухсот таких описаний нужного человека. Руками — часы. Я автоматизировал это через гибрид LLM + детерминированного кода, и отловил все возможные проблемы. Рассказываю про архитектуру, промпты и решения. * На обложке — Архимболдо «Библиотекарь» (1566): из разрозненных книг складывается цельный образ. Как и профиль участника в системе
https://habr.com/ru/articles/1027724/
#LLM #структурирование_данных #гибридная_архитектура #нормализация #Python #Qwen #YAML #поиск_по_профилям #нетворкинг #обработка_естественного_языка
-
От каши к структуре: гибридная AI-система для обработки свободного текста
Как превратить десятки неструктурированных описаний участников сообщества в систему поиска Занимаюсь бэкендом лет 7, Go и Python, немного ML» — попробуйте найти среди двухсот таких описаний нужного человека. Руками — часы. Я автоматизировал это через гибрид LLM + детерминированного кода, и отловил все возможные проблемы. Рассказываю про архитектуру, промпты и решения. * На обложке — Архимболдо «Библиотекарь» (1566): из разрозненных книг складывается цельный образ. Как и профиль участника в системе
https://habr.com/ru/articles/1027724/
#LLM #структурирование_данных #гибридная_архитектура #нормализация #Python #Qwen #YAML #поиск_по_профилям #нетворкинг #обработка_естественного_языка
-
AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU
Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования. Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub . Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть. Поехали!
https://habr.com/ru/companies/mts_ai/articles/1027072/
#nlu #nlp #transformers #data_quality #automl #opensource #ml #искусственный_интеллект #обработка_естественного_языка #автоматизация
-
AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU
Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования. Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub . Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть. Поехали!
https://habr.com/ru/companies/mts_ai/articles/1027072/
#nlu #nlp #transformers #data_quality #automl #opensource #ml #искусственный_интеллект #обработка_естественного_языка #автоматизация
-
AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU
Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования. Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub . Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть. Поехали!
https://habr.com/ru/companies/mts_ai/articles/1027072/
#nlu #nlp #transformers #data_quality #automl #opensource #ml #искусственный_интеллект #обработка_естественного_языка #автоматизация
-
AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU
Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования. Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub . Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть. Поехали!
https://habr.com/ru/companies/mts_ai/articles/1027072/
#nlu #nlp #transformers #data_quality #automl #opensource #ml #искусственный_интеллект #обработка_естественного_языка #автоматизация
-
Способы автоматизации ответов на часто задаваемые вопросы (FAQ)
Автоматизация ответов на часто задаваемые вопросы (FAQ) - актуальная задача в процессах, где важно быстро и качественно взаимодействовать с клиентами и с аудиторией. Если клиент долго не может найти информацию, долго не получает ответа в чате, то он уходит к другому продавцу. В итоге и продажа теряется, и клиент теряется. Особенно это критично во время проведения активной рекламной кампании, когда количество обращений резко возрастает и очень большая часть не успевает обрабатываться. Что можно сделать, чтобы не терять обращения, продажи и клиентов? Ответ: Автоматизировать ответы на часто задаваемые вопросы (FAQ). Автоматизация ответов на часто задаваемые вопросы (FAQ) - один из распространенных способов применения Искусственного Интеллекта в бизнесе. Раньше клиент был вынужден искать информацию самостоятельно на сайте, в том числе в FAQ‑разделе сайта. Если же вопрос отправлялся оператору, то оператору приходилось самому готовить ответ, опираясь на свой опыт и имеющую документацию. Теперь у клиентов появилась возможность составлять свой вопрос на естественном языке, и система автоматически выдает ответ, основываясь на соответствующей Базе Знаний. В итоге клиенты получают быстрые и точные ответы на типичные вопросы и переходят к оформлению и оплате.
https://habr.com/ru/articles/1015142/
#искусственный_интеллект #управление_продажами #поддержка_пользователей #поддержка_клиентов #автоматизация_поддержки #natural_language_processing #обработка_естественного_языка
-
Способы автоматизации ответов на часто задаваемые вопросы (FAQ)
Автоматизация ответов на часто задаваемые вопросы (FAQ) - актуальная задача в процессах, где важно быстро и качественно взаимодействовать с клиентами и с аудиторией. Если клиент долго не может найти информацию, долго не получает ответа в чате, то он уходит к другому продавцу. В итоге и продажа теряется, и клиент теряется. Особенно это критично во время проведения активной рекламной кампании, когда количество обращений резко возрастает и очень большая часть не успевает обрабатываться. Что можно сделать, чтобы не терять обращения, продажи и клиентов? Ответ: Автоматизировать ответы на часто задаваемые вопросы (FAQ). Автоматизация ответов на часто задаваемые вопросы (FAQ) - один из распространенных способов применения Искусственного Интеллекта в бизнесе. Раньше клиент был вынужден искать информацию самостоятельно на сайте, в том числе в FAQ‑разделе сайта. Если же вопрос отправлялся оператору, то оператору приходилось самому готовить ответ, опираясь на свой опыт и имеющую документацию. Теперь у клиентов появилась возможность составлять свой вопрос на естественном языке, и система автоматически выдает ответ, основываясь на соответствующей Базе Знаний. В итоге клиенты получают быстрые и точные ответы на типичные вопросы и переходят к оформлению и оплате.
https://habr.com/ru/articles/1015142/
#искусственный_интеллект #управление_продажами #поддержка_пользователей #поддержка_клиентов #автоматизация_поддержки #natural_language_processing #обработка_естественного_языка
-
Способы автоматизации ответов на часто задаваемые вопросы (FAQ)
Автоматизация ответов на часто задаваемые вопросы (FAQ) - актуальная задача в процессах, где важно быстро и качественно взаимодействовать с клиентами и с аудиторией. Если клиент долго не может найти информацию, долго не получает ответа в чате, то он уходит к другому продавцу. В итоге и продажа теряется, и клиент теряется. Особенно это критично во время проведения активной рекламной кампании, когда количество обращений резко возрастает и очень большая часть не успевает обрабатываться. Что можно сделать, чтобы не терять обращения, продажи и клиентов? Ответ: Автоматизировать ответы на часто задаваемые вопросы (FAQ). Автоматизация ответов на часто задаваемые вопросы (FAQ) - один из распространенных способов применения Искусственного Интеллекта в бизнесе. Раньше клиент был вынужден искать информацию самостоятельно на сайте, в том числе в FAQ‑разделе сайта. Если же вопрос отправлялся оператору, то оператору приходилось самому готовить ответ, опираясь на свой опыт и имеющую документацию. Теперь у клиентов появилась возможность составлять свой вопрос на естественном языке, и система автоматически выдает ответ, основываясь на соответствующей Базе Знаний. В итоге клиенты получают быстрые и точные ответы на типичные вопросы и переходят к оформлению и оплате.
https://habr.com/ru/articles/1015142/
#искусственный_интеллект #управление_продажами #поддержка_пользователей #поддержка_клиентов #автоматизация_поддержки #natural_language_processing #обработка_естественного_языка
-
Способы автоматизации ответов на часто задаваемые вопросы (FAQ)
Автоматизация ответов на часто задаваемые вопросы (FAQ) - актуальная задача в процессах, где важно быстро и качественно взаимодействовать с клиентами и с аудиторией. Если клиент долго не может найти информацию, долго не получает ответа в чате, то он уходит к другому продавцу. В итоге и продажа теряется, и клиент теряется. Особенно это критично во время проведения активной рекламной кампании, когда количество обращений резко возрастает и очень большая часть не успевает обрабатываться. Что можно сделать, чтобы не терять обращения, продажи и клиентов? Ответ: Автоматизировать ответы на часто задаваемые вопросы (FAQ). Автоматизация ответов на часто задаваемые вопросы (FAQ) - один из распространенных способов применения Искусственного Интеллекта в бизнесе. Раньше клиент был вынужден искать информацию самостоятельно на сайте, в том числе в FAQ‑разделе сайта. Если же вопрос отправлялся оператору, то оператору приходилось самому готовить ответ, опираясь на свой опыт и имеющую документацию. Теперь у клиентов появилась возможность составлять свой вопрос на естественном языке, и система автоматически выдает ответ, основываясь на соответствующей Базе Знаний. В итоге клиенты получают быстрые и точные ответы на типичные вопросы и переходят к оформлению и оплате.
https://habr.com/ru/articles/1015142/
#искусственный_интеллект #управление_продажами #поддержка_пользователей #поддержка_клиентов #автоматизация_поддержки #natural_language_processing #обработка_естественного_языка
-
Машинный перевод. Как развивалась технология
Почти десять лет я занимаюсь машинным переводом в Lingvanex - и за это время увидел, как меняются не только модели, но и само понимание языка. В этой статье я прослежу путь от первых философских идей Древней Греции до нейросетей и LLM, которые формируют индустрию сегодня. Разберём ключевые этапы эволюции, прорывные исследования 2024–2026 годов и попробуем понять, куда движется машинный перевод дальше.
https://habr.com/ru/articles/1003076/
#машинный_перевод #machine_translation #artificial_intelligence #llm #llmмодели #технологии #лингвистика #обработка_естественного_языка #nlp #natural_language_processing
-
Машинный перевод. Как развивалась технология
Почти десять лет я занимаюсь машинным переводом в Lingvanex - и за это время увидел, как меняются не только модели, но и само понимание языка. В этой статье я прослежу путь от первых философских идей Древней Греции до нейросетей и LLM, которые формируют индустрию сегодня. Разберём ключевые этапы эволюции, прорывные исследования 2024–2026 годов и попробуем понять, куда движется машинный перевод дальше.
https://habr.com/ru/articles/1003076/
#машинный_перевод #machine_translation #artificial_intelligence #llm #llmмодели #технологии #лингвистика #обработка_естественного_языка #nlp #natural_language_processing
-
Машинный перевод. Как развивалась технология
Почти десять лет я занимаюсь машинным переводом в Lingvanex - и за это время увидел, как меняются не только модели, но и само понимание языка. В этой статье я прослежу путь от первых философских идей Древней Греции до нейросетей и LLM, которые формируют индустрию сегодня. Разберём ключевые этапы эволюции, прорывные исследования 2024–2026 годов и попробуем понять, куда движется машинный перевод дальше.
https://habr.com/ru/articles/1003076/
#машинный_перевод #machine_translation #artificial_intelligence #llm #llmмодели #технологии #лингвистика #обработка_естественного_языка #nlp #natural_language_processing
-
Машинный перевод. Как развивалась технология
Почти десять лет я занимаюсь машинным переводом в Lingvanex - и за это время увидел, как меняются не только модели, но и само понимание языка. В этой статье я прослежу путь от первых философских идей Древней Греции до нейросетей и LLM, которые формируют индустрию сегодня. Разберём ключевые этапы эволюции, прорывные исследования 2024–2026 годов и попробуем понять, куда движется машинный перевод дальше.
https://habr.com/ru/articles/1003076/
#машинный_перевод #machine_translation #artificial_intelligence #llm #llmмодели #технологии #лингвистика #обработка_естественного_языка #nlp #natural_language_processing
-
От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги
Представьте, что вы объясняете ребёнку, что такое «яблоко». Вы покажете картинку, дадите попробовать, расскажете, что оно круглое, сладкое, растёт на дереве, а теперь попробуйте объяснить это нейросети. Она не видит, не пробует, но она понимает только числа. Как же тогда заставить машину понять, что «яблоко» ближе к «груше», чем к «трактору»? Ответ на самом деле кроется в элегантном приёме, который произвёл революцию в NLP- векторных представлениях слов , или эмбеддингах . Проблема «слепого» кодирования: почему one-hot не работает Самый наивный подход- это пронумеровать все слова в словаре и закодировать каждое вектором из нулей и одной единицы:
https://habr.com/ru/articles/992928/
#эмбеддинги #word2vec #nlp #машинное_обучение #векторные_представления #косинусное_сходство #обработка_естественного_языка #нейросети #нейросеть #нейросети_python
-
От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги
Представьте, что вы объясняете ребёнку, что такое «яблоко». Вы покажете картинку, дадите попробовать, расскажете, что оно круглое, сладкое, растёт на дереве, а теперь попробуйте объяснить это нейросети. Она не видит, не пробует, но она понимает только числа. Как же тогда заставить машину понять, что «яблоко» ближе к «груше», чем к «трактору»? Ответ на самом деле кроется в элегантном приёме, который произвёл революцию в NLP- векторных представлениях слов , или эмбеддингах . Проблема «слепого» кодирования: почему one-hot не работает Самый наивный подход- это пронумеровать все слова в словаре и закодировать каждое вектором из нулей и одной единицы:
https://habr.com/ru/articles/992928/
#эмбеддинги #word2vec #nlp #машинное_обучение #векторные_представления #косинусное_сходство #обработка_естественного_языка #нейросети #нейросеть #нейросети_python
-
От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги
Представьте, что вы объясняете ребёнку, что такое «яблоко». Вы покажете картинку, дадите попробовать, расскажете, что оно круглое, сладкое, растёт на дереве, а теперь попробуйте объяснить это нейросети. Она не видит, не пробует, но она понимает только числа. Как же тогда заставить машину понять, что «яблоко» ближе к «груше», чем к «трактору»? Ответ на самом деле кроется в элегантном приёме, который произвёл революцию в NLP- векторных представлениях слов , или эмбеддингах . Проблема «слепого» кодирования: почему one-hot не работает Самый наивный подход- это пронумеровать все слова в словаре и закодировать каждое вектором из нулей и одной единицы:
https://habr.com/ru/articles/992928/
#эмбеддинги #word2vec #nlp #машинное_обучение #векторные_представления #косинусное_сходство #обработка_естественного_языка #нейросети #нейросеть #нейросети_python
-
От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги
Представьте, что вы объясняете ребёнку, что такое «яблоко». Вы покажете картинку, дадите попробовать, расскажете, что оно круглое, сладкое, растёт на дереве, а теперь попробуйте объяснить это нейросети. Она не видит, не пробует, но она понимает только числа. Как же тогда заставить машину понять, что «яблоко» ближе к «груше», чем к «трактору»? Ответ на самом деле кроется в элегантном приёме, который произвёл революцию в NLP- векторных представлениях слов , или эмбеддингах . Проблема «слепого» кодирования: почему one-hot не работает Самый наивный подход- это пронумеровать все слова в словаре и закодировать каждое вектором из нулей и одной единицы:
https://habr.com/ru/articles/992928/
#эмбеддинги #word2vec #nlp #машинное_обучение #векторные_представления #косинусное_сходство #обработка_естественного_языка #нейросети #нейросеть #нейросети_python
-
Базовый минимум. Часть 2: промпт-инжиниринг
Запрос к языковой модели выглядит как обычный текст, но по сути он выполняет роль интерфейса управления. Малейшее изменение формулировки может заметно повысить точность, ясность и практическую применимость результата. Почему так происходит и как формулировать запросы так, чтобы выжимать из модели максимум? Это вторая часть серии «Базовый минимум», в которой собраны основные техники промпт-инжиниринга для повышения качества и стабильности ответов больших языковых моделей.
https://habr.com/ru/articles/988920/
#промптинжиниринг #большие_языковые_модели #обработка_естественного_языка #LLM #научно_популярный_обзор
-
Базовый минимум. Часть 1: большие языковые модели
Чат боты с ИИ легко воспринимать как «умного собеседника». Они отвечают связно и выглядят почти по человечески. Но что на самом деле находится по ту сторону диалогового окна? В этом тексте собраны базовые понятия , без которых трудно без которых сложно уверенно использовать языковые модели в реальных задачах и понимать границы их возможностей.
https://habr.com/ru/articles/986482/
#большие_языковые_модели #искусственный_интеллект #обработка_естественного_языка #языковая_модель #научнопопулярный_обзор
-
[Перевод] Работаем с NLP на Python
На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).
https://habr.com/ru/companies/otus/articles/967254/
#nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация
-
[Перевод] Работаем с NLP на Python
На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).
https://habr.com/ru/companies/otus/articles/967254/
#nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация
-
[Перевод] Работаем с NLP на Python
На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).
https://habr.com/ru/companies/otus/articles/967254/
#nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация
-
[Перевод] Работаем с NLP на Python
На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).
https://habr.com/ru/companies/otus/articles/967254/
#nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация
-
Как тренироваться и не терять клиентов. Симулятор диалогов с клиентами на основе Искусственного Интеллекта (GigaChat)
Каждый продавец знает: одна неудачная фраза - и клиент уходит к конкурентам. Но как отработать навыки общения, не рискуя реальными сделками? Недавно столкнулся с интересной и очевидной задачей: как организовать обучение продавцов или администраторов общению с клиентами таким образом, чтобы не терять реальные сделки ? Тренировки на реальных клиентах - рискованно, ролевые игры с коллегами - не всегда реалистично. Идея пришла сама собой. А что, если дать возможность отрабатывать навыки на виртуальных клиентах, которые ведут себя как настоящие - с капризами, сомнениями, возражениями? Статья о рабочем прототипе симулятора диалогов с различными типами посетителей.
https://habr.com/ru/articles/967394/
#искусственный_интеллект #gigachat #обработка_естественного_языка #симуляция #симулятор #продажи #управление_продажами
-
Мир после трансформеров: закат и новый рассвет больших языковых моделей
Даже если вы избегали ChatGPT и его многочисленных аналогов, то наверняка сталкивались с обработкой текстов ИИ хотя бы в поисковой выдаче. Большие языковые модели (LLM) сейчас применяют повсюду. Проблема в том, что все они построены на одной и той же архитектуре трансформеров, поэтому страдают от общих недостатков. В этой статье эксперты из лаборатории искусственного интеллекта компании «Криптонит» расскажут о существующих ограничениях LLM, наметившихся путях их преодоления и о том, какими будут следующие большие языковые модели. Эпоха трансформеров началась стремительно, и Marvel здесь ни при чём. Исследование OpenAI « Scaling Laws for Neural Language Models » показало, что эта архитектура с механизмом самовнимания легко масштабируется. Производительность LLM предсказуемо растёт с увеличением размера модели, объёма датасетов и доступных вычислительных ресурсов, а это — залог коммерческого успеха. Поэтому в 2020-2021 начался бум развития LLM. Каждая крупная ИТ-компания хотела представить свою модель с миллиардами параметров (и получить миллиарды долларов от инвесторов). Однако в последующей работе « Training Compute-Optimal Large Language Models » от DeepMind появилось важное уточнение: существующие модели слабо оптимизированы по отношению данных к параметрам. Поэтому при дальнейшей разработке моделей стали фокусироваться в том числе и на качестве данных, а не только на размере. Поначалу простое масштабирование и увеличение доли качественных датасетов в обучающих наборах действительно приводили к экспоненциальному росту возможностей LLM. Наверняка вы помните, как с каждым релизом ChatGPT умнел (а мы глупели) .
https://habr.com/ru/companies/kryptonite/articles/961128/
#LLM #большие_языковые_модели #трансформеры #обработка_естественного_языка #NLP #искусственный_интеллект #машинное_обучение #ChatGPT #DeepSeek #Grok
-
Ловим «взрослые» сцены на видео: как ИИ помогает редакторам
Поводом для написания этой заметки стало обсуждение на недавнем отраслевом мероприятии задач мультимодерации контента: как быстро и надёжно находить «взрослые» сцены в длинных видео и автоматически подсвечивать фрагменты для ручной проверки. Похожие кейсы регулярно встречаются и в открытых соревнованиях по ИИ (например, в подборке задач Wink AI Challenge на Codenrock).
https://habr.com/ru/articles/960952/
#Модерация_контента #Компьютерное_зрение #обработка_естественного_языка #аудиоанализ #машинное_обучение #YOLO #Whisper #Streamlit #гибридная_модерация #возрастной_рейтинг
-
[Перевод] BERT — это всего лишь одноэтапная диффузия текста
Некоторое время назад компания Google DeepMind представила Gemini Diffusion — экспериментальную языковую модель, генерирующую текст методом диффузии. В отличие от традиционных моделей, написанных в стиле GPT и генерирующих слово за словом, Gemini создаёт текст целыми блоками, пошагово уточняя случайный шум. Я прочитал статью « Large Language Diffusion Models » — и с удивлением узнал, что дискретная диффузия языка представляет собой просто обобщение метода генерации пропущенного токена (MLM), практикуемого уже с 2018 года. Я сразу подумал: «А можно ли тонко настроить BERT-подобную модель так, чтобы приспособить её к генерации текста?» Из чистого любопытства решил наскоро набросать проверку концепции. Примечание: уже после того, как написал эту статью, я наткнулся на исследование DiffusionBERT , где сделано практически то же самое, что и у меня, но проект гораздо тщательнее протестирован. Посмотрите этот пост, если тема вас заинтересовала.
https://habr.com/ru/articles/959814/
#LLM #GPT #BERT #обработка_естественного_языка #токены #оптимизация
-
[Перевод] Что именно ИИ-чатботы делают «под капотом»
Среди друзей я пользуюсь репутацией «ты ж программист», поэтому у меня нередко интересуются, как именно работают «под капотом» такие известные инструменты как ChatGPT, Claude, Grok или DeepSeek. Со временем я отточил ответ на этот вопрос — и потому, что нашёл способы лучше на него отвечать, и потому, что научился сам создавать большую языковую модель с нуля. Поэтому и сам понимать большие языковые модели я стал гораздо лучше. В этой статье я попытаюсь простыми словами описать, что именно в них происходит. Пост состоит из серии объяснений, причём, каждое последующее из них основано на предыдущих, но немного уточняет их. Так мы постепенно дойдём до такого объяснения, которое будет совершенно строгим и верным, но могло бы немного вас ошеломить, если выдать его без подготовки. Если вы — технарь, и читаете эту статью, чтобы больше узнать об ИИ, то настоятельно рекомендую вам дочитать её до конца. Если вы открыли ссылку просто из интереса, то можете смело читать до тех пор, пока вам будет интересно. Возможно, вы станете более уверенно понимать, что происходит в трансформерах, даже если не уловите всех мелких деталей.
https://habr.com/ru/articles/958820/
#llmмодели #чатбот #нейросети #обработка_естественного_языка #токены
-
Симуляция делового совещания с GigaChat. Вся сила в промпте
Недавно мне поступил необычный запрос: нужен инструмент, который позволил бы отрабатывать навыки управления командой в условиях, максимально приближенных к реальности. Так родилась идея: создать деловую игру - симулятор делового совещания , где игрок выступает в роли CEO, а реплики остальных участников генерирует ИИ (GigaChat) . Хотелось проверить, насколько реалистичными могут быть дискуссии, если задать правильные условия. Эта статья - о проработке промпта, результатах и выводах.
https://habr.com/ru/articles/955494/
#искусственный_интеллект #gigachat #обработка_естественного_языка #симуляция #симулятор
-
130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных
Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.
https://habr.com/ru/companies/magnus-tech/articles/954130/
#машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи
-
130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных
Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.
https://habr.com/ru/companies/magnus-tech/articles/954130/
#машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи
-
130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных
Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.
https://habr.com/ru/companies/magnus-tech/articles/954130/
#машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи
-
130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных
Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.
https://habr.com/ru/companies/magnus-tech/articles/954130/
#машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи
-
Создание Системы генерации ответов на истории тикетов поддержки (часть 2)
Привет, Хабр! Меня зовут Анатолий, занимаюсь автоматизацией бизнес-процессов и применением Искусственного Интеллекта в бизнесе. Кейсовая задача - создать Систему генерации ответов на основе существующей истории тикетов. При этом Система должна работать в закрытом контуре. В этой части переходим к семантическому поиску, контекстному сходству и SentenceTransformer.
https://habr.com/ru/articles/945404/
#искусственный_интеллект #искусственные_нейронные_сети #обработка_естественного_языка #natural_language_processing #поддержка_клиентов #поддержка_пользователей #большие_языковые_модели #автоматизация_бизнеса #aiпоиск #aiразработка
-
Система генерации ответов на истории тикетов поддержки (часть 1)
Привет, Хабр! Меня зовут Анатолий, занимаюсь диалоговыми системами, автоматизацией бизнес-процессов, применением Искусственного Интеллекта в бизнесе. Кейсовая задача - создать ассистента оператора службы поддержки, используя существующую историю тикетов.
https://habr.com/ru/articles/938858/
#искусственный_интеллект #python #программирование #искусственные_нейронные_сети #обработка_естественного_языка #поддержка_клиентов #поддержка_пользователей #natural_language_processing #большие_языковые_модели #автоматизация_бизнеса
-
[Перевод] Мешок слов, пощади! Как перестать видеть интеллект там, где его нет
Когда к ИИ-инструменту привыкают, его порой начинают воспринимать как разум — будто за ответами скрывается личность с намерениями и логикой. Но это не что иное как ловушка антропоморфизма: мы приписываем моделям человеческие качества и потом удивляемся, когда они выдают банальности или абсурдные советы. В статье предлагается более честная и полезная метафора — «мешок слов». Она объясняет, почему LLM предсказуемо сильны в одних задачах и столь же предсказуемо сыплются в других, а главное — почему сравнивать их с людьми изначально неправильно.
https://habr.com/ru/companies/otus/articles/943840/
#llm #языковые_модели #искусственный_интеллект #антропоморфизм #машинное_обучение #генерация_текста #обработка_естественного_языка
-
Стирая языковые границы для NLP-датасетов
Всем привет. В этом посте расскажем, как мы тестировали БЯМ для перевода англоязычных датасетов на русский. «Мы» — это ваш покорный слуга и ребята из ФИЦ ИУ РАН. Пост по факту перевод нашей статьи, которая была опубликована еще в апреле, но вот руки до поста дошли только сейчас.
https://habr.com/ru/articles/935820/
#обработка_естественного_языка #термины #определения #deft #llm #перевод #bert #методология
-
Стирая языковые границы для NLP-датасетов
Всем привет. В этом посте расскажем, как мы тестировали БЯМ для перевода англоязычных датасетов на русский. «Мы» — это ваш покорный слуга и ребята из ФИЦ ИУ РАН. Пост по факту перевод нашей статьи, которая была опубликована еще в апреле, но вот руки до поста дошли только сейчас.
https://habr.com/ru/articles/935820/
#обработка_естественного_языка #термины #определения #deft #llm #перевод #bert #методология
-
Стирая языковые границы для NLP-датасетов
Всем привет. В этом посте расскажем, как мы тестировали БЯМ для перевода англоязычных датасетов на русский. «Мы» — это ваш покорный слуга и ребята из ФИЦ ИУ РАН. Пост по факту перевод нашей статьи, которая была опубликована еще в апреле, но вот руки до поста дошли только сейчас.
https://habr.com/ru/articles/935820/
#обработка_естественного_языка #термины #определения #deft #llm #перевод #bert #методология