#large_language_model — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #large_language_model, aggregated by home.social.
-
Память для LLM-чата на Python. Часть 3: добавляем историю сообщений и контекст
Во второй части мы сделали консольный чат с циклом и system prompt. Но у него был пробел: каждый запрос шёл к модели независимо, без контекста предыдущих реплик. В третьей части добавляем историю сообщений — и чат наконец начинает помнить разговор.
https://habr.com/ru/articles/1018688/
#python #ollama #litellm #llm #локальные_модели #искуственный_интеллект #npl #чатбот #ai #large_language_model
-
Память для LLM-чата на Python. Часть 3: добавляем историю сообщений и контекст
Во второй части мы сделали консольный чат с циклом и system prompt. Но у него был пробел: каждый запрос шёл к модели независимо, без контекста предыдущих реплик. В третьей части добавляем историю сообщений — и чат наконец начинает помнить разговор.
https://habr.com/ru/articles/1018688/
#python #ollama #litellm #llm #локальные_модели #искуственный_интеллект #npl #чатбот #ai #large_language_model
-
Память для LLM-чата на Python. Часть 3: добавляем историю сообщений и контекст
Во второй части мы сделали консольный чат с циклом и system prompt. Но у него был пробел: каждый запрос шёл к модели независимо, без контекста предыдущих реплик. В третьей части добавляем историю сообщений — и чат наконец начинает помнить разговор.
https://habr.com/ru/articles/1018688/
#python #ollama #litellm #llm #локальные_модели #искуственный_интеллект #npl #чатбот #ai #large_language_model
-
Память для LLM-чата на Python. Часть 3: добавляем историю сообщений и контекст
Во второй части мы сделали консольный чат с циклом и system prompt. Но у него был пробел: каждый запрос шёл к модели независимо, без контекста предыдущих реплик. В третьей части добавляем историю сообщений — и чат наконец начинает помнить разговор.
https://habr.com/ru/articles/1018688/
#python #ollama #litellm #llm #локальные_модели #искуственный_интеллект #npl #чатбот #ai #large_language_model
-
Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 1: ставим окружение и пишем первый запрос
Простой старт в LLM-разработке без API-ключей и облака: ставим Ollama, скачиваем модель и делаем первый вызов из Python через LiteLLM.
https://habr.com/ru/articles/1012182/
#Python #Ollama #LiteLLM #LLM #локальные_модели #искусственный_интеллект #NLP #чатбот #AI #large_language_model
-
Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 1: ставим окружение и пишем первый запрос
Простой старт в LLM-разработке без API-ключей и облака: ставим Ollama, скачиваем модель и делаем первый вызов из Python через LiteLLM.
https://habr.com/ru/articles/1012182/
#Python #Ollama #LiteLLM #LLM #локальные_модели #искусственный_интеллект #NLP #чатбот #AI #large_language_model
-
Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 1: ставим окружение и пишем первый запрос
Простой старт в LLM-разработке без API-ключей и облака: ставим Ollama, скачиваем модель и делаем первый вызов из Python через LiteLLM.
https://habr.com/ru/articles/1012182/
#Python #Ollama #LiteLLM #LLM #локальные_модели #искусственный_интеллект #NLP #чатбот #AI #large_language_model
-
Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 1: ставим окружение и пишем первый запрос
Простой старт в LLM-разработке без API-ключей и облака: ставим Ollama, скачиваем модель и делаем первый вызов из Python через LiteLLM.
https://habr.com/ru/articles/1012182/
#Python #Ollama #LiteLLM #LLM #локальные_модели #искусственный_интеллект #NLP #чатбот #AI #large_language_model
-
Как мы строили своего AI-агента для генерации тестовой документации — опыт QA-команды мобильных секретарей
Привет, Хабр! На связи QA-команда мобильных секретарей — Настя и Ксюша. Как и многие в QA, мы постоянно работаем с документацией. Ее много, она лежит в Confluence, постоянно меняется, что-то прилетает от партнеров, что-то дописывают аналитики и разработчики. В итоге на то, чтобы собрать все воедино, проанализировать и написать качественные чек-листы или тест-кейсы, уходит много времени. В какой-то момент мы подумали: «А что, если создать AI-агента, заточенного под наши процессы, который будет делать это за нас?». Так и родился наш проект. Рассказываем, как это было.
https://habr.com/ru/companies/just_ai/articles/1006832/
#lowcode_платформа #нейросети_для_разработчиков #llm #нейросети #ai_agents #ai_agent_tutorial #agentkit #ииагенты #large_language_model #ai
-
Как мы строили своего AI-агента для генерации тестовой документации — опыт QA-команды мобильных секретарей
Привет, Хабр! На связи QA-команда мобильных секретарей — Настя и Ксюша. Как и многие в QA, мы постоянно работаем с документацией. Ее много, она лежит в Confluence, постоянно меняется, что-то прилетает от партнеров, что-то дописывают аналитики и разработчики. В итоге на то, чтобы собрать все воедино, проанализировать и написать качественные чек-листы или тест-кейсы, уходит много времени. В какой-то момент мы подумали: «А что, если создать AI-агента, заточенного под наши процессы, который будет делать это за нас?». Так и родился наш проект. Рассказываем, как это было.
https://habr.com/ru/companies/just_ai/articles/1006832/
#lowcode_платформа #нейросети_для_разработчиков #llm #нейросети #ai_agents #ai_agent_tutorial #agentkit #ииагенты #large_language_model #ai
-
Как мы строили своего AI-агента для генерации тестовой документации — опыт QA-команды мобильных секретарей
Привет, Хабр! На связи QA-команда мобильных секретарей — Настя и Ксюша. Как и многие в QA, мы постоянно работаем с документацией. Ее много, она лежит в Confluence, постоянно меняется, что-то прилетает от партнеров, что-то дописывают аналитики и разработчики. В итоге на то, чтобы собрать все воедино, проанализировать и написать качественные чек-листы или тест-кейсы, уходит много времени. В какой-то момент мы подумали: «А что, если создать AI-агента, заточенного под наши процессы, который будет делать это за нас?». Так и родился наш проект. Рассказываем, как это было.
https://habr.com/ru/companies/just_ai/articles/1006832/
#lowcode_платформа #нейросети_для_разработчиков #llm #нейросети #ai_agents #ai_agent_tutorial #agentkit #ииагенты #large_language_model #ai
-
Как мы строили своего AI-агента для генерации тестовой документации — опыт QA-команды мобильных секретарей
Привет, Хабр! На связи QA-команда мобильных секретарей — Настя и Ксюша. Как и многие в QA, мы постоянно работаем с документацией. Ее много, она лежит в Confluence, постоянно меняется, что-то прилетает от партнеров, что-то дописывают аналитики и разработчики. В итоге на то, чтобы собрать все воедино, проанализировать и написать качественные чек-листы или тест-кейсы, уходит много времени. В какой-то момент мы подумали: «А что, если создать AI-агента, заточенного под наши процессы, который будет делать это за нас?». Так и родился наш проект. Рассказываем, как это было.
https://habr.com/ru/companies/just_ai/articles/1006832/
#lowcode_платформа #нейросети_для_разработчиков #llm #нейросети #ai_agents #ai_agent_tutorial #agentkit #ииагенты #large_language_model #ai
-
Cryfish: Как научить большую языковую модель слышать и понимать звуки?
В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам. В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.
https://habr.com/ru/articles/972898/
#machine_learning #large_language_model #neural_networks #speech_recognition #speaker_verification
-
Cryfish: Как научить большую языковую модель слышать и понимать звуки?
В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам. В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.
https://habr.com/ru/articles/972898/
#machine_learning #large_language_model #neural_networks #speech_recognition #speaker_verification
-
Cryfish: Как научить большую языковую модель слышать и понимать звуки?
В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам. В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.
https://habr.com/ru/articles/972898/
#machine_learning #large_language_model #neural_networks #speech_recognition #speaker_verification
-
Cryfish: Как научить большую языковую модель слышать и понимать звуки?
В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам. В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.
https://habr.com/ru/articles/972898/
#machine_learning #large_language_model #neural_networks #speech_recognition #speaker_verification
-
[Перевод] Какой табличный формат LLM понимают лучше всего? (Результаты по 11 форматам)
Команда AI for Devs подготовила перевод статьи о том, в каком формате лучше всего передавать таблицы LLM. Исследование охватило 11 популярных форматов — от CSV и JSON до YAML и Markdown. Результаты неожиданны: разница в точности достигает 16 процентных пунктов, а выбор формата напрямую влияет на стоимость инференса и стабильность RAG-пайплайнов.
https://habr.com/ru/articles/955778/
#llms #large_language_model #ai #markdown #gpt4 #openai #csv #json #yaml #xml
-
Access powerful Large Language Models in Galaxy easily
https://galaxyproject.org/news/2025-10-10-llm-hub/@galaxyfreiburg
#UseGalaxy #GalaxyProject #EOSC #ai #machine_learning #llm #large_language_model #open_ai #deepseek #mistral #meta #image_models #multimodal_models #gpt -
Access powerful Large Language Models in Galaxy easily
https://galaxyproject.org/news/2025-10-10-llm-hub/@galaxyproject
#UseGalaxy #GalaxyProject #EOSC #UniFreiburg #ai #machine_learning #llm #large_language_model #open_ai #deepseek #mistral #meta #image_models #multimodal_models #gpt -
RAG и векторные БД: НЕ Сизифов LLM на Java и Spring Ai
Привет! Меня зовут Бромбин Андрей, и сегодня я разберу на практике, что такое RAG-системы и как они помогают улучшать поиск. Покажу, как использовать Spring AI, векторные базы данных и LLM. Ты получишь теорию и пример реализации на Java и Spring Boot – от идеи до работающего сервиса. Без сложных формул – только чёткие объяснения и код. Обновить резюме
https://habr.com/ru/companies/ruvds/articles/924100/
#spring_ai #исскуственный_интеллект #qdrant #semantic_search #retrieval_augmented_generation #vector_database #large_language_model #java #ruvds_статьи #космотекст
-
Universal and Transferable Attacks on Aligned Language Models
The article demonstrates that it is possible to automatically construct adversarial attacks on LLMs by appending specifically chosen character sequences to the user query.
#llm #artificialintelligence #ai #machinelearning #cybersecurity #jailbreak #large_language_model #compsci #ChatGPT #GoogleBard #Claude
-
OpenAI AgentKit vs Just AI Agent Platform: где ограничения, а где возможности?
Привет, Хабр! Меня зовут Даниил Сухан, я занимаюсь разработкой AI-приложений в Just AI.Недавно вышедший AgentKit от OpenAI быстро стал одним из самых обсуждаемых инструментов в сообществе разработчиков. Мы протестировали платформу для создания ИИ-агентов от OpenAI и сравнили её с нашей Agent Platform. В этой статье разбираем, как создаются агенты на обеих платформах, и в чём заключаются их принципиальные отличия.
https://habr.com/ru/companies/just_ai/articles/967338/
#ai_agent #agentkit #ai #llm #ииагенты #нейросети #lowcode #large_language_model #ииприложение #openai
-
[Перевод] Как с помощью supervised fine-tuning кастомизировать LLM
В быстро развивающейся сфере Natural Language Processing (NLP) fine-tuning стал мощным и эффективным инструментом адаптации предварительно обученных больших языковых моделей (Large Language Model, LLM) под конкретные задачи. Предварительно обученные LLM (например, семейство GPT) продемонстрировали существенный прогресс в понимании и генерации языка. Однако эти предварительно обученные модели обычно учатся на огромных объёмах текстовых данных при помощи обучения без учителя и могут быть не оптимизированы под узкую задачу. Fine-tuning позволяет закрыть этот пробел, воспользовавшись преимуществами общего понимания языка, полученными во время предварительного обучения, и адаптировав их к целевой задаче при помощи обучения с учителем. Благодаря fine-tuning предварительно обученной модели на специфичном для задачи датасете разработчики NLP могут достигать впечатляющих результатов с гораздо меньшим объёмом данных обучения и вычислительных ресурсов, чем при обучении модели с нуля. В частности, для LLM fine-tuning крайне важен, так как повторное обучение на всём объёме данных вычислительно слишком затратно. Сравнение предварительного обучения LLM и fine-tuning Успех fine-tuning привёл ко множеству передовых результатов в широком спектре задач NLP и сделал его стандартной практикой в разработке высокоточных языковых моделей. Исследователи и практики продолжают исследовать варианты и оптимизации методик fine-tuning, чтобы ещё больше расширить возможности NLP. В этой статье мы глубже изучим процесс fine-tuning LLM на основе инструкций при помощи библиотеки transformers двумя разными способами: просто с библиотекой transformers и с модулем trl .
https://habr.com/ru/articles/829324/
#Машинное_обучение #LLM #Finetuning #SFT #Supervised_finetuning #NLP #Large_Language_Model #датасет #размета_данных #dataset #данные #data #разметка
-
How I code with AI on a budget/free
https://wuu73.org/blog/aiguide1.html
#ycombinator #AI_coding #vibe_coding #debug #free_AI #Cline #AI_Code_Prep_GUI #VS_Code #Gemini_AI_Studio #OpenRouter #ChatGPT #Perplexity_AI #Deepseek #Grok #Poe #Github_Copilot #budget_AI #coding_workflow #LLM #large_language_model -
Выбираем open-source эмбеддинг-модель для AI-консультанта на русском (RAG-подход)
Разрабатывая AI-консультантов и ассистентов на базе RAG-архитектуры, работающих с корпоративными базами знаний на русском языке, мы столкнулись с вопросом: какие открытые эмбеддинг-модели дают лучший баланс качества семантического поиска на русском и скорости работы. Особенно это актуально, когда запросы и документы русскоязычные, но внутри часто попадаются фрагменты кода/SQL и англоязычной терминологии. Мы прогнали 9 open-source эмбеддинг-моделей через несколько тестов, включающих проверки:
-
[Перевод] Селективная генерализация: улучшение возможностей при сохранении alignment
TL;DR: Мы провели бенчмаркинг семи методов, направленных на предотвращение эмерджентного рассогласования и других форм некорректного обобщения с использованием ограниченного объёма alignment-данных. Мы демонстрируем устойчивый трейдофф между способностями модели и согласованием, подчеркивая необходимость более эффективных методов для снижения этого конфликта. Простое включение alignment-данных в микс обучающих данных оказывается недостаточным для предотвращения рассогласования, однако простое наложение KL Divergence penalty на alignment-данные показывает лучшие результаты, чем более сложные подходы.
https://habr.com/ru/articles/945838/
#llm #alignment #lora #large_language_model #ии #ai #finetuning #парето
-
[Перевод] Как строить умных AI-агентов: уроки Context Engineering от Manus
В самом начале проекта Manus перед нашей командой встал ключевой вопрос: обучать ли end-to-end агентную модель, используя open-source foundation-модели, или же строить агента поверх возможностей in-context learning у frontier models? В моё первое десятилетие в NLP у нас и выбора-то такого не было. В далёкие времена BERT (да, прошло уже семь лет) модели приходилось fine-tune'ить и тестировать, прежде чем они могли переноситься на новую задачу. Этот процесс часто занимал недели на одну итерацию, даже при том, что тогдашние модели были крошечными по сравнению с сегодняшними LLM. Для быстроразвивающихся приложений, особенно на этапе до PMF, такие медленные циклы обратной связи — смертный приговор. Это был горький урок из моего прошлого стартапа, где я обучал модели с нуля для open information extraction и семантического поиска. А потом появились GPT-3 и Flan-T5 , и мои внутренние модели стали не актуальны буквально за ночь. Ирония в том, что именно эти модели положили начало in-context learning — и открыли совершенно новый путь развития. Из этого болезненного опыта выбор был очевиден: Manus делает ставку на context engineering . Это позволяет выпускать улучшения за часы, а не за недели, и держит наш продукт ортогональным по отношению к базовым моделям: если прогресс моделей — это прилив, то мы хотим, чтобы Manus был лодкой , а не сваей, вбитой в морское дно. Тем не менее context engineering оказался далеко не тривиальным делом. Это экспериментальная наука — и мы перестраивали наш агентный фреймворк четыре раза, каждый раз находя более удачный способ формировать контекст. Мы с любовью называем этот ручной процесс перебора архитектур, подбора промптов и эмпирических догадок «Stochastic Graduate Descent» . Это не изящно, но работает. В этом посте я делюсь локальными оптимумами, к которым мы пришли через собственный «SGD». Если вы создаете своего AI-агента, надеюсь, эти принципы помогут вам сойтись к решению быстрее.
https://habr.com/ru/articles/936954/
#ai #ai_agent #ai_assistants #nlp #llm #large_language_model #mcp #rag #manus #fewshot_prompting
-
[Перевод] ИИ под контролем: Guardrails как щит от рисков в агентных системах
Вы когда-нибудь задавали вопрос AI-чатботу и получали в ответ что-то вроде: «Я не могу с этим помочь» ? Если да — значит, вы уже сталкивались с guardrails в действии. Это встроенные механизмы контроля, ограничивающие, что именно может и не может делать система ИИ. Например, представьте себе AI-агента, работающего в роли тревел-ассистента. Он поможет вам забронировать рейсы или отели, но не станет отвечать на вопросы по истории или объяснять, как починить компьютер. Это потому, что его поведение ограничено guardrails, сконфигурированными под выполнение конкретных задач. В этой статье мы разберёмся, что такое guardrails, как они работают и почему они критичны для построения безопасных и надёжных агентных систем ИИ. Поехали!
https://habr.com/ru/articles/936156/
#ai #ai_agent #ai_chatbot #ии #ииассистент #ии_чатбот #искусственный_интеллект #llm #genai #large_language_model
-
Как мы построили свой инструмент для работы с LLM
Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи. В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio. Итак, что же такое Data Studio ? Data Studio — это инструмент для работы с задачами обработки естественного языка (NLP), который мы используем в основном для улучшения качества перевода текста. С помощью Data Studio можно обучать модели перевода, настраивать различные параметры для этих тренировок, токенизировать данные, фильтровать их по различным параметрам, собирать метрики, создавать данные для обучения, тестирования и валидации и многое другое. Общий процесс создания языковой модели для перевода выглядит так: 1) Предобработка данных: этап подготовки данных перед обучением модели. 2) Фильтрация с использованием структурных и семантических фильтров. 3) Сбор общего набора данных: удаление избыточности, равномерное распределение тем и длин, сортировка. 4) Тегирование для классификации данных. 5) Загрузка общего набора данных в Data Studio для проверки. 6) Создание данных для валидации и тестирования модели. 7) Обучение модели.
https://habr.com/ru/articles/924174/
#машинное_обучениe #инструментарий #llm #llmмодели #искусственный_интеллект #языковые_модели #large_language_model #большие_языковые_модели #ai #обработка_данных
-
Эра ИИ: судьба работников умственного труда
Если вы работаете с компьютером удаленно — вас можно заменить. Я переживаю, что с развитием ИИ (искусственного интеллекта), он скоро заменит нас. Людям, работающим с монитором и клавиатурой, технически сделать замену гораздо проще, чем сантехникам, поварам и нефтяникам. Владельцы бизнесов быстро сделают выбор в пользу оплаты подписки ИИ или установки своей такой системы, вместо людей, если это будет дешевле и эффективнее. Подобное уже произошло раньше на заводах, но это заняло несколько поколений. И если раньше, лет 200 назад, на заводе трудились десятки тысяч человек, то сейчас аналогичный завод обслуживают всего сотни сотрудников. Так и с работниками умственного труда, как только станут доступны эффективные замещающие технологии, так такие работники не понадобятся. Перспектива подобных потрясений пугает!
https://habr.com/ru/articles/919010/
#нейронные_сети #large_language_model #искусственный_интеллект #роботы #удаленная_работа #рынок_труда
-
[Перевод] Возвращаюсь к работе мозгом после месяцев кодинга с LLM
TLDR: LLM неплохо справляются с кодингом, но в больших проектах они пишут запутанный сумбур. Я уменьшил объём использования ИИ при кодинге и вернулся к работе головой, ручке и бумаге. Несколько месяцев назад мне нужно было создать новую инфраструктуру для моего SaaS, потому что связка из PHP+MySQL перестала отвечать нашим требованиям. Мне не терпелось воспользоваться этой возможностью, чтобы максимально задействовать все новые LLM, с которыми я экспериментировал. Поэтому я временно отказался от должности разработчика ПО, став сам себе продакт-менеджером. Я обсуждал с Claude технологии, проводил собственные исследования и спустя много итераций составил план. В итоге я решил использовать Go+Clickhouse. Когда настала пора начинать кодить, я попросил Claude сгенерировать большой и сложный файл markdown с описанием моей старой инфраструктуры, желаемой новой инфраструктуры, перечислением того, чего я хочу достичь, почему мне это нужно и так далее. Потом я закинул это всё в Cursor Notepads и начал составлять промпты. Cursor пишет код, я собираю и тестирую его. Меня вполне устраивало происходящее, кодовая база была не самой чистой, но вроде работала. Мне важнее была скорость разработки, а не чистота кода — мои бизнес-клиенты SaaS сказали, что им нужны определённые данные, а эта новая инфраструктура была единственным способом их доставки. У меня было ещё несколько потенциальных клиентов, ожидающих моего сообщения о том, что всё готово, чтобы можно было приобрести тарифный план. Пока всё не готово, я в буквальном смысле каждый день теряю деньги.
https://habr.com/ru/articles/910978/
#gemini #deepseek #claude #большие_языковые_модели #large_language_model #llm
-
Большой обзор больших языковых моделей
LLM, или большая языковая модель, это нейронная сеть с крайне большим количеством изменяемых параметров, которая позволяет решать задачи по обработке и генерации текста. Чаще всего реализована в виде диалогового агента, с которым можно общаться в разговорной форме. Но это только определение, причём одно из. В статье — больше о понятиях LLM, из чего она состоит, а также возможность немного попрактиковаться.
https://habr.com/ru/companies/gaz-is/articles/884410/
#llm #large_language_model #nlp #машинное_обучение #искусственный_интеллект #нейросети #большая_языковая_модель
-
Andrej Karpathy: Deep Dive into LLMs Like ChatGPT [video]
https://www.youtube.com/watch?v=7xTGNNLPyMI
#ycombinator #llm #chatgpt #deep_dive #deep_learning #introduction #large_language_model -
Машинный перевод
Автор статьи: Сергей Артамонов - DS Wildberries, Research Engineer Skoltech, аспирант мехмата МГУ, преподаватель Школы Высшей Математики Машинный перевод - одна из самых старых и проработанных задач обработки естественного языка. Машинный перевод выделяется на фоне всего многообразия задач этой дисциплины, и для этого есть несколько причин. Во-первых, машинный перевод – одна из наиболее практически значимых задач всей индустрии: машинный перевод применим повсеместно, и едва ли найдётся область, в которой не требовалось бы автоматически переводить тексты с одного языка на другой. Во-вторых, история развития машинного перевода олицетворяет историю развития NLP в целом – в машинном переводе, как в зеркале, отражались популярные подходы к обработке языка своего времени. Наконец, машинный перевод уникален тем, что в определённом смысле в последние 70 лет был локомотивом ключевых изменений, происходивших не только в NLP, но и в AI в целом: огромное количество идей и разработок, составляющих сегодня техническую повседневность, были впервые опробованы в качестве методов улучшения задачи машинного перевода. Сегодня мы поговорим о том, как развивались методы машинного перевода, как машинный перевод двигал вперёд NLP, что он представляет из себя сегодня и как понять, хороший ли перевод перед нами.
https://habr.com/ru/articles/879240/
#машинный_перевод #искусственный_интеллект #искусственные_нейронные_сети #машинное_обучение #Школа_Высшей_Математики #ШВМ #llm #large_language_model
-
Невидимые герои. Почему профессия промпт-инженера действительно важна для ML-сферы
Всем привет. Я Игорь Филатов, ML-разработчик в компании MTS AI, до этого я около полугода работал промпт-инженером. Сегодня я расскажу вам о том, из чего состоит работа промпт-инженера, можно ли назвать ее тяжелым трудом, и как попасть в эту сферу. И заодно признаюсь, почему я все же решил сменить эту профессию. В чем суть промпт-инжиниринга? Обычно промпт-инжиниринг понимают в широком смысле – это процесс написания промптов для решения той или иной задачи. Правда, здесь подразумеваются не только бытовые запросы, когда пользователь хочет получить что-то конкретное – например, рецепт лазаньи или текст для публикации в соцсетях. промпт-инженер также решает более стратегические задачи – например, как с помощью более оптимального использования нейросетей тратить меньше времени и ресурсов на выполнение тех или иных бизнес-задач, получая стабильный и качественный результат. В узком смысле промпт-инжиниринг — это про оптимизацию запросов к языковым моделям. Этот процесс не похож на бытовое написание промптов, он ближе к научно-исследовательским подходам. Чтобы добиться нужного результата. специалисты применяют специальные техники – например, Chain of Thought, когда при решении задачи модель последовательно объясняет полную цепочку своих размышлений, тем самым повышая качество ответа и интерпретируемость данных. У промпт-инжиниринга и генеративных нейросетей в целом есть одно ключевое преимущество – работать с ними быстро и просто. Это позволяет условному продакт-менеджеру или маркетологу протестировать гипотезу или составить Proof-of-Concept, для этого не нужно быть классным ML-специалистом и тратить много часов на получение первичного результата.
https://habr.com/ru/companies/mts_ai/articles/870014/
#промт #llm #промптинжиниринг #промптинг #промпт #ии #искусственный_интеллект #large_language_model #promptengineering
-
Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений Авито
Привет! Я Настя Рысьмятова, руковожу командой LLM в Авито . Эта статья — про то, какие задачи мы решаем с помощью языковых моделей и как адаптируем их под себя. Мой опыт будет интересен прежде всего тем, кто тоже занимается большими языковыми моделями в крупных продуктовых компаниях. А всем остальным любопытно будет узнать, как модели учатся и решают конкретные задачи Авито — например, помогают пользователям писать тексты объявлений.
https://habr.com/ru/companies/avito/articles/852958/
#LLM #large_language_models #large_language_model #nlp #ai #avito
-
Moshi: GPT4-O voice mode дома (обзор)
Прежде чем приступать к самому обзору, хотелось бы обозначить отличительные черты подхода, относительно большинства диалоговых систем: Текущие системы работают в каскадной манере: сначала «активационное» слово, затем аудио переводится в текст (ASR), текст обрабатывается и анализируется, и, наконец, ответ генерируется через TTS. Однако это медленно, теряет эмоции и «живость» разговора, и, что самое важное, все взаимодействие происходит через жесткое чередование говорящих — сначала ты, потом я, и так далее.
https://habr.com/ru/articles/845744/
#llm #sound #ai #ml #audio #large_language_model #tts #asr #nlu
-
Актуальные угрозы безопасности в Large Language Model Applications
Привет, Хабр! Меня зовут Артем Бачевский. Я был разработчиком, архитектором, потом перешел в отрасль информационной безопасности. Эта статья — переработка моего доклада с Saint HighLoad++, так что простите за мой французский. Там я рассказывал про актуальные угрозы в Large Language Model Applications и способы борьбы с ними. Поехали!
https://habr.com/ru/companies/ru_mts/articles/841010/
#искуственный #будущее_здесь #будущее #машинное+обучение #машинное_обучение #large_language_model #llm
-
Проблемы с логикой у LLM и с доверием не только у LLM
Проблемы качества базы данных LLM [1] и необучаемости LLM в силу ограничения размеров контекстного окна сводятся к одной проблеме никак с LLM не связанной – оценке доверия к публикациям и их авторам вообще. Вторая проблема – LLM не умеет решать простые логические задачи легко решаемые грамотными людьми, что свидетельствует о сходстве LLM с неграмотными людьми неспособными к абстрактному мышлению . В ближайшем будущем LLM не сможет достичь уровня логического мышления грамотного человека, зато LLM обладает большими чем у человека способностями к эриксоновскому гипнозу, а значит и к мошенничеству.
https://habr.com/ru/articles/830370/
#искуственный_интеллект #большие_языковые_модели #large_language_model #универсальная_платформа #доверие #доверие_пользователей #мышление #логика #абстрактное_мышление #дискурс
-
Гайд по ICLR 2024: тренды и лучшие доклады
Привет! Меня зовут Света Маргасова, и я руковожу бригадой моделей с внешней информацией в Яндексе. В этом году в большой компании коллег впервые побывала на конференции ICLR (Learning Representations (IC LR ) — обучение представлений), которая проходила в Вене. Масштаб и формат ICLR 2024 подтверждаюет её статус — A*. Конференция продолжалась 5 дней, на неё подали больше 7000 статей, 2260 из которых приняли. Участников тоже было очень много — все старались успеть познакомиться с авторами на постер-сессиях, послушать доклады и попасть на воркшопы. В этой статье я расскажу о самом интересном по моему мнению и по отзывам коллег — над постом также работали Илья Удалов и Максим Кузин, которые занимаются ML в рекламе. Здесь же вы найдёте нашу коллективную подборку полезных статей.
https://habr.com/ru/companies/yandex/articles/820105/
#nlp #large_language_model #deep_learning #machine_learning #icrl #конференции #машинное_обучение #нейросети
-
Как LLM учат понимать синтаксис
Скорее всего, вы поняли заголовок правильно, хотя в нём есть стилистическая ошибка — двусмысленность (кто-то учит LLM, или они учат кого-то?). Человеческое понимание языка остается ориентиром и пока недостижимой целью для языковых моделей. При всей небезошибочности первого и при всех невероятных успехах последних. Например, человеку обычно не составляет труда однозначно трактовать двусмысленные фразы исходя из контекста. Более того, мы с удовольствием используем такие каламбуры в шутках разного качества. Из самого известного приходит на ум только “В Кремле голубые не только ели, но и пили” (предложите свои варианты в комментариях — будет интересно почитать). Есть ещё “казнить нельзя помиловать”, но эта двусмысленность разрешается запятой. Самый известный пример в английском: “ Time flies like an arrow; Fruit flies like a banana”. Человек скорее всего после некоторых раздумий поймёт это как “ Время летит как стрела, мухи любят банан ” (хотя мне, например, понадобилось на это несколько секунд). Яндекс переводчик понимает эту фразу так: “ Время летит как стрела, фрукты разлетаются как бананы ”. Google translator демонстрирует зоологическую эрудированность: “ Время летит как стрела; Фруктовые мушки, как банан ”, а ChatGPT предлагает “ Время летит как стрела; Мухи на фруктах летают как бананы ”. В общем, никто не справился.
https://habr.com/ru/companies/ntr/articles/812107/
#llm #nlp #large_language_model #transformers #трансформеры #синтаксис #обработка_естественного_языка
-
How I code with AI on a budget/free
https://wuu73.org/blog/aiguide1.html
#ycombinator #AI_coding #vibe_coding #debug #free_AI #Cline #AI_Code_Prep_GUI #VS_Code #Gemini_AI_Studio #OpenRouter #ChatGPT #Perplexity_AI #Deepseek #Grok #Poe #Github_Copilot #budget_AI #coding_workflow #LLM #large_language_model -
How I code with AI on a budget/free
https://wuu73.org/blog/aiguide1.html
#ycombinator #AI_coding #vibe_coding #debug #free_AI #Cline #AI_Code_Prep_GUI #VS_Code #Gemini_AI_Studio #OpenRouter #ChatGPT #Perplexity_AI #Deepseek #Grok #Poe #Github_Copilot #budget_AI #coding_workflow #LLM #large_language_model -
How I code with AI on a budget/free
https://wuu73.org/blog/aiguide1.html
#ycombinator #AI_coding #vibe_coding #debug #free_AI #Cline #AI_Code_Prep_GUI #VS_Code #Gemini_AI_Studio #OpenRouter #ChatGPT #Perplexity_AI #Deepseek #Grok #Poe #Github_Copilot #budget_AI #coding_workflow #LLM #large_language_model -
Метод Binoculars обещает высокую точность обнаружения текста от больших языковых моделей
ChatGPT пишет не хуже человека, но можно ли обнаружить «машинность» в тексте? Хотя некоторым компаниям было бы выгоднее представить всё так, будто результат работы языковых моделей неотличим от человеческого, исследования в этом направлении активно ведутся. Авторы научной статьи «Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text» ( arXiv:2401.12070 ) утверждают, что их метод имеет низкий уровень ложноположительных срабатываний (0,01 %), правильно обнаруживает текст от языковых моделей в 90 % случаев и работает для нескольких семейств современных продуктов.
https://habr.com/ru/articles/789466/
#LLM #БЯМ #large_language_model #большая_языковая_модель #large_language_models #большие_языковые_модели #OpenAI #Binoculars #ИИ #искусственный_интеллект #обнаружение_машинного_текста #антиспам #GPTZero #DetectGPT #Ghostbuster #ChatGPT #GPT3 #GPT4 #Falcon #Falcon7B #Falcon7Binstruct
-
Nitro: A fast, lightweight inference server with OpenAI-Compatible API
https://nitro.jan.ai/
#ycombinator #Nitro #Jan #fast_inference #inference_server #local_AI #large_language_model #OpenAI_compatible #open_source #llama -
Nitro: A fast, lightweight 3MB inference server with OpenAI-Compatible API
https://nitro.jan.ai/
#ycombinator #Nitro #Jan #fast_inference #inference_server #local_AI #large_language_model #OpenAI_compatible #open_source #llama -
Как мы построили свой инструмент для работы с LLM
Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи. В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio. Итак, что же такое Data Studio ? Data Studio — это инструмент для работы с задачами обработки естественного языка (NLP), который мы используем в основном для улучшения качества перевода текста. С помощью Data Studio можно обучать модели перевода, настраивать различные параметры для этих тренировок, токенизировать данные, фильтровать их по различным параметрам, собирать метрики, создавать данные для обучения, тестирования и валидации и многое другое. Общий процесс создания языковой модели для перевода выглядит так: 1) Предобработка данных: этап подготовки данных перед обучением модели. 2) Фильтрация с использованием структурных и семантических фильтров. 3) Сбор общего набора данных: удаление избыточности, равномерное распределение тем и длин, сортировка. 4) Тегирование для классификации данных. 5) Загрузка общего набора данных в Data Studio для проверки. 6) Создание данных для валидации и тестирования модели. 7) Обучение модели.
https://habr.com/ru/articles/924174/
#машинное_обучениe #инструментарий #llm #llmмодели #искусственный_интеллект #языковые_модели #large_language_model #большие_языковые_модели #ai #обработка_данных
-
Как мы построили свой инструмент для работы с LLM
Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи. В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio. Итак, что же такое Data Studio ? Data Studio — это инструмент для работы с задачами обработки естественного языка (NLP), который мы используем в основном для улучшения качества перевода текста. С помощью Data Studio можно обучать модели перевода, настраивать различные параметры для этих тренировок, токенизировать данные, фильтровать их по различным параметрам, собирать метрики, создавать данные для обучения, тестирования и валидации и многое другое. Общий процесс создания языковой модели для перевода выглядит так: 1) Предобработка данных: этап подготовки данных перед обучением модели. 2) Фильтрация с использованием структурных и семантических фильтров. 3) Сбор общего набора данных: удаление избыточности, равномерное распределение тем и длин, сортировка. 4) Тегирование для классификации данных. 5) Загрузка общего набора данных в Data Studio для проверки. 6) Создание данных для валидации и тестирования модели. 7) Обучение модели.
https://habr.com/ru/articles/924174/
#машинное_обучениe #инструментарий #llm #llmмодели #искусственный_интеллект #языковые_модели #large_language_model #большие_языковые_модели #ai #обработка_данных