#суммаризация — Public Fediverse posts on home.social

Habr @[email protected] · 2026-03-31 · 16:02 UTC

LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час. Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово. Реальность оказалась другой. Готовых русскоязычных решений нужного качества не было. Mistral 7B — одна из лучших открытых моделей на тот момент — на русском ошибался в склонениях, плохо следовал русскоязычным промптам и терял смысл в длинных диалогах. Стало понятно: придётся дообучать самим.

https://habr.com/ru/articles/1017634/

#llm #mistral #lora #дообучение #nlp #nlp_обработка_текста #finetuning #whisper #суммаризация #bertscore

#bertscore #суммаризация #whisper #finetuning #nlp_обработка_текста #nlp

Habr @[email protected] · 2026-03-31 · 16:02 UTC

LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час. Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово. Реальность оказалась другой. Готовых русскоязычных решений нужного качества не было. Mistral 7B — одна из лучших открытых моделей на тот момент — на русском ошибался в склонениях, плохо следовал русскоязычным промптам и терял смысл в длинных диалогах. Стало понятно: придётся дообучать самим.

https://habr.com/ru/articles/1017634/

#llm #mistral #lora #дообучение #nlp #nlp_обработка_текста #finetuning #whisper #суммаризация #bertscore

#bertscore #суммаризация #whisper #finetuning #nlp_обработка_текста #nlp

Habr @[email protected] · 2026-03-31 · 16:02 UTC

LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час. Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово. Реальность оказалась другой. Готовых русскоязычных решений нужного качества не было. Mistral 7B — одна из лучших открытых моделей на тот момент — на русском ошибался в склонениях, плохо следовал русскоязычным промптам и терял смысл в длинных диалогах. Стало понятно: придётся дообучать самим.

https://habr.com/ru/articles/1017634/

#llm #mistral #lora #дообучение #nlp #nlp_обработка_текста #finetuning #whisper #суммаризация #bertscore

#bertscore #суммаризация #whisper #finetuning #nlp_обработка_текста #nlp

Habr @[email protected] · 2026-03-31 · 16:02 UTC

LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час. Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово. Реальность оказалась другой. Готовых русскоязычных решений нужного качества не было. Mistral 7B — одна из лучших открытых моделей на тот момент — на русском ошибался в склонениях, плохо следовал русскоязычным промптам и терял смысл в длинных диалогах. Стало понятно: придётся дообучать самим.

https://habr.com/ru/articles/1017634/

#llm #mistral #lora #дообучение #nlp #nlp_обработка_текста #finetuning #whisper #суммаризация #bertscore

#llm #mistral #lora #дообучение #nlp #nlp_обработка_текста

Habr @[email protected] · 2025-10-25 · 05:32 UTC

Эволюция протоколов встреч: от листка в блокноте до ИИ-ассистента

Когда люди начали собираться для обсуждения — будь то советы, кружки, комитеты — кого-то назначали фиксировать, « протоколировать ». Чаще всего это была простая запись вручную: кто присутствовал, что обсуждали, какие решения приняты. Такой подход живёт даже сегодня в небольших организациях. Писец или секретарь сидит, слушает, старается ухватить суть — и записывает тезисами. Часто ему приходится буквально читать между строк: что важно — что нет. Позже, в XIX–XX веках, появились стенографические методы: сокращения, скоропись — чтобы не упускать ход речи. Но даже стенографист не успевал за несколькими говорящими подряд.

https://habr.com/ru/articles/960064/

#нейросети #суммаризация #машинное_обучение #собрания #встречи #транскрибация #видеовстречи #расшифровка #запись_разговоров

#запись_разговоров #расшифровка #видеовстречи #транскрибация #встречи #собрания

Habr @[email protected] · 2025-10-25 · 05:32 UTC

Эволюция протоколов встреч: от листка в блокноте до ИИ-ассистента

Когда люди начали собираться для обсуждения — будь то советы, кружки, комитеты — кого-то назначали фиксировать, « протоколировать ». Чаще всего это была простая запись вручную: кто присутствовал, что обсуждали, какие решения приняты. Такой подход живёт даже сегодня в небольших организациях. Писец или секретарь сидит, слушает, старается ухватить суть — и записывает тезисами. Часто ему приходится буквально читать между строк: что важно — что нет. Позже, в XIX–XX веках, появились стенографические методы: сокращения, скоропись — чтобы не упускать ход речи. Но даже стенографист не успевал за несколькими говорящими подряд.

https://habr.com/ru/articles/960064/

#нейросети #суммаризация #машинное_обучение #собрания #встречи #транскрибация #видеовстречи #расшифровка #запись_разговоров

#запись_разговоров #расшифровка #видеовстречи #транскрибация #встречи #собрания

Habr @[email protected] · 2025-10-25 · 05:32 UTC

Эволюция протоколов встреч: от листка в блокноте до ИИ-ассистента

Когда люди начали собираться для обсуждения — будь то советы, кружки, комитеты — кого-то назначали фиксировать, « протоколировать ». Чаще всего это была простая запись вручную: кто присутствовал, что обсуждали, какие решения приняты. Такой подход живёт даже сегодня в небольших организациях. Писец или секретарь сидит, слушает, старается ухватить суть — и записывает тезисами. Часто ему приходится буквально читать между строк: что важно — что нет. Позже, в XIX–XX веках, появились стенографические методы: сокращения, скоропись — чтобы не упускать ход речи. Но даже стенографист не успевал за несколькими говорящими подряд.

https://habr.com/ru/articles/960064/

#нейросети #суммаризация #машинное_обучение #собрания #встречи #транскрибация #видеовстречи #расшифровка #запись_разговоров

#запись_разговоров #расшифровка #видеовстречи #транскрибация #встречи #собрания

Habr @[email protected] · 2025-10-25 · 05:32 UTC

Эволюция протоколов встреч: от листка в блокноте до ИИ-ассистента

Когда люди начали собираться для обсуждения — будь то советы, кружки, комитеты — кого-то назначали фиксировать, « протоколировать ». Чаще всего это была простая запись вручную: кто присутствовал, что обсуждали, какие решения приняты. Такой подход живёт даже сегодня в небольших организациях. Писец или секретарь сидит, слушает, старается ухватить суть — и записывает тезисами. Часто ему приходится буквально читать между строк: что важно — что нет. Позже, в XIX–XX веках, появились стенографические методы: сокращения, скоропись — чтобы не упускать ход речи. Но даже стенографист не успевал за несколькими говорящими подряд.

https://habr.com/ru/articles/960064/

#нейросети #суммаризация #машинное_обучение #собрания #встречи #транскрибация #видеовстречи #расшифровка #запись_разговоров

#нейросети #суммаризация #машинное_обучение #собрания #встречи #транскрибация

Habr @[email protected] · 2025-09-03 · 17:12 UTC

Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить

Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро вникнуть". Что ты делаешь? Ищешь сервис, который сделает краткую выжимку. И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает. Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.

https://habr.com/ru/articles/943660/

#суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование #учеба #учебный_процесс #учебный_процесс_в_it #стартап

#стартап #учебный_процесс_в_it #учебный_процесс #учеба #itобразование #itинфраструктура

Habr @[email protected] · 2025-09-03 · 17:12 UTC

Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить

Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро вникнуть". Что ты делаешь? Ищешь сервис, который сделает краткую выжимку. И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает. Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.

https://habr.com/ru/articles/943660/

#суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование #учеба #учебный_процесс #учебный_процесс_в_it #стартап

#стартап #учебный_процесс_в_it #учебный_процесс #учеба #itобразование #itинфраструктура

Habr @[email protected] · 2025-09-03 · 17:12 UTC

Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить

Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро вникнуть". Что ты делаешь? Ищешь сервис, который сделает краткую выжимку. И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает. Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.

https://habr.com/ru/articles/943660/

#суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование #учеба #учебный_процесс #учебный_процесс_в_it #стартап

#стартап #учебный_процесс_в_it #учебный_процесс #учеба #itобразование #itинфраструктура

Habr @[email protected] · 2025-09-03 · 17:12 UTC

Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить

Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро вникнуть". Что ты делаешь? Ищешь сервис, который сделает краткую выжимку. И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает. Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.

https://habr.com/ru/articles/943660/

#суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование #учеба #учебный_процесс #учебный_процесс_в_it #стартап

#суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование

Habr @[email protected] · 2025-08-04 · 08:32 UTC

Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению

Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков. В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач. А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.

https://habr.com/ru/companies/skbkontur/articles/928404/

#саммари #саммаризация #суммаризация #толк #краткий_пересказ #выжимка #slo #asr

#asr #slo #выжимка #краткий_пересказ #толк #суммаризация

Habr @[email protected] · 2025-08-04 · 08:32 UTC

Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению

Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков. В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач. А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.

https://habr.com/ru/companies/skbkontur/articles/928404/

#саммари #саммаризация #суммаризация #толк #краткий_пересказ #выжимка #slo #asr

#asr #slo #выжимка #краткий_пересказ #толк #суммаризация

Habr @[email protected] · 2025-08-04 · 08:32 UTC

Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению

Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков. В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач. А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.

https://habr.com/ru/companies/skbkontur/articles/928404/

#саммари #саммаризация #суммаризация #толк #краткий_пересказ #выжимка #slo #asr

#asr #slo #выжимка #краткий_пересказ #толк #суммаризация

Habr @[email protected] · 2025-08-04 · 08:32 UTC

Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению

Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков. В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач. А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.

https://habr.com/ru/companies/skbkontur/articles/928404/

#саммари #саммаризация #суммаризация #толк #краткий_пересказ #выжимка #slo #asr

#саммари #саммаризация #суммаризация #толк #краткий_пересказ #выжимка

Habr @[email protected] · 2025-02-03 · 23:52 UTC

Как я объединил перевод и суммаризацию текстов, и что из этого вышло

Перевод и суммаризация текстов – это две задачи, которые на первый взгляд кажутся совершенно разными. Перевод требует точного передачи исходного содержания на другой язык, сохраняя все детали и нюансы. Суммаризация же предполагает сокращение текста до его основных идей, часто убирая второстепенные детали. Однако при ближайшем рассмотрении эти задачи имеют много общего...

https://habr.com/ru/articles/879212/

#суммаризация_текста #суммаризация #перевод #переводчик #многозадачное_обучение #сравнение_моделей #бесплатная_модель #китайский #английский #русский

#русский #английский #китайский #бесплатная_модель #сравнение_моделей #многозадачное_обучение

Habr @[email protected] · 2024-04-12 · 10:42 UTC

LOCOST и SPECTRUM, два подхода к суммаризации

2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.

https://habr.com/ru/companies/ntr/articles/807267/

#суммаризация #языковые_модели #большие_языковые_модели

#большие_языковые_модели #языковые_модели #суммаризация

Habr @[email protected] · 2024-02-13 · 09:32 UTC

Помощь с текстом, перевод видео с японского и корейского, распознавание QR-кодов — что умеет обновлённый Яндекс Браузер

Сегодня мы выпускаем большое обновление для Браузера с рекордным числом изменений, в основе которых лежат нейросети или другие методы машинного обучения. Теперь Браузер исправит ошибки в тексте, сократит или улучшит его, перескажет видео с японского или корейского, распознает QR-код в трансляции и предложит перейти по ссылке в один клик, а также защитит от фишинг-страниц и не только. В этой статье расскажем, как мы обучали нейросеть с помощью учебника Розенталя, как модель, отвечающая за субтитры, понимает, что начал говорить другой человек, почему не каждый QR-код легко распознать и за счёт чего мы научились ловить фишинговые сайты, которые появились буквально 5 минут назад. Обо всём этом — под катом.

https://habr.com/ru/companies/yandex/articles/792608/

#яндекс #браузеры #яндекс_браузер #нейросети #редактирование_текстов #qrкоды #суммаризация #субтитры #перевод_видео #обновление

#обновление #перевод_видео #субтитры #суммаризация #qrкоды #редактирование_текстов

Habr @[email protected] · 2024-02-13 · 09:32 UTC

Помощь с текстом, перевод видео с японского и корейского, распознавание QR-кодов — что умеет обновлённый Яндекс Браузер

Сегодня мы выпускаем большое обновление для Браузера с рекордным числом изменений, в основе которых лежат нейросети или другие методы машинного обучения. Теперь Браузер исправит ошибки в тексте, сократит или улучшит его, перескажет видео с японского или корейского, распознает QR-код в трансляции и предложит перейти по ссылке в один клик, а также защитит от фишинг-страниц и не только. В этой статье расскажем, как мы обучали нейросеть с помощью учебника Розенталя, как модель, отвечающая за субтитры, понимает, что начал говорить другой человек, почему не каждый QR-код легко распознать и за счёт чего мы научились ловить фишинговые сайты, которые появились буквально 5 минут назад. Обо всём этом — под катом.

https://habr.com/ru/companies/yandex/articles/792608/

#яндекс #браузеры #яндекс_браузер #нейросети #редактирование_текстов #qrкоды #суммаризация #субтитры #перевод_видео #обновление

#обновление #перевод_видео #субтитры #суммаризация #qrкоды #редактирование_текстов