#суммаризация — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #суммаризация, aggregated by home.social.
-
LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало
Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час. Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово. Реальность оказалась другой. Готовых русскоязычных решений нужного качества не было. Mistral 7B — одна из лучших открытых моделей на тот момент — на русском ошибался в склонениях, плохо следовал русскоязычным промптам и терял смысл в длинных диалогах. Стало понятно: придётся дообучать самим.
https://habr.com/ru/articles/1017634/
#llm #mistral #lora #дообучение #nlp #nlp_обработка_текста #finetuning #whisper #суммаризация #bertscore
-
LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало
Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час. Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово. Реальность оказалась другой. Готовых русскоязычных решений нужного качества не было. Mistral 7B — одна из лучших открытых моделей на тот момент — на русском ошибался в склонениях, плохо следовал русскоязычным промптам и терял смысл в длинных диалогах. Стало понятно: придётся дообучать самим.
https://habr.com/ru/articles/1017634/
#llm #mistral #lora #дообучение #nlp #nlp_обработка_текста #finetuning #whisper #суммаризация #bertscore
-
LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало
Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час. Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово. Реальность оказалась другой. Готовых русскоязычных решений нужного качества не было. Mistral 7B — одна из лучших открытых моделей на тот момент — на русском ошибался в склонениях, плохо следовал русскоязычным промптам и терял смысл в длинных диалогах. Стало понятно: придётся дообучать самим.
https://habr.com/ru/articles/1017634/
#llm #mistral #lora #дообучение #nlp #nlp_обработка_текста #finetuning #whisper #суммаризация #bertscore
-
LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало
Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час. Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово. Реальность оказалась другой. Готовых русскоязычных решений нужного качества не было. Mistral 7B — одна из лучших открытых моделей на тот момент — на русском ошибался в склонениях, плохо следовал русскоязычным промптам и терял смысл в длинных диалогах. Стало понятно: придётся дообучать самим.
https://habr.com/ru/articles/1017634/
#llm #mistral #lora #дообучение #nlp #nlp_обработка_текста #finetuning #whisper #суммаризация #bertscore
-
Эволюция протоколов встреч: от листка в блокноте до ИИ-ассистента
Когда люди начали собираться для обсуждения — будь то советы, кружки, комитеты — кого-то назначали фиксировать, « протоколировать ». Чаще всего это была простая запись вручную: кто присутствовал, что обсуждали, какие решения приняты. Такой подход живёт даже сегодня в небольших организациях. Писец или секретарь сидит, слушает, старается ухватить суть — и записывает тезисами. Часто ему приходится буквально читать между строк: что важно — что нет. Позже, в XIX–XX веках, появились стенографические методы: сокращения, скоропись — чтобы не упускать ход речи. Но даже стенографист не успевал за несколькими говорящими подряд.
https://habr.com/ru/articles/960064/
#нейросети #суммаризация #машинное_обучение #собрания #встречи #транскрибация #видеовстречи #расшифровка #запись_разговоров
-
Эволюция протоколов встреч: от листка в блокноте до ИИ-ассистента
Когда люди начали собираться для обсуждения — будь то советы, кружки, комитеты — кого-то назначали фиксировать, « протоколировать ». Чаще всего это была простая запись вручную: кто присутствовал, что обсуждали, какие решения приняты. Такой подход живёт даже сегодня в небольших организациях. Писец или секретарь сидит, слушает, старается ухватить суть — и записывает тезисами. Часто ему приходится буквально читать между строк: что важно — что нет. Позже, в XIX–XX веках, появились стенографические методы: сокращения, скоропись — чтобы не упускать ход речи. Но даже стенографист не успевал за несколькими говорящими подряд.
https://habr.com/ru/articles/960064/
#нейросети #суммаризация #машинное_обучение #собрания #встречи #транскрибация #видеовстречи #расшифровка #запись_разговоров
-
Эволюция протоколов встреч: от листка в блокноте до ИИ-ассистента
Когда люди начали собираться для обсуждения — будь то советы, кружки, комитеты — кого-то назначали фиксировать, « протоколировать ». Чаще всего это была простая запись вручную: кто присутствовал, что обсуждали, какие решения приняты. Такой подход живёт даже сегодня в небольших организациях. Писец или секретарь сидит, слушает, старается ухватить суть — и записывает тезисами. Часто ему приходится буквально читать между строк: что важно — что нет. Позже, в XIX–XX веках, появились стенографические методы: сокращения, скоропись — чтобы не упускать ход речи. Но даже стенографист не успевал за несколькими говорящими подряд.
https://habr.com/ru/articles/960064/
#нейросети #суммаризация #машинное_обучение #собрания #встречи #транскрибация #видеовстречи #расшифровка #запись_разговоров
-
Эволюция протоколов встреч: от листка в блокноте до ИИ-ассистента
Когда люди начали собираться для обсуждения — будь то советы, кружки, комитеты — кого-то назначали фиксировать, « протоколировать ». Чаще всего это была простая запись вручную: кто присутствовал, что обсуждали, какие решения приняты. Такой подход живёт даже сегодня в небольших организациях. Писец или секретарь сидит, слушает, старается ухватить суть — и записывает тезисами. Часто ему приходится буквально читать между строк: что важно — что нет. Позже, в XIX–XX веках, появились стенографические методы: сокращения, скоропись — чтобы не упускать ход речи. Но даже стенографист не успевал за несколькими говорящими подряд.
https://habr.com/ru/articles/960064/
#нейросети #суммаризация #машинное_обучение #собрания #встречи #транскрибация #видеовстречи #расшифровка #запись_разговоров
-
Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить
Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро вникнуть". Что ты делаешь? Ищешь сервис, который сделает краткую выжимку. И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает. Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.
https://habr.com/ru/articles/943660/
#суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование #учеба #учебный_процесс #учебный_процесс_в_it #стартап
-
Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить
Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро вникнуть". Что ты делаешь? Ищешь сервис, который сделает краткую выжимку. И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает. Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.
https://habr.com/ru/articles/943660/
#суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование #учеба #учебный_процесс #учебный_процесс_в_it #стартап
-
Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить
Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро вникнуть". Что ты делаешь? Ищешь сервис, который сделает краткую выжимку. И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает. Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.
https://habr.com/ru/articles/943660/
#суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование #учеба #учебный_процесс #учебный_процесс_в_it #стартап
-
Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить
Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро вникнуть". Что ты делаешь? Ищешь сервис, который сделает краткую выжимку. И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает. Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.
https://habr.com/ru/articles/943660/
#суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование #учеба #учебный_процесс #учебный_процесс_в_it #стартап
-
Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению
Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков. В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач. А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.
https://habr.com/ru/companies/skbkontur/articles/928404/
#саммари #саммаризация #суммаризация #толк #краткий_пересказ #выжимка #slo #asr
-
Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению
Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков. В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач. А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.
https://habr.com/ru/companies/skbkontur/articles/928404/
#саммари #саммаризация #суммаризация #толк #краткий_пересказ #выжимка #slo #asr
-
Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению
Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков. В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач. А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.
https://habr.com/ru/companies/skbkontur/articles/928404/
#саммари #саммаризация #суммаризация #толк #краткий_пересказ #выжимка #slo #asr
-
Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению
Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков. В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач. А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.
https://habr.com/ru/companies/skbkontur/articles/928404/
#саммари #саммаризация #суммаризация #толк #краткий_пересказ #выжимка #slo #asr
-
Как я объединил перевод и суммаризацию текстов, и что из этого вышло
Перевод и суммаризация текстов – это две задачи, которые на первый взгляд кажутся совершенно разными. Перевод требует точного передачи исходного содержания на другой язык, сохраняя все детали и нюансы. Суммаризация же предполагает сокращение текста до его основных идей, часто убирая второстепенные детали. Однако при ближайшем рассмотрении эти задачи имеют много общего...
https://habr.com/ru/articles/879212/
#суммаризация_текста #суммаризация #перевод #переводчик #многозадачное_обучение #сравнение_моделей #бесплатная_модель #китайский #английский #русский
-
LOCOST и SPECTRUM, два подхода к суммаризации
2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.
-
Помощь с текстом, перевод видео с японского и корейского, распознавание QR-кодов — что умеет обновлённый Яндекс Браузер
Сегодня мы выпускаем большое обновление для Браузера с рекордным числом изменений, в основе которых лежат нейросети или другие методы машинного обучения. Теперь Браузер исправит ошибки в тексте, сократит или улучшит его, перескажет видео с японского или корейского, распознает QR-код в трансляции и предложит перейти по ссылке в один клик, а также защитит от фишинг-страниц и не только. В этой статье расскажем, как мы обучали нейросеть с помощью учебника Розенталя, как модель, отвечающая за субтитры, понимает, что начал говорить другой человек, почему не каждый QR-код легко распознать и за счёт чего мы научились ловить фишинговые сайты, которые появились буквально 5 минут назад. Обо всём этом — под катом.
https://habr.com/ru/companies/yandex/articles/792608/
#яндекс #браузеры #яндекс_браузер #нейросети #редактирование_текстов #qrкоды #суммаризация #субтитры #перевод_видео #обновление
-
Помощь с текстом, перевод видео с японского и корейского, распознавание QR-кодов — что умеет обновлённый Яндекс Браузер
Сегодня мы выпускаем большое обновление для Браузера с рекордным числом изменений, в основе которых лежат нейросети или другие методы машинного обучения. Теперь Браузер исправит ошибки в тексте, сократит или улучшит его, перескажет видео с японского или корейского, распознает QR-код в трансляции и предложит перейти по ссылке в один клик, а также защитит от фишинг-страниц и не только. В этой статье расскажем, как мы обучали нейросеть с помощью учебника Розенталя, как модель, отвечающая за субтитры, понимает, что начал говорить другой человек, почему не каждый QR-код легко распознать и за счёт чего мы научились ловить фишинговые сайты, которые появились буквально 5 минут назад. Обо всём этом — под катом.
https://habr.com/ru/companies/yandex/articles/792608/
#яндекс #браузеры #яндекс_браузер #нейросети #редактирование_текстов #qrкоды #суммаризация #субтитры #перевод_видео #обновление