home.social

#суммаризация — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #суммаризация, aggregated by home.social.

  1. LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

    Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час. Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово. Реальность оказалась другой. Готовых русскоязычных решений нужного качества не было. Mistral 7B — одна из лучших открытых моделей на тот момент — на русском ошибался в склонениях, плохо следовал русскоязычным промптам и терял смысл в длинных диалогах. Стало понятно: придётся дообучать самим.

    habr.com/ru/articles/1017634/

    #llm #mistral #lora #дообучение #nlp #nlp_обработка_текста #finetuning #whisper #суммаризация #bertscore

  2. LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

    Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час. Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово. Реальность оказалась другой. Готовых русскоязычных решений нужного качества не было. Mistral 7B — одна из лучших открытых моделей на тот момент — на русском ошибался в склонениях, плохо следовал русскоязычным промптам и терял смысл в длинных диалогах. Стало понятно: придётся дообучать самим.

    habr.com/ru/articles/1017634/

    #llm #mistral #lora #дообучение #nlp #nlp_обработка_текста #finetuning #whisper #суммаризация #bertscore

  3. LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

    Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час. Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово. Реальность оказалась другой. Готовых русскоязычных решений нужного качества не было. Mistral 7B — одна из лучших открытых моделей на тот момент — на русском ошибался в склонениях, плохо следовал русскоязычным промптам и терял смысл в длинных диалогах. Стало понятно: придётся дообучать самим.

    habr.com/ru/articles/1017634/

    #llm #mistral #lora #дообучение #nlp #nlp_обработка_текста #finetuning #whisper #суммаризация #bertscore

  4. LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

    Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час. Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово. Реальность оказалась другой. Готовых русскоязычных решений нужного качества не было. Mistral 7B — одна из лучших открытых моделей на тот момент — на русском ошибался в склонениях, плохо следовал русскоязычным промптам и терял смысл в длинных диалогах. Стало понятно: придётся дообучать самим.

    habr.com/ru/articles/1017634/

    #llm #mistral #lora #дообучение #nlp #nlp_обработка_текста #finetuning #whisper #суммаризация #bertscore

  5. Эволюция протоколов встреч: от листка в блокноте до ИИ-ассистента

    Когда люди начали собираться для обсуждения — будь то советы, кружки, комитеты — кого-то назначали фиксировать, « протоколировать ». Чаще всего это была простая запись вручную: кто присутствовал, что обсуждали, какие решения приняты. Такой подход живёт даже сегодня в небольших организациях. Писец или секретарь сидит, слушает, старается ухватить суть — и записывает тезисами. Часто ему приходится буквально читать между строк: что важно — что нет. Позже, в XIX–XX веках, появились стенографические методы: сокращения, скоропись — чтобы не упускать ход речи. Но даже стенографист не успевал за несколькими говорящими подряд.

    habr.com/ru/articles/960064/

    #нейросети #суммаризация #машинное_обучение #собрания #встречи #транскрибация #видеовстречи #расшифровка #запись_разговоров

  6. Эволюция протоколов встреч: от листка в блокноте до ИИ-ассистента

    Когда люди начали собираться для обсуждения — будь то советы, кружки, комитеты — кого-то назначали фиксировать, « протоколировать ». Чаще всего это была простая запись вручную: кто присутствовал, что обсуждали, какие решения приняты. Такой подход живёт даже сегодня в небольших организациях. Писец или секретарь сидит, слушает, старается ухватить суть — и записывает тезисами. Часто ему приходится буквально читать между строк: что важно — что нет. Позже, в XIX–XX веках, появились стенографические методы: сокращения, скоропись — чтобы не упускать ход речи. Но даже стенографист не успевал за несколькими говорящими подряд.

    habr.com/ru/articles/960064/

    #нейросети #суммаризация #машинное_обучение #собрания #встречи #транскрибация #видеовстречи #расшифровка #запись_разговоров

  7. Эволюция протоколов встреч: от листка в блокноте до ИИ-ассистента

    Когда люди начали собираться для обсуждения — будь то советы, кружки, комитеты — кого-то назначали фиксировать, « протоколировать ». Чаще всего это была простая запись вручную: кто присутствовал, что обсуждали, какие решения приняты. Такой подход живёт даже сегодня в небольших организациях. Писец или секретарь сидит, слушает, старается ухватить суть — и записывает тезисами. Часто ему приходится буквально читать между строк: что важно — что нет. Позже, в XIX–XX веках, появились стенографические методы: сокращения, скоропись — чтобы не упускать ход речи. Но даже стенографист не успевал за несколькими говорящими подряд.

    habr.com/ru/articles/960064/

    #нейросети #суммаризация #машинное_обучение #собрания #встречи #транскрибация #видеовстречи #расшифровка #запись_разговоров

  8. Эволюция протоколов встреч: от листка в блокноте до ИИ-ассистента

    Когда люди начали собираться для обсуждения — будь то советы, кружки, комитеты — кого-то назначали фиксировать, « протоколировать ». Чаще всего это была простая запись вручную: кто присутствовал, что обсуждали, какие решения приняты. Такой подход живёт даже сегодня в небольших организациях. Писец или секретарь сидит, слушает, старается ухватить суть — и записывает тезисами. Часто ему приходится буквально читать между строк: что важно — что нет. Позже, в XIX–XX веках, появились стенографические методы: сокращения, скоропись — чтобы не упускать ход речи. Но даже стенографист не успевал за несколькими говорящими подряд.

    habr.com/ru/articles/960064/

    #нейросети #суммаризация #машинное_обучение #собрания #встречи #транскрибация #видеовстречи #расшифровка #запись_разговоров

  9. Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить

    Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро вникнуть". Что ты делаешь? Ищешь сервис, который сделает краткую выжимку. И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает. Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.

    habr.com/ru/articles/943660/

    #суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование #учеба #учебный_процесс #учебный_процесс_в_it #стартап

  10. Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить

    Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро вникнуть". Что ты делаешь? Ищешь сервис, который сделает краткую выжимку. И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает. Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.

    habr.com/ru/articles/943660/

    #суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование #учеба #учебный_процесс #учебный_процесс_в_it #стартап

  11. Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить

    Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро вникнуть". Что ты делаешь? Ищешь сервис, который сделает краткую выжимку. И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает. Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.

    habr.com/ru/articles/943660/

    #суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование #учеба #учебный_процесс #учебный_процесс_в_it #стартап

  12. Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить

    Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро вникнуть". Что ты делаешь? Ищешь сервис, который сделает краткую выжимку. И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает. Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.

    habr.com/ru/articles/943660/

    #суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование #учеба #учебный_процесс #учебный_процесс_в_it #стартап

  13. Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению

    Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков. В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач. А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.

    habr.com/ru/companies/skbkontu

    #саммари #саммаризация #суммаризация #толк #краткий_пересказ #выжимка #slo #asr

  14. Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению

    Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков. В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач. А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.

    habr.com/ru/companies/skbkontu

    #саммари #саммаризация #суммаризация #толк #краткий_пересказ #выжимка #slo #asr

  15. Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению

    Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков. В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач. А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.

    habr.com/ru/companies/skbkontu

    #саммари #саммаризация #суммаризация #толк #краткий_пересказ #выжимка #slo #asr

  16. Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению

    Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков. В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач. А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.

    habr.com/ru/companies/skbkontu

    #саммари #саммаризация #суммаризация #толк #краткий_пересказ #выжимка #slo #asr

  17. Как я объединил перевод и суммаризацию текстов, и что из этого вышло

    Перевод и суммаризация текстов – это две задачи, которые на первый взгляд кажутся совершенно разными. Перевод требует точного передачи исходного содержания на другой язык, сохраняя все детали и нюансы. Суммаризация же предполагает сокращение текста до его основных идей, часто убирая второстепенные детали. Однако при ближайшем рассмотрении эти задачи имеют много общего...

    habr.com/ru/articles/879212/

    #суммаризация_текста #суммаризация #перевод #переводчик #многозадачное_обучение #сравнение_моделей #бесплатная_модель #китайский #английский #русский

  18. LOCOST и SPECTRUM, два подхода к суммаризации

    2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.

    habr.com/ru/companies/ntr/arti

    #суммаризация #языковые_модели #большие_языковые_модели

  19. Помощь с текстом, перевод видео с японского и корейского, распознавание QR-кодов — что умеет обновлённый Яндекс Браузер

    Сегодня мы выпускаем большое обновление для Браузера с рекордным числом изменений, в основе которых лежат нейросети или другие методы машинного обучения. Теперь Браузер исправит ошибки в тексте, сократит или улучшит его, перескажет видео с японского или корейского, распознает QR-код в трансляции и предложит перейти по ссылке в один клик, а также защитит от фишинг-страниц и не только. В этой статье расскажем, как мы обучали нейросеть с помощью учебника Розенталя, как модель, отвечающая за субтитры, понимает, что начал говорить другой человек, почему не каждый QR-код легко распознать и за счёт чего мы научились ловить фишинговые сайты, которые появились буквально 5 минут назад. Обо всём этом — под катом.

    habr.com/ru/companies/yandex/a

    #яндекс #браузеры #яндекс_браузер #нейросети #редактирование_текстов #qrкоды #суммаризация #субтитры #перевод_видео #обновление

  20. Помощь с текстом, перевод видео с японского и корейского, распознавание QR-кодов — что умеет обновлённый Яндекс Браузер

    Сегодня мы выпускаем большое обновление для Браузера с рекордным числом изменений, в основе которых лежат нейросети или другие методы машинного обучения. Теперь Браузер исправит ошибки в тексте, сократит или улучшит его, перескажет видео с японского или корейского, распознает QR-код в трансляции и предложит перейти по ссылке в один клик, а также защитит от фишинг-страниц и не только. В этой статье расскажем, как мы обучали нейросеть с помощью учебника Розенталя, как модель, отвечающая за субтитры, понимает, что начал говорить другой человек, почему не каждый QR-код легко распознать и за счёт чего мы научились ловить фишинговые сайты, которые появились буквально 5 минут назад. Обо всём этом — под катом.

    habr.com/ru/companies/yandex/a

    #яндекс #браузеры #яндекс_браузер #нейросети #редактирование_текстов #qrкоды #суммаризация #субтитры #перевод_видео #обновление