#машинный_перевод — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #машинный_перевод, aggregated by home.social.
-
Машинный перевод. Как развивалась технология
Почти десять лет я занимаюсь машинным переводом в Lingvanex - и за это время увидел, как меняются не только модели, но и само понимание языка. В этой статье я прослежу путь от первых философских идей Древней Греции до нейросетей и LLM, которые формируют индустрию сегодня. Разберём ключевые этапы эволюции, прорывные исследования 2024–2026 годов и попробуем понять, куда движется машинный перевод дальше.
https://habr.com/ru/articles/1003076/
#машинный_перевод #machine_translation #artificial_intelligence #llm #llmмодели #технологии #лингвистика #обработка_естественного_языка #nlp #natural_language_processing
-
Машинный перевод. Как развивалась технология
Почти десять лет я занимаюсь машинным переводом в Lingvanex - и за это время увидел, как меняются не только модели, но и само понимание языка. В этой статье я прослежу путь от первых философских идей Древней Греции до нейросетей и LLM, которые формируют индустрию сегодня. Разберём ключевые этапы эволюции, прорывные исследования 2024–2026 годов и попробуем понять, куда движется машинный перевод дальше.
https://habr.com/ru/articles/1003076/
#машинный_перевод #machine_translation #artificial_intelligence #llm #llmмодели #технологии #лингвистика #обработка_естественного_языка #nlp #natural_language_processing
-
Машинный перевод. Как развивалась технология
Почти десять лет я занимаюсь машинным переводом в Lingvanex - и за это время увидел, как меняются не только модели, но и само понимание языка. В этой статье я прослежу путь от первых философских идей Древней Греции до нейросетей и LLM, которые формируют индустрию сегодня. Разберём ключевые этапы эволюции, прорывные исследования 2024–2026 годов и попробуем понять, куда движется машинный перевод дальше.
https://habr.com/ru/articles/1003076/
#машинный_перевод #machine_translation #artificial_intelligence #llm #llmмодели #технологии #лингвистика #обработка_естественного_языка #nlp #natural_language_processing
-
Машинный перевод. Как развивалась технология
Почти десять лет я занимаюсь машинным переводом в Lingvanex - и за это время увидел, как меняются не только модели, но и само понимание языка. В этой статье я прослежу путь от первых философских идей Древней Греции до нейросетей и LLM, которые формируют индустрию сегодня. Разберём ключевые этапы эволюции, прорывные исследования 2024–2026 годов и попробуем понять, куда движется машинный перевод дальше.
https://habr.com/ru/articles/1003076/
#машинный_перевод #machine_translation #artificial_intelligence #llm #llmмодели #технологии #лингвистика #обработка_естественного_языка #nlp #natural_language_processing
-
EMNLP 2025 глазами аналитика из Яндекса: мировые тренды и наши решения
Всем привет! Меня зовут Катя Еникеева, я руковожу командой аналитики перевода в Яндексе. Мы занимаемся оценкой качества машинного перевода — моделей, которые работают в Яндекс Переводчике, Браузере, Поиске и во множестве других сервисов. Качество перевода можно измерять по‑разному, но можно выделить два основных направления: экспертная разметка и автоматические метрики. В последние годы автометрики всё чаще строятся поверх LLM: фактически это отдельный пайплайн, который анализирует исходный текст и полученный перевод. Поэтому нас интересует не только способность моделей переводить, но и их умение анализировать качество перевода, что может быть заметно сложнее. Под катом вас ждёт обзор самых интересных решений, представленных на конференции EMNLP 2025. Наша команда перевода приехала на EMNLP 2025 не только слушать, но и рассказывать о своей работе. В этом году у нас приняли две статьи: одну — в Findings основной конференции, вторую — на WMT. О них я тоже подробно расскажу.
https://habr.com/ru/companies/yandex/articles/991144/
#яндекс #машинный_перевод #конференции #ml #языки #перевод #llm #emnlp
-
EMNLP 2025 глазами аналитика из Яндекса: мировые тренды и наши решения
Всем привет! Меня зовут Катя Еникеева, я руковожу командой аналитики перевода в Яндексе. Мы занимаемся оценкой качества машинного перевода — моделей, которые работают в Яндекс Переводчике, Браузере, Поиске и во множестве других сервисов. Качество перевода можно измерять по‑разному, но можно выделить два основных направления: экспертная разметка и автоматические метрики. В последние годы автометрики всё чаще строятся поверх LLM: фактически это отдельный пайплайн, который анализирует исходный текст и полученный перевод. Поэтому нас интересует не только способность моделей переводить, но и их умение анализировать качество перевода, что может быть заметно сложнее. Под катом вас ждёт обзор самых интересных решений, представленных на конференции EMNLP 2025. Наша команда перевода приехала на EMNLP 2025 не только слушать, но и рассказывать о своей работе. В этом году у нас приняли две статьи: одну — в Findings основной конференции, вторую — на WMT. О них я тоже подробно расскажу.
https://habr.com/ru/companies/yandex/articles/991144/
#яндекс #машинный_перевод #конференции #ml #языки #перевод #llm #emnlp
-
EMNLP 2025 глазами аналитика из Яндекса: мировые тренды и наши решения
Всем привет! Меня зовут Катя Еникеева, я руковожу командой аналитики перевода в Яндексе. Мы занимаемся оценкой качества машинного перевода — моделей, которые работают в Яндекс Переводчике, Браузере, Поиске и во множестве других сервисов. Качество перевода можно измерять по‑разному, но можно выделить два основных направления: экспертная разметка и автоматические метрики. В последние годы автометрики всё чаще строятся поверх LLM: фактически это отдельный пайплайн, который анализирует исходный текст и полученный перевод. Поэтому нас интересует не только способность моделей переводить, но и их умение анализировать качество перевода, что может быть заметно сложнее. Под катом вас ждёт обзор самых интересных решений, представленных на конференции EMNLP 2025. Наша команда перевода приехала на EMNLP 2025 не только слушать, но и рассказывать о своей работе. В этом году у нас приняли две статьи: одну — в Findings основной конференции, вторую — на WMT. О них я тоже подробно расскажу.
https://habr.com/ru/companies/yandex/articles/991144/
#яндекс #машинный_перевод #конференции #ml #языки #перевод #llm #emnlp
-
EMNLP 2025 глазами аналитика из Яндекса: мировые тренды и наши решения
Всем привет! Меня зовут Катя Еникеева, я руковожу командой аналитики перевода в Яндексе. Мы занимаемся оценкой качества машинного перевода — моделей, которые работают в Яндекс Переводчике, Браузере, Поиске и во множестве других сервисов. Качество перевода можно измерять по‑разному, но можно выделить два основных направления: экспертная разметка и автоматические метрики. В последние годы автометрики всё чаще строятся поверх LLM: фактически это отдельный пайплайн, который анализирует исходный текст и полученный перевод. Поэтому нас интересует не только способность моделей переводить, но и их умение анализировать качество перевода, что может быть заметно сложнее. Под катом вас ждёт обзор самых интересных решений, представленных на конференции EMNLP 2025. Наша команда перевода приехала на EMNLP 2025 не только слушать, но и рассказывать о своей работе. В этом году у нас приняли две статьи: одну — в Findings основной конференции, вторую — на WMT. О них я тоже подробно расскажу.
https://habr.com/ru/companies/yandex/articles/991144/
#яндекс #машинный_перевод #конференции #ml #языки #перевод #llm #emnlp
-
[Перевод] Почему Google Переводчик «ломает» React (и другие веб-приложения)
Команда JavaScript for Devs подготовила перевод статьи о том, почему Google Переводчик может ломать React и другие современные веб-приложения. Причина в том, что расширение вмешивается в DOM, нарушая работу виртуального DOM и вызывая ошибки вроде removeChild и insertBefore . Автор показывает реальные кейсы, обходные пути и поднимает важный вопрос: имеет ли фреймворк право на полный контроль над DOM?
https://habr.com/ru/articles/955750/
#javascript #google_translate #react #dom #chrome_extension #chrome #машинный_перевод
-
Как оценить качество машинного перевода
Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший. При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных. В данной статье рассматриваются две наиболее распространенные метрики для оценки качества перевода — BLEU и COMET. Также проводится анализ того, как проверить статистическую значимость различий между двумя системами перевода, используя эти метрики.
https://habr.com/ru/articles/956408/
#переводчик #машинный_перевод #языковые_модели #llm #метрики_качества #machine_translation #оценка_качества #переводчики #bleu #comet
-
Как оценить качество машинного перевода
Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший. При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных. В данной статье рассматриваются две наиболее распространенные метрики для оценки качества перевода — BLEU и COMET. Также проводится анализ того, как проверить статистическую значимость различий между двумя системами перевода, используя эти метрики.
https://habr.com/ru/articles/956408/
#переводчик #машинный_перевод #языковые_модели #llm #метрики_качества #machine_translation #оценка_качества #переводчики #bleu #comet
-
Как оценить качество машинного перевода
Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший. При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных. В данной статье рассматриваются две наиболее распространенные метрики для оценки качества перевода — BLEU и COMET. Также проводится анализ того, как проверить статистическую значимость различий между двумя системами перевода, используя эти метрики.
https://habr.com/ru/articles/956408/
#переводчик #машинный_перевод #языковые_модели #llm #метрики_качества #machine_translation #оценка_качества #переводчики #bleu #comet
-
Как оценить качество машинного перевода
Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший. При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных. В данной статье рассматриваются две наиболее распространенные метрики для оценки качества перевода — BLEU и COMET. Также проводится анализ того, как проверить статистическую значимость различий между двумя системами перевода, используя эти метрики.
https://habr.com/ru/articles/956408/
#переводчик #машинный_перевод #языковые_модели #llm #метрики_качества #machine_translation #оценка_качества #переводчики #bleu #comet
-
Как протестировать машинный переводчик
Машинный перевод уже стал привычной частью жизни — от деловой переписки до общения с людьми из других стран. Но за простотой нажатия кнопки «перевести» стоит сложная технология, которая требует постоянного контроля качества. В компании Lingvanex мы применяем собственный подход к выбору тестовых данных, ориентируясь на максимальную репрезентативность и адаптацию к реальным запросам клиентов. Цель состоит в том, чтобы создавать модели, которые могут точно переводить тексты как с лексической, так и с грамматической точностью, сохраняя контекст и стиль. В этой статье мы подробнее рассмотрим, как наша команда выбирает тестовые наборы данных и обсудим ограничения существующих стандартов.
https://habr.com/ru/articles/955954/
#тестирование #машинный_перевод #тестовые_данные #qa #переводчик #llmмодели #языковые_модели #machine_translation #датасеты #подход_к_тестированию
-
Нейросети-переводчики: Когда можно доверять, а когда — нет? 6 примеров дорогих ошибок ИИ
Нейросети оперативно анализируют гигантские массивы текстовой информации, обучаются на промахах и обеспечивают перевод довольно точно. Сегодня даже профильные лингвисты нередко применяют подобный метод перевода больших текстов. Можно ли довериться переводу нейросети и когда его хватит? Конечно, нейросети сильно упрощают нашу жизнь. Но даже самые современные нейронки делают ошибки. Уже набралось немало примеров, когда машинный перевод оказался не слишком удачным.
-
Нейросети-полиглоты: почему качественный перевод стал новым краеугольным камнем ИТ-инфраструктуры
В мире информационных технологий тихо, но уверенно происходит фундаментальный переворот. Всего пять лет назад все говорили о облаках, больших данных и ML. Сегодня же центр вселенной — генеративный искусственный интеллект (GenAI). Модели вроде учатся не просто обрабатывать, но и творчески генерировать код, картинки, тексты. Их следующая цель — стать настоящими полиглотами, свободно говорящими на десятках языков. Но на этом пути технологии сталкивается с древней проблемой — вавилонским столпотворением. И именно здесь качественный перевод на иностранные языки из разряда сервисов «по требованию» переходит в категорию центральных ИТ-ресурсов. Эра данных: язык как стратегическое сырье Современные нейросети растут на данных. Чем их больше и чем они лучше — тем умнее и универсальнее становится модель. Англоязычный интернет — это огромный, чистый и структурированный источник такой информации: GitHub, техдокументация, научные статьи. Но что делать с русскоязычными, китайскими, арабскими сайтами, статьями или софтом? Бизнес, желающий обучить свою AI-модель для мирового рынка, больше не может игнорировать эти «золотые жилы». Здесь и возникает первая точка соприкосновения ИТ и перевода. Чтобы «накормить» нейросеть иностранным текстом, его нужно не просто перевести, а тщательно адаптировать . Техтермины, культурные нюансы, идиомы — грубый машинный перевод здесь не только неточен, но и вреден. Он засоряет датасет «мусором», что приводит к генерации неверных, а иногда и комичных результатов.
-
Переводите i18n JSON файлы с помощью ИИ
Интернационализация (i18n) лежит в основе создания по-настоящему глобального ПО. Традиционно перевод i18n JSON-файлов выполнялся либо людьми, либо инструментами машинного перевода. Перевод, основанный на искусственном интеллекте, выводит точность и удобство для разработчиков на новый уровень. Давайте разберёмся почему.
https://habr.com/ru/articles/943078/
#i18n #i18next #l10n #internationalization #localization #json #translation #перевод #перевод_с_английского #машинный_перевод
-
Как служба поддержки ЮMoney научилась общаться с пользователями из разных стран, не зная их языка
Привет, Хабр. Мы – Даша (инженер машинного обучения) и Наташа (ведущий аналитик в ЮMoney). В этой статье расскажем о системе машинного перевода , разработанной как end-to-end-решение для многоязычной поддержки в финтех-компании. Рассмотрим архитектуру, технические детали реализации и практические результаты внедрения системы. А ещё покажем, как общались с пользователем из Казахстана. План статьи: >> Проанализируем потребность в системе перевода — рассмотрим, почему языковые барьеры критичны для техподдержки и масштабирования бизнеса. >> Обсудим выбор архитектурного подхода — почему остановились на специализированном агенте вместо универсальных LLM-решений. >> Детально разберём техническую реализацию — как работают FastText для определения языка и NLLB для перевода и почему потребовалось 12 отдельных LoRA адаптеров. >> Покажем систему в действии — полный цикл обработки обращения от клиента из Казахстана. >> Завершим анализом результатов и метрик качества работы системы.
https://habr.com/ru/companies/yoomoney/articles/941694/
#llmагент #aiассистент #lora #детекция_текста #трансформеры #машинный_перевод
-
Офлайн переводчик на скорости 1000000 символов в секунду
Привет, Хабр! Сегодня хочу рассказать о нашем самом главном продукте - офлайн решении для машинного перевода — инструменте, который позволяет компаниям переводить тексты, документы и веб-контент без интернета на 100 языков и на скорости 1 000 000 символов в секунду (на сервере аналогичном 8 x RTX 5090). Переводчик можно бесплатно взять на тест, нужна система с Linux и GPU.
https://habr.com/ru/articles/938594/
#переводчик #ai #искусственный_интеллект #llmмодели #llm #языковые_модели #машинный_перевод #machinelearning #deeplearning #оптимизация
-
Машинный перевод интерфейсов: что работает, а что нет — на реальном кейсе
За последние годы машинный перевод сделал серьёзный шаг вперёд. Если раньше он использовался в основном туристами, пытающимися объясниться с местными за границей, то сегодня его активно применяют в бизнесе. Особенно востребован он при переводе технической документации: благодаря объемам, прямому стилю и предсказуемой структуре, машинный перевод обеспечивает хорошее качество и позволяет существенно экономить ресурсы и поддерживать стабильное качество. Но можно ли использовать машинный перевод в интерфейсе — самой чувствительной части продукта для пользователя? Я управляю локализацией цифровых продуктов с акцентом на масштабирование процессов, их интеграцию в продуктовые циклы и соответствие бизнес-целям. Один из ключевых векторов моей работы — внедрение решений, ускоряющих выход продукта на международные рынки, включая стратегическое использование машинного перевода. В этой статье, опираясь на реальный кейс из своей практики, я расскажу, как выявить типичные ошибки нейронного машинного перевода в интерфейсах и понять, насколько такой подход подходит для вашего продукта. Это поможет принять взвешенное решение: можно ли использовать машинный перевод интерфейса вашего продукта без ущерба для качества локализации и пользовательского опыта.
https://habr.com/ru/articles/919388/
#локализация_продуктов #управление_продуктом #управление_проектами #машинный_перевод #интерфейсы #дизайн_интерфейсов
-
Вычисление функции потерь и градиентов в AI переводчике
Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex , которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf. Статья предоставляет всесторонний обзор вычисления функции потерь в машинном обучении, особенно в контексте моделей последовательностей. Она начинается с подробного описания того, как матрица логитов, генерируемая после преобразований в декодере, обрабатывается через функцию cross_entropy_sequence_loss. Эта функция играет ключевую роль в измерении расхождения между предсказанными выводами и фактическими метками. В статье описаны шаги, включая преобразование логитов в подходящий формат, применение сглаживания меток для создания сглаженных меток и вычисление кросс-энтропийных потерь с использованием softmax. Каждый этап подробно объясняется, чтобы было понятно, как каждый компонент вносит вклад в общую оценку потерь. Кроме вычисления потерь, статья рассматривает механизм выравнивания, используемый для улучшения работы модели. Описано, как значение потерь корректируется на основе направляемого выравнивания, что позволяет модели лучше учитывать взаимосвязи между исходными и целевыми последовательностями. Также подробно рассматривается процесс вычисления и применения градиентов, иллюстрируя, как оптимизатор обновляет веса модели для минимизации потерь.
https://habr.com/ru/articles/917708/
#машинное+обучение #machinelearning #переводчик #переводчики #машинный_перевод #ии #искусственный_интеллект #языковые_модели #transformers #neural_networks
-
Оптимизация нейронных сетей для AI — переводчика
Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex , которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. В этой статье рассматриваются несколько подходов, которые помогают повысить эффективность и качество языковых моделей для перевода. В качестве основы для тренировки моделей мы используем OpenNMT-tf. Мы поговорим о методах, которые способствуют постепенной настройке параметров модели, что может привести к более стабильным процессам обучения. Эти техники позволяют тонко настроить процесс обновления весов модели, что улучшает сходимость и в конечном итоге дает лучшие результаты. Кроме того, в статье обсуждаются стратегии управления темпами обучения, которые играют ключевую роль в том, насколько быстро модель обучается. Понимание того, как правильно корректировать темп обучения с течением времени, может существенно повлиять на динамику обучения и сделать модели более быстрыми и точными. Наконец, мы затронем важность управления контрольными точками, что позволяет эффективнее использовать обученные модели, усредняя веса из нескольких сессий обучения. Это помогает снизить риск переобучения и обеспечивает сохранение лучших характеристик модели, приобретенных в процессе обучения.
https://habr.com/ru/articles/916880/
#машинное+обучение #machinelearning #translator #ai #language_model #deeplearning #машинный_перевод #языковые_модели #нейросети #искусственный_интеллект
-
Способны ли нейросети реконструировать древние языки?
В настоящее время нейросети успешно используются для языкового перевода. По сравнению со старыми программами и онлайн переводчиками, прогресс на лицо. Алгоритмы демонстрируют более тонкое понимание речи, владение контекстом, они способны к стилизации. И если с современными языками нейросети справляются довольно толково, возникает вопрос: как насчет древних? До сих пор работа с ними представляла существенное затруднение. Скажем, тот же Google Translate из рук вон плохо работает с латынью. Между тем, лингвисты давно предпринимают попытки реконструкции еще более древних языков, к примеру — праиндоевропейского. Разумеется, подобные разработки имеют только гипотетический характер. Тем не менее сравнительное языкознание выработало алгоритмы, согласно которым язык можно «состарить», низведя его до определенной стадии развития. Способны ли современные нейросети выполнить качественную реконструкцию архаичных языков? И как проверить ее достоверность? Для практического разрешения данных вопросов обратимся к сервису DeepSeek. По моему опыту, пока он продемонстрировал лучший результат среди подобных средств. Рассматриваемая сеть довольно адекватно справляется с переводом отдельных слов на древние языки, причем аргументирует свой выбор. Но осилит ли она целый художественный текст? Для примера я заставил ее перевести на праиндоевропейский, являющийся далеким предком нашего языка, четверостишие в эпическом духе: Облака плывут по небесам В белых стаях мчатся души павших Это — воинства былых веков По земле их слава ходит в песнях
https://habr.com/ru/articles/910822/
#DeepSeek #нейросети #лингвистика #машинный_перевод #праиндоевропейский_язык
-
API для перевода на 100+ языков
Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. За последний год мы сильно переработали наше API переводчика , сделав его максимально удобным и быстрым для интеграции. Формат запроса теперь совпадает с Google, поэтому переход на наше API занимает в районе 5 минут. Более того, сильно выросло качество перевода. Наши языковые модели включают в районе 500 млн параметров и оптимизированы только на одну задачу - перевод. Наша ближайшая цель - сделать сделать лучший перевод на популярных языковых парах и постепенно мы к ней движемся. Каждые 2 недели выходит апдейт, который повышает качество перевода. Почему две недели ? Это среднее время одной тренировки языковой модели. Всего у нас 240 языковых моделей размером от 120 до 560 mb, которые можно развернуть локально даже на слабых игровых видеокартах типа RTX 3060. Ниже для примера представлены результаты тестов качества для перевода с английского на арабский язык. Сейчас перевод на арабский больше всего интересен наши клиентам, которые ходят зайти на этот рынок. Стоит отдельно отметить результаты тестов на датасетах (NTRex-128, Flores-101, WMT24++) так как это наиболее распространенные виды тестов среди ученых и бизнеса. Зеленым цветом выделены числа, где у нас лучше качество, чем у конкурентов, красным - где хуже. В колонке Lingvanex качество сравнивается между нашей новой и предыдущей моделью.
https://habr.com/ru/articles/909280/
#переводчик #api #machine_translation #машинный_перевод #яндекс_переводчик #google_переводчик #локализация #перевод_сайта #deepl #переводчики
-
Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере
Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы часов видеоконтента. Напомним, что на старте для перевода использовались только два голоса — мужской и женский. Затем мы расширили набор заранее созданных голосов. Ну а сегодня мы делаем следующий большой шаг вперёд. Теперь наша технология сохраняет тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. О том, как мы этого добились, расскажу в этой статье. Вы узнаете, как выглядит архитектура нашего нового решения, какие проблемы zero‑shot‑синтеза мы решали и как ускоряли инференс новой модели. Расскажу про эвристики для выбора аудиопромптов. Поговорим про замеры качества. Ну и, конечно же, покажу итоговый результат нашей работы в виде ролика в конце статьи.
https://habr.com/ru/companies/yandex/articles/902086/
#синтез_речи #искусственный_интеллект #машинный_перевод #перевод_видео #яндекс #machine_learning #deep_learning
-
Как мы создавали новый LLM-переводчик Яндекса
Меня зовут Николай Карпачёв, я руковожу группой базового качества перевода в Яндексе. Недавно мы впервые разработали модель документного перевода на основе YandexGPT и, используя различные оптимизации, уже применяем её в Поиске, Умной камере, а также в нейропереводчике Яндекс Браузера. Кроме того, мы протестировали новую модель на независимом международном бенчмарке DiBiMT, где заняли первое место по качеству англо-русского перевода.
https://habr.com/ru/companies/yandex/articles/884416/
#LLM #машинный_перевод #nlp #alignment #yandexgpt #яндекс #machine_learning
-
Я его слепила… Почему при переводе ИТ-тексты иногда приходится дописывать
Привет, Хабр! Это Иван Чаплыгин, руководитель отдела переводов в компании «КРОК». Как вы уже знаете, мы постоянно переводим самые разные тексты, и обычно требования к переводу предъявляются строгие: переводчик должен четко передать смысл и букву оригинала, ничего не выдумывая и не добавляя от себя. Однако из любого правила бывают исключения, и сегодня я расскажу о тех редких случаях, когда приходится дописывать текст, добавлять то, чего там изначально не было. Иначе вместо нормального перевода получится итальянская забастовка. Все любители нарушать правила – это история для вас. За подробностями добро пожаловать под кат.
https://habr.com/ru/companies/croc/articles/882164/
#перевод #итпереводчик #гуманитарии_в_ит #трудности_перевода #машинный_перевод #перевод_статьи
-
Машинный перевод
Автор статьи: Сергей Артамонов - DS Wildberries, Research Engineer Skoltech, аспирант мехмата МГУ, преподаватель Школы Высшей Математики Машинный перевод - одна из самых старых и проработанных задач обработки естественного языка. Машинный перевод выделяется на фоне всего многообразия задач этой дисциплины, и для этого есть несколько причин. Во-первых, машинный перевод – одна из наиболее практически значимых задач всей индустрии: машинный перевод применим повсеместно, и едва ли найдётся область, в которой не требовалось бы автоматически переводить тексты с одного языка на другой. Во-вторых, история развития машинного перевода олицетворяет историю развития NLP в целом – в машинном переводе, как в зеркале, отражались популярные подходы к обработке языка своего времени. Наконец, машинный перевод уникален тем, что в определённом смысле в последние 70 лет был локомотивом ключевых изменений, происходивших не только в NLP, но и в AI в целом: огромное количество идей и разработок, составляющих сегодня техническую повседневность, были впервые опробованы в качестве методов улучшения задачи машинного перевода. Сегодня мы поговорим о том, как развивались методы машинного перевода, как машинный перевод двигал вперёд NLP, что он представляет из себя сегодня и как понять, хороший ли перевод перед нами.
https://habr.com/ru/articles/879240/
#машинный_перевод #искусственный_интеллект #искусственные_нейронные_сети #машинное_обучение #Школа_Высшей_Математики #ШВМ #llm #large_language_model
-
Машинный перевод
Автор статьи: Сергей Артамонов - DS Wildberries, Research Engineer Skoltech, аспирант мехмата МГУ, преподаватель Школы Высшей Математики Машинный перевод - одна из самых старых и проработанных задач обработки естественного языка. Машинный перевод выделяется на фоне всего многообразия задач этой дисциплины, и для этого есть несколько причин. Во-первых, машинный перевод – одна из наиболее практически значимых задач всей индустрии: машинный перевод применим повсеместно, и едва ли найдётся область, в которой не требовалось бы автоматически переводить тексты с одного языка на другой. Во-вторых, история развития машинного перевода олицетворяет историю развития NLP в целом – в машинном переводе, как в зеркале, отражались популярные подходы к обработке языка своего времени. Наконец, машинный перевод уникален тем, что в определённом смысле в последние 70 лет был локомотивом ключевых изменений, происходивших не только в NLP, но и в AI в целом: огромное количество идей и разработок, составляющих сегодня техническую повседневность, были впервые опробованы в качестве методов улучшения задачи машинного перевода. Сегодня мы поговорим о том, как развивались методы машинного перевода, как машинный перевод двигал вперёд NLP, что он представляет из себя сегодня и как понять, хороший ли перевод перед нами.
https://habr.com/ru/articles/879240/
#машинный_перевод #искусственный_интеллект #искусственные_нейронные_сети #машинное_обучение #Школа_Высшей_Математики #ШВМ #llm #large_language_model
-
Машинный перевод
Автор статьи: Сергей Артамонов - DS Wildberries, Research Engineer Skoltech, аспирант мехмата МГУ, преподаватель Школы Высшей Математики Машинный перевод - одна из самых старых и проработанных задач обработки естественного языка. Машинный перевод выделяется на фоне всего многообразия задач этой дисциплины, и для этого есть несколько причин. Во-первых, машинный перевод – одна из наиболее практически значимых задач всей индустрии: машинный перевод применим повсеместно, и едва ли найдётся область, в которой не требовалось бы автоматически переводить тексты с одного языка на другой. Во-вторых, история развития машинного перевода олицетворяет историю развития NLP в целом – в машинном переводе, как в зеркале, отражались популярные подходы к обработке языка своего времени. Наконец, машинный перевод уникален тем, что в определённом смысле в последние 70 лет был локомотивом ключевых изменений, происходивших не только в NLP, но и в AI в целом: огромное количество идей и разработок, составляющих сегодня техническую повседневность, были впервые опробованы в качестве методов улучшения задачи машинного перевода. Сегодня мы поговорим о том, как развивались методы машинного перевода, как машинный перевод двигал вперёд NLP, что он представляет из себя сегодня и как понять, хороший ли перевод перед нами.
https://habr.com/ru/articles/879240/
#машинный_перевод #искусственный_интеллект #искусственные_нейронные_сети #машинное_обучение #Школа_Высшей_Математики #ШВМ #llm #large_language_model
-
Машинный перевод
Автор статьи: Сергей Артамонов - DS Wildberries, Research Engineer Skoltech, аспирант мехмата МГУ, преподаватель Школы Высшей Математики Машинный перевод - одна из самых старых и проработанных задач обработки естественного языка. Машинный перевод выделяется на фоне всего многообразия задач этой дисциплины, и для этого есть несколько причин. Во-первых, машинный перевод – одна из наиболее практически значимых задач всей индустрии: машинный перевод применим повсеместно, и едва ли найдётся область, в которой не требовалось бы автоматически переводить тексты с одного языка на другой. Во-вторых, история развития машинного перевода олицетворяет историю развития NLP в целом – в машинном переводе, как в зеркале, отражались популярные подходы к обработке языка своего времени. Наконец, машинный перевод уникален тем, что в определённом смысле в последние 70 лет был локомотивом ключевых изменений, происходивших не только в NLP, но и в AI в целом: огромное количество идей и разработок, составляющих сегодня техническую повседневность, были впервые опробованы в качестве методов улучшения задачи машинного перевода. Сегодня мы поговорим о том, как развивались методы машинного перевода, как машинный перевод двигал вперёд NLP, что он представляет из себя сегодня и как понять, хороший ли перевод перед нами.
https://habr.com/ru/articles/879240/
#машинный_перевод #искусственный_интеллект #искусственные_нейронные_сети #машинное_обучение #Школа_Высшей_Математики #ШВМ #llm #large_language_model
-
Google Translate vs. ChatGPT vs. Homo Sapiens: кто кого?
Привет, Хабр! It’s Ivan Chaplygin again. На прошлой неделе в аккаунте КРОК вышел последний эпизод звездных войн сериала под названием отчет Deloitte «Технологические тренды 2024» , с переводом которого помогали ребята и девчата из отдела переводов КРОК, работающие под моим руководством. Сейчас столько разговоров про машинные движки и искусственный интеллект, которые переводят совершенно замечательно, и тем не менее после таких мудреных нарративов, как отчет Deloitte, в очередной раз у меня возникло ощущение, что пока тексты пишут люди, переводить их тоже будут люди. В итоге я решил провести эксперимент и посмотреть, как с отдельными пассажами справятся Google Translate и ChatGPT, и сравнить их результат с тем, что попало в итоговый перевод. За конкретными примерами добро пожаловать под кат.
https://habr.com/ru/companies/croc/articles/860280/
#перевод #машинный_перевод #чат_gpt #искусственный_интеллект #google_translate #техномаркетинг #ии
-
Google Translate vs. ChatGPT vs. Homo Sapiens: кто кого?
Привет, Хабр! It’s Ivan Chaplygin again. На прошлой неделе в аккаунте КРОК вышел последний эпизод звездных войн сериала под названием отчет Deloitte «Технологические тренды 2024» , с переводом которого помогали ребята и девчата из отдела переводов КРОК, работающие под моим руководством. Сейчас столько разговоров про машинные движки и искусственный интеллект, которые переводят совершенно замечательно, и тем не менее после таких мудреных нарративов, как отчет Deloitte, в очередной раз у меня возникло ощущение, что пока тексты пишут люди, переводить их тоже будут люди. В итоге я решил провести эксперимент и посмотреть, как с отдельными пассажами справятся Google Translate и ChatGPT, и сравнить их результат с тем, что попало в итоговый перевод. За конкретными примерами добро пожаловать под кат.
https://habr.com/ru/companies/croc/articles/860280/
#перевод #машинный_перевод #чат_gpt #искусственный_интеллект #google_translate #техномаркетинг #ии
-
Google Translate vs. ChatGPT vs. Homo Sapiens: кто кого?
Привет, Хабр! It’s Ivan Chaplygin again. На прошлой неделе в аккаунте КРОК вышел последний эпизод звездных войн сериала под названием отчет Deloitte «Технологические тренды 2024» , с переводом которого помогали ребята и девчата из отдела переводов КРОК, работающие под моим руководством. Сейчас столько разговоров про машинные движки и искусственный интеллект, которые переводят совершенно замечательно, и тем не менее после таких мудреных нарративов, как отчет Deloitte, в очередной раз у меня возникло ощущение, что пока тексты пишут люди, переводить их тоже будут люди. В итоге я решил провести эксперимент и посмотреть, как с отдельными пассажами справятся Google Translate и ChatGPT, и сравнить их результат с тем, что попало в итоговый перевод. За конкретными примерами добро пожаловать под кат.
https://habr.com/ru/companies/croc/articles/860280/
#перевод #машинный_перевод #чат_gpt #искусственный_интеллект #google_translate #техномаркетинг #ии
-
Google Translate vs. ChatGPT vs. Homo Sapiens: кто кого?
Привет, Хабр! It’s Ivan Chaplygin again. На прошлой неделе в аккаунте КРОК вышел последний эпизод звездных войн сериала под названием отчет Deloitte «Технологические тренды 2024» , с переводом которого помогали ребята и девчата из отдела переводов КРОК, работающие под моим руководством. Сейчас столько разговоров про машинные движки и искусственный интеллект, которые переводят совершенно замечательно, и тем не менее после таких мудреных нарративов, как отчет Deloitte, в очередной раз у меня возникло ощущение, что пока тексты пишут люди, переводить их тоже будут люди. В итоге я решил провести эксперимент и посмотреть, как с отдельными пассажами справятся Google Translate и ChatGPT, и сравнить их результат с тем, что попало в итоговый перевод. За конкретными примерами добро пожаловать под кат.
https://habr.com/ru/companies/croc/articles/860280/
#перевод #машинный_перевод #чат_gpt #искусственный_интеллект #google_translate #техномаркетинг #ии
-
Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL
Многие компании или их сотрудники хоть раз использовали для своих задач онлайн-переводчики. Это быстро, удобно, но результат не всегда точный. Однако такой перевод иногда имеет неприятные последствия: его могут неправильно понять клиенты или бизнес-партнеры, что может испортить репутацию. В прошлой публикации мы с командой делали обзор на лучшие программы локализации в 2024 году, вы можете прочитать его по этой ссылке . Сегодня же мы рассмотрим популярные движки машинного перевода (МП): Яндекс переводчик, Google Translate и DeepL. Оценим возможности каждого, сравним плюсы и минусы, для каких задач подходит тот или иной переводчик и расскажем, почему лучше не переводить важные документы онлайн. В данной статье будут упоминаться сторонние исследования и тестирования переводчиков с указанными на них ссылками. Приятного чтения!
https://habr.com/ru/articles/852810/
#google_translate #яндекс_переводчик #deepl #машинный_перевод #онлайнпереводчик
-
Большое тестирование видеокарт для машинного обучения
Всем привет! Меня зовут Алексей Рудак и я основатель компании Lingvanex, которая занимается решениями в области машинного перевода и транскрипции речи. Для нашей работы мы постоянно тренируем языковые модели. Наша команда использует десятки разных видеокарт, выбранных под разные задачи: где-то нужна мощная станция DGX, а где-то достаточно старой игровой карты типа RTX 2080Ti. Выбор оптимальной конфигурации GPU сэкономит вам не только время на тренировку, но и деньги. Интересно то, что в интернете довольно мало статей с тестами GPU именно для скорости тренировки языковых моделей. В основном встречаются только тесты inference. Когда вышел новый чип H100, в отчете NVidia было указано, что при тренировке он быстрее A100 до девяти раз, но для наших задач новая карта оказалась всего на 90% быстрее старой. Для сравнения: у наших облачных провайдеров разница в цене между этими GPU составляла 2 раза, поэтому переходить на новый H100 для экономии денег смысла не было. В дополнение к этому мы брали на тест станцию DGX, которая состоит из 8 видеокарт A100 80GB и стоит 10 тысяч долларов в месяц. После теста стало ясно что соотношение цена / производительность этой станции нас полностью не устраивает и за эти деньги мы можем взять 66 x RTX 3090, которые в сумме принесут гораздо больше пользы. Наши языковые модели для перевода имеют до 500 миллионов параметров (в среднем от 100 млн до 300 млн). Возможно, если значительно увеличить кол-во параметров, то соотношение цена / производительность от DGX станет лучше. На данный момент мы не тренируем большие языковые модели, которые могут переводить сразу между всеми языками во всех вариациях, а применяем отдельные языковые модели под каждую языковую пару, например англо-немецкую. Каждая из таких моделей занимает от 120 до 300 Mb.
https://habr.com/ru/articles/821203/
#машинный_перевод #gpu #машинное_обучение #nlp_(natural_language_processing) #искусственный_интеллект #железо #видеокарты #тесты_производительности #производительность
-
Подготовка текста к машинному переводу на разные языки
Машинный перевод — отличный инструмент для передачи смысла в общих чертах. С его помощью можно быстро переводить большие объемы текста сразу на несколько языков, что особенно важно для локализации в условиях ограниченного времени. Технологии машинного перевода развиваются, поэтому его качество постоянно улучшается, но точность машинного выхода напрямую зависит от целевого языка, движка и исходного текста. Наше агентство постоянно изучает новые способы перевода и локализации и делится опытом и знаниями в этой сфере. В статье собраны рекомендации по подготовке текста к машинному переводу на основе советов IBM ( Machine translation tips , вебархив). Эти рекомендации помогут оптимизировать процесс перевода и сократить время на постредактирование. При адаптации текста к автопереводу на разные языки необходимо уделить внимание стилистике, грамматике, терминологии, пунктуации, орфографии и верстке. Просторечия, неполные предложения, неправильная пунктуация, многозначные слова приведут к ошибкам в переводе. Обо всем подробнее.
https://habr.com/ru/articles/818769/
#машинный_перевод #локализация #локализация_интерфейса #локализация_приложений #локализация_продуктов #локализация_игр #локализация_сайта #локализация_мобильных_приложений #локализация_по
-
Подготовка текста к машинному переводу на разные языки
Машинный перевод — отличный инструмент для передачи смысла в общих чертах. С его помощью можно быстро переводить большие объемы текста сразу на несколько языков, что особенно важно для локализации в условиях ограниченного времени. Технологии машинного перевода развиваются, поэтому его качество постоянно улучшается, но точность машинного выхода напрямую зависит от целевого языка, движка и исходного текста. Наше агентство постоянно изучает новые способы перевода и локализации и делится опытом и знаниями в этой сфере. В статье собраны рекомендации по подготовке текста к машинному переводу на основе советов IBM ( Machine translation tips , вебархив). Эти рекомендации помогут оптимизировать процесс перевода и сократить время на постредактирование. При адаптации текста к автопереводу на разные языки необходимо уделить внимание стилистике, грамматике, терминологии, пунктуации, орфографии и верстке. Просторечия, неполные предложения, неправильная пунктуация, многозначные слова приведут к ошибкам в переводе. Обо всем подробнее.
https://habr.com/ru/articles/818769/
#машинный_перевод #локализация #локализация_интерфейса #локализация_приложений #локализация_продуктов #локализация_игр #локализация_сайта #локализация_мобильных_приложений #локализация_по
-
Подготовка текста к машинному переводу на разные языки
Машинный перевод — отличный инструмент для передачи смысла в общих чертах. С его помощью можно быстро переводить большие объемы текста сразу на несколько языков, что особенно важно для локализации в условиях ограниченного времени. Технологии машинного перевода развиваются, поэтому его качество постоянно улучшается, но точность машинного выхода напрямую зависит от целевого языка, движка и исходного текста. Наше агентство постоянно изучает новые способы перевода и локализации и делится опытом и знаниями в этой сфере. В статье собраны рекомендации по подготовке текста к машинному переводу на основе советов IBM ( Machine translation tips , вебархив). Эти рекомендации помогут оптимизировать процесс перевода и сократить время на постредактирование. При адаптации текста к автопереводу на разные языки необходимо уделить внимание стилистике, грамматике, терминологии, пунктуации, орфографии и верстке. Просторечия, неполные предложения, неправильная пунктуация, многозначные слова приведут к ошибкам в переводе. Обо всем подробнее.
https://habr.com/ru/articles/818769/
#машинный_перевод #локализация #локализация_интерфейса #локализация_приложений #локализация_продуктов #локализация_игр #локализация_сайта #локализация_мобильных_приложений #локализация_по
-
Deus ex machina?
Искусственный интеллект в образовании: вчера, сегодня, завтра Влияет ли искусственный интеллект на естественный? Какое место он уже занимает и только может занять в системе образования? Обучаем ли мы его, или же он – нас? Какие функции педагога он уже взял на себя, а какие заменит в перспективе? Не отомрет ли профессия учителя в ближайшем будущем? Как искусственный интеллект применяется в регионах? Эти и другие наболевшие вопросы уже довольно долго будоражат умы ведущих отечественных экспертов. Сумеют ли они быстро прийти к некому консенсусу, или, пока люди пытаются договориться, наш мир уже захватят машины? Обмани меня, если сможешь «Мозг впитывает в себя абсолютно все, с чем сталкивается. Искусственный интеллект – это другой тип подачи информации, классификации, обратной связи. Вполне естественно, что он влияет на естественный интеллект. Однако, человечество не готово жить в среде, где сочетаются два типа интеллекта. - поделилась Татьяна Черниговская, доктор биологических наук, доктор филологических наук, академик РАО (2023), заслуженный работник высшей школы и Заслуженный деятель науки РФ (2010), профессор кафедры общего языкознания СПбГУ, заведующая лабораторией когнитивных исследований и кафедрой проблем конвергенции естественных и гуманитарных наук. - У нас нет этических правил: что можно, что нельзя, нет навыков жизни в этой среде – чего стоит только развитие нейросетей с огромной скоростью. Делать вид, что есть возможности отступления – бесполезно. Недавно мы провели исследование с командой Сбера, как мозг реагирует на офлайн и онлайн обучения, и результаты этого влияния отличаются. Очень важна такая вещь, как практические исследования роли обратной связи вживую и через экран. Плюсы работы в сети огромны, но и риски огромны. Эта сфера исследований – вызов нашему биологическому виду».
https://habr.com/ru/articles/817803/
#искусственный_интеллект #образование #нейросети #нейросети_и_machine_learning #нейросети_самообучающиеся_системы #машинный_анализ_текстов #машинный_перевод
-
Lingua Franca — Машинный перевод с учётом именованных сущностей для вопросно-ответных систем
Машинный перевод может улучшить существующие вопросно‑ответные системы (англ. Question Answering — QA), которые имеют ограниченные языковые возможности, позволяя им поддерживать несколько языков. Однако у машинного перевода есть один основной недостаток: часто такие системы не справляются с переводом именованных сущностей, которые нельзя перевести дословно. Например, немецкое название фильма «The Pope Must Die» переводится как «Ein Papst zum Küssen», что дословно означает «Папа для поцелуев». На Русском языке название фильма звучит так: «Папа должен похудеть». Поскольку правильность именованных сущностей критична для вопросно‑ответных систем, необходимо как можно лучше обеспечить правильность их перевода. В данной статье я представляю наш метод машинного перевода, учитывающий именованные сущности, под названием «Lingua Franca». Он использует графы знаний для использования хранящейся там символьной информации с целью обеспечения правильности перевода именованных сущностей. И да, это работает!
https://habr.com/ru/articles/791616/
#машинный_перевод #именованые_сущности #machine_translation #named_entities #question_answering #вопросно_ответный_поиск #графы_знаний #knowledge_graphs #information_retrieval
-
Сравнение локальных моделей машинного перевода для английского, китайского и русского языков
"Машинный перевод – одна из наиболее актуальных и востребованных задач в сфере искусственного интеллекта, позволяющая снизить барьере в доступности информации на различных языках. При этом на просторах интернета преобладающим большинством данных на английском, и русском языка. Количество данных на китайском языке в открытом доступе становится с каждым днем всё больше. Поэтому необходимо всё больше инструментов позволяющие использовать все эти языки для своей работы.
https://habr.com/ru/articles/791522/
#перевод_текстов #машинный_перевод #русскокитайский_переводчик #NTREX #t5_translate_en_ru_zh_large_1024 #en_ru_zh #ru_en_zh
-
Как мы сделали переводчик точнее и дешевле Google и Yandex
Всем привет! Меня зовут Никита, я Data Scientist из Raft. Сегодня я расскажу вам о том, как мы решили задачу перевода каталога товаров большого интернет-магазина с русского на арабский язык с применением искусственного интеллекта. Мы рассмотрим различные подходы и идеи, возникавшие в процессе погружения в эту задачу. Также я объясню, почему мы отказались от готовых решений и выбрали Large Language Models (LLM) в качестве основного инструмента. Как вы, возможно, уже догадались из названия, основным преимуществом нашего финального решения стала значительная оптимизация расходов: нам удалось сократить использование API OpenAI в 4 раза, при этом сохранив высокое качество перевода.