#переводчики — Public Fediverse posts on home.social

Habr @[email protected] · 2025-12-25 · 16:52 UTC

Как создать переводчик для низкоресурсного языка: практическое руководство

Привет, Хабр! В продолжение моей предыдущей статьи о локальном переводчике на кабардинском языке хочу поделиться практическим опытом обучения моделей машинного перевода для низкоресурсных языков. Расскажу о том, с какими проблемами я столкнулся, как их решал, и покажу конкретный код, который помог улучшить качество перевода с BLEU 8 до 28 пунктов.

https://habr.com/ru/articles/980622/

#кабардинский #синтез_речи #ударение #обучение_моделей #изучение_языков #переводчики #машинное+обучение

#машинное #переводчики #изучение_языков #обучение_моделей #ударение #синтез_речи

Habr @[email protected] · 2025-10-14 · 10:52 UTC

Как оценить качество машинного перевода

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший. При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных. В данной статье рассматриваются две наиболее распространенные метрики для оценки качества перевода — BLEU и COMET. Также проводится анализ того, как проверить статистическую значимость различий между двумя системами перевода, используя эти метрики.

https://habr.com/ru/articles/956408/

#переводчик #машинный_перевод #языковые_модели #llm #метрики_качества #machine_translation #оценка_качества #переводчики #bleu #comet

#comet #bleu #переводчики #оценка_качества #machine_translation #метрики_качества

Habr @[email protected] · 2025-10-14 · 10:52 UTC

Как оценить качество машинного перевода

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший. При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных. В данной статье рассматриваются две наиболее распространенные метрики для оценки качества перевода — BLEU и COMET. Также проводится анализ того, как проверить статистическую значимость различий между двумя системами перевода, используя эти метрики.

https://habr.com/ru/articles/956408/

#переводчик #машинный_перевод #языковые_модели #llm #метрики_качества #machine_translation #оценка_качества #переводчики #bleu #comet

#comet #bleu #переводчики #оценка_качества #machine_translation #метрики_качества

Habr @[email protected] · 2025-10-14 · 10:52 UTC

Как оценить качество машинного перевода

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший. При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных. В данной статье рассматриваются две наиболее распространенные метрики для оценки качества перевода — BLEU и COMET. Также проводится анализ того, как проверить статистическую значимость различий между двумя системами перевода, используя эти метрики.

https://habr.com/ru/articles/956408/

#переводчик #машинный_перевод #языковые_модели #llm #метрики_качества #machine_translation #оценка_качества #переводчики #bleu #comet

#comet #bleu #переводчики #оценка_качества #machine_translation #метрики_качества

Habr @[email protected] · 2025-10-14 · 10:52 UTC

Как оценить качество машинного перевода

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший. При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных. В данной статье рассматриваются две наиболее распространенные метрики для оценки качества перевода — BLEU и COMET. Также проводится анализ того, как проверить статистическую значимость различий между двумя системами перевода, используя эти метрики.

https://habr.com/ru/articles/956408/

#переводчик #машинный_перевод #языковые_модели #llm #метрики_качества #machine_translation #оценка_качества #переводчики #bleu #comet

#переводчик #машинный_перевод #языковые_модели #llm #метрики_качества #machine_translation

Habr @[email protected] · 2025-10-13 · 15:12 UTC

Расширение для перевода страниц

Привет, Хабр! Сегодня хочу рассказать об очередном нашем продукте — браузерном расширении для перевода, которое может переводить выделенный текст на веб-страницах на 109 языков. Доступно авто-определение языка, история переводов и произношение переведенного текста. Все работает бесплатно и доступно для браузеров Chrome, Firefox, Opera, Edge и Safari.

https://habr.com/ru/articles/956124/

#расширения #расширения_chrome #браузерные_расширения #переводчик #расширение_firefox #safari #расширения_opera #расширения_браузеров #edge #переводчики

#переводчики #edge #расширения_браузеров #расширения_opera #safari #расширение_firefox

Habr @[email protected] · 2025-09-14 · 04:02 UTC

Нейросети-переводчики: Когда можно доверять, а когда — нет? 6 примеров дорогих ошибок ИИ

Нейросети оперативно анализируют гигантские массивы текстовой информации, обучаются на промахах и обеспечивают перевод довольно точно. Сегодня даже профильные лингвисты нередко применяют подобный метод перевода больших текстов. Можно ли довериться переводу нейросети и когда его хватит? Конечно, нейросети сильно упрощают нашу жизнь. Но даже самые современные нейронки делают ошибки. Уже набралось немало примеров, когда машинный перевод оказался не слишком удачным.

https://habr.com/ru/articles/946700/

#перевод #переводчики #нейросети #машинный_перевод

Habr @[email protected] · 2025-09-07 · 21:32 UTC

Нейросети-полиглоты: почему качественный перевод стал новым краеугольным камнем ИТ-инфраструктуры

В мире информационных технологий тихо, но уверенно происходит фундаментальный переворот. Всего пять лет назад все говорили о облаках, больших данных и ML. Сегодня же центр вселенной — генеративный искусственный интеллект (GenAI). Модели вроде учатся не просто обрабатывать, но и творчески генерировать код, картинки, тексты. Их следующая цель — стать настоящими полиглотами, свободно говорящими на десятках языков. Но на этом пути технологии сталкивается с древней проблемой — вавилонским столпотворением. И именно здесь качественный перевод на иностранные языки из разряда сервисов «по требованию» переходит в категорию центральных ИТ-ресурсов. Эра данных: язык как стратегическое сырье Современные нейросети растут на данных. Чем их больше и чем они лучше — тем умнее и универсальнее становится модель. Англоязычный интернет — это огромный, чистый и структурированный источник такой информации: GitHub, техдокументация, научные статьи. Но что делать с русскоязычными, китайскими, арабскими сайтами, статьями или софтом? Бизнес, желающий обучить свою AI-модель для мирового рынка, больше не может игнорировать эти «золотые жилы». Здесь и возникает первая точка соприкосновения ИТ и перевода. Чтобы «накормить» нейросеть иностранным текстом, его нужно не просто перевести, а тщательно адаптировать . Техтермины, культурные нюансы, идиомы — грубый машинный перевод здесь не только неточен, но и вреден. Он засоряет датасет «мусором», что приводит к генерации неверных, а иногда и комичных результатов.

https://habr.com/ru/articles/944798/

#искусственный_интеллект #машинный_перевод #переводчики

Habr @[email protected] · 2025-06-25 · 12:22 UTC

Переводчик документов

Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — команды, которая уже почти десять лет прокладывает путь в мире машинного перевода и распознавания речи. За это время мы достигли определенных результатов: наш API умеет мгновенно переводить тексты на более чем 100 языков, используя языковые модели с 500 миллионами параметров, оптимизированные специально под задачу быстрого и качественного перевода. Сегодня я поделюсь тем, как мы смогли удовлетворить еще одну ключевую потребность пользователей и расскажу, почему наше решение для перевода документов может стать важным инструментом в вашей работе с языками..

https://habr.com/ru/articles/921678/

#переводчик #стартапы #переводчики #документооборот #развитие_стартапа #бизнес #развитие_бизнеса #полезности #saas #saas_сервисы

#переводчик #стартапы #переводчики #документооборот #развитие_стартапа #бизнес

Habr @[email protected] · 2025-06-11 · 15:52 UTC

Вычисление функции потерь и градиентов в AI переводчике

Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex , которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf. Статья предоставляет всесторонний обзор вычисления функции потерь в машинном обучении, особенно в контексте моделей последовательностей. Она начинается с подробного описания того, как матрица логитов, генерируемая после преобразований в декодере, обрабатывается через функцию cross_entropy_sequence_loss. Эта функция играет ключевую роль в измерении расхождения между предсказанными выводами и фактическими метками. В статье описаны шаги, включая преобразование логитов в подходящий формат, применение сглаживания меток для создания сглаженных меток и вычисление кросс-энтропийных потерь с использованием softmax. Каждый этап подробно объясняется, чтобы было понятно, как каждый компонент вносит вклад в общую оценку потерь. Кроме вычисления потерь, статья рассматривает механизм выравнивания, используемый для улучшения работы модели. Описано, как значение потерь корректируется на основе направляемого выравнивания, что позволяет модели лучше учитывать взаимосвязи между исходными и целевыми последовательностями. Также подробно рассматривается процесс вычисления и применения градиентов, иллюстрируя, как оптимизатор обновляет веса модели для минимизации потерь.

https://habr.com/ru/articles/917708/

#машинное+обучение #machinelearning #переводчик #переводчики #машинный_перевод #ии #искусственный_интеллект #языковые_модели #transformers #neural_networks

#neural_networks #transformers #языковые_модели #искусственный_интеллект #ии #машинный_перевод

Habr @[email protected] · 2025-05-14 · 10:12 UTC

API для перевода на 100+ языков

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. За последний год мы сильно переработали наше API переводчика , сделав его максимально удобным и быстрым для интеграции. Формат запроса теперь совпадает с Google, поэтому переход на наше API занимает в районе 5 минут. Более того, сильно выросло качество перевода. Наши языковые модели включают в районе 500 млн параметров и оптимизированы только на одну задачу - перевод. Наша ближайшая цель - сделать сделать лучший перевод на популярных языковых парах и постепенно мы к ней движемся. Каждые 2 недели выходит апдейт, который повышает качество перевода. Почему две недели ? Это среднее время одной тренировки языковой модели. Всего у нас 240 языковых моделей размером от 120 до 560 mb, которые можно развернуть локально даже на слабых игровых видеокартах типа RTX 3060. Ниже для примера представлены результаты тестов качества для перевода с английского на арабский язык. Сейчас перевод на арабский больше всего интересен наши клиентам, которые ходят зайти на этот рынок. Стоит отдельно отметить результаты тестов на датасетах (NTRex-128, Flores-101, WMT24++) так как это наиболее распространенные виды тестов среди ученых и бизнеса. Зеленым цветом выделены числа, где у нас лучше качество, чем у конкурентов, красным - где хуже. В колонке Lingvanex качество сравнивается между нашей новой и предыдущей моделью.

https://habr.com/ru/articles/909280/

#переводчик #api #machine_translation #машинный_перевод #яндекс_переводчик #google_переводчик #локализация #перевод_сайта #deepl #переводчики

#переводчики #deepl #перевод_сайта #локализация #google_переводчик #яндекс_переводчик

Habr @[email protected] · 2024-12-05 · 11:42 UTC

Как мы тестировали суперкомпьютер DGX-H100 и что из этого вышло

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 7 лет занимается решениями в области машинного перевода и транскрипции речи. Время с момента моей первой статьи на Хабре прошло незаметно. Это были годы амбиций, упорства и стремления сделать лучший в мире переводчик, не имея в своем распоряжении тех ресурсов, которые доступны крупным корпорациям. Мне всегда казалось, что небольшие инженерные команды при правильном руководстве, мотивации и ограниченном финансировании, могут быстро создавать решения мирового уровня, порой буквально «из песка и палок». По крайней мере среди моих знакомых было несколько таких случаев, которые сделали их миллионерами. А что будет, если им дать еще суперкомпьютеры? А если дать им размеченные датасеты ? В этой статье я бы хотел порассуждать на эту тему, тем более нашей команде подвернулся интересный случай, о котором я хотел рассказать. Три месяца назад на мой email пришло предложение с возможностью бесплатного теста вычислительной станции от Nvidia DGX-H100. Одна из компаний продавала эти системы и искала потенциальных покупателей из числа тех, кто тренирует большие языковые модели, – а это как раз мы. Это было предложение, от которого нельзя было отказаться. Все наши предыдущие сервера не шли в какое-либо сравнение с той производительностью, которая оказалась в наших руках. Диапазон цены на DGX-H100 составляет от 250 до 350 тыс долларов. Ее заявленная производительность на fp8 составляет около 32 петафлопс (petaFlops). Мы тренируем наши модели для переводчика на fp16 и получаем около 16 petaFlops под задачи. Но что это означает для нас? Для этого стоит вернуться в 2017 год…

https://habr.com/ru/articles/864102/

#стартап #искусственный_интеллект #llm #искуственный_интеллект #переводчики #машинное_обучение #языковые_модели #artificial_intelligence #ии #железо

#железо #ии #artificial_intelligence #языковые_модели #машинное_обучение #переводчики