home.social

#субтитры — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #субтитры, aggregated by home.social.

  1. Как я написал лучшее приложение для изучения иностранных языков с помощью SFSpeechRecognizer (нет)

    Вообще‑то, я бэкендер последние лет 20, но недавно остался без работы (и AI тут не причём), решил «замутить» свой «стартап», пока ищу новую работу Java‑программиста. А заодно подтянуть новые технологии, поглубже изучить немецкий и английский и немного развеяться… Писать приложения под iOS было моим хобби последние лет 10, и пару моих приложений до сих пор постоянно висят в топе в Российском AppStore, но это были всё «игрушки», а захотелось сделать что‑то взаправду стоящее, и так возникла идея написать лучшее (ни больше ни меньше) приложение для изучения языков с помощью аудирования. Точнее, товарищ подсказал идею. А ещё точнее — идея давно была реализована под Андроид, но аналогов под iOS нет, а очень хотелось. И мне, и товарищу:). Да и смартфона с андроидом у меня нет и никогда не было, не судите строго, но не люблю я вирусы и глюки. Идея следующая: берёте любое аудио на любом нужном вам языке, загружаете в приложение, и оно автоматически (можно так же вручную) разбивает аудиофайл на нужные вам сегменты для «шэдоуинга», аудирования, многократного прослушивания и тому подобного. Аналогов в сторе я не нашёл, точнее, что‑то отдалённо похожее там есть, но без своих настроек, без выбора своего контента для изучения, без красивой визуализации аудио, короче, без всего того, что нам бы хотелось иметь. Итак, идея есть, какие технологии использовать? В старых моих приложениях был UIKit, Realm/CoreData, и, сториборды. Не судите строго, я как бэкэндер тогда не знал, что использование сторибордов среди «трушных» айосников считается плохим тоном и плохой приметой. Но теперь‑то я решил использовать современные технологии! И выбрал такой стэк: SwiftUI, SwiftData, Speech Framework. Что касается последнего, то он вроде бы доступен ещё с iOS 10, но я решил, что технологии развиваются, и распознавание текста из аудио должно было бы сделать со времени iOS 10 огромный рывок вперёд. Но теперь я не так сильно в этом уверен, и об этом эта моя маленькая статья…

    habr.com/ru/articles/1029188/

    #SFSpeechRecognizer #распознавание_речи #аудирование #изучение_языков #iOSразработка #SwiftUI #субтитры #сегментация_аудио #чанкинг #Speech_Framework

  2. От MVP на Whisper до собственной ASR: как мы построили платформу субтитров для RUTUBE

    Автоматическое создание субтитров для пользовательского контента может выглядеть довольно простой задачей: берем готовую ASR‑модель, распознаем аудио из видео и сохраняем результат. Именно таким и был наш первый MVP в RUTUBE — сервис на базе Whisper, который позволил быстро проверить гипотезу и запустить субтитры в production. Но очень быстро стало понятно, что между «распознать речь» и «сделать субтитры для всего контента» лежит огромный пласт работы. Миллионы новых видео, ролики длиной до 24 часов, неизвестный язык, шумный пользовательский контент, требования к качеству текста и жесткие ограничения по скорости обработки — всё это превратило задачу из простого ASR в полноценную платформу с микросервисной архитектурой и собственной системой распознавания речи. В статье расскажу, почему Whisper не подошел для production, как мы перестроили всю архитектуру и за счет чего смогли выйти на производительность около 1200 видео в час на один ASR.

    habr.com/ru/companies/habr_rut

    #asr #whisper #распознавание_речи #highload #субтитры #production_ml #machine_learning

  3. Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

    Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации. Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам. В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.

    habr.com/ru/articles/1014810/

    #анализ_видео #Python #computer_vision #автоматизация #YouTube_Shorts #обработка_аудио #субтитры #OpenCV #Whisper #media_pipeline

  4. Мой опыт монетизации проекта: шахматы по переписке с Paddle

    Я уже больше года работаю над проектом Language Dove , и наконец пришло время его монетизировать. В этой статье - мой опыт с двумя платёжными сервисами: американским MoR (merchant of record) Paddle и интернет-эквайрингом от IDBank в Армении, а также технические детали интеграции с тем из них, который я в итоге выбрал.

    habr.com/ru/articles/1011226/

    #paddle #интернетэквайринг #перевод #английский_язык #субтитры #language_dove #армения #релокация #llm #заказ_субтитров

  5. Language Dove: как я транскрибирую и перевожу фильмы

    Я обожаю смотреть иностранные фильмы в оригинале. Во-первых, мне нравится расширять кругозор, погружаться в другую культуру, расшифровывать структуру разных языков, пополнять словарный запас. Во-вторых, мне просто нравится звучание некоторых языков - например, французского, китайского, датского. Также я работаю над сайтом по изучению языков Language Dove , а учить языки по фильмам - это очень эффективно. Так родился проект по генерации идеальных субтитров.

    habr.com/ru/articles/994896/

    #субтитры #перевод #llm #speechtotext #language_dove #изучение_языков #английский #французский #транскреация #youtube

  6. Барьеры, которые рухнули: как искусство училось быть доступным для всех — истории, факты, кейсы

    Классические театры часто строились во времена, когда об инклюзивности не задумывались. Однако сегодня даже легендарные сцены адаптируют пространство под нужды всех зрителей. Яркий пример – Большой театр в Москве . При грандиозной реконструкции, завершенной в 2011 году, архитекторы и строители заложили специальные решения для зрителей с инвалидностью. В театре появились:

    habr.com/ru/articles/972464/

    #доступность #инклюзивный_дизайн #универсальный_дизайн #ux #театры #доступная_среда #вспомогательные_технологии #аудиодескрипция #субтитры #язык_жестов

  7. Если шутка не смешная. Часть 2. Я беру мрамор и отсекаю всё лишнее

    В первой части статьи я рассказывала о том, как извлекала культурные реалии из субтитров фильмов. Теперь пришло время оптимизировать сам подход, скрипт и результаты анализа. В этот раз я обработала все четыре сезона любимого многими яркого и отдыхающего сериала Emily in Paris и узнала, например, что "hemorrhaging clients" — это отнюдь не "геморройные клиенты" и даже не клиенты с геморроем в медицинском смысле, а стремительная потеря клиентов (по аналогии с кровотечением, которое, как мы знаем, "hemorrhage" на английском). Узнала, что раскованные французы поднимают бокалы с возгласом Tchin-tchin!, заимствованном, между прочим, из китайского, а сдержанные норвежцы в этой же ситуации произносят Skol! И это "сакральное" знание обошлось мне всего в 40 рублей.

    habr.com/ru/articles/877366/

    #фильмы #субтитры #культурные_реалии #LLM #gpt4o

  8. Если шутка не смешная: как расшифровать культурный код фильма при помощи LLM

    Если шутка не смешная: расшифровываем культурные коды фильма при помощи LLM Вы учите иностранный язык, возможно уже хорошо его знаете и смотрите фильмы в оригинале, но часть шуток и культурных нюансов по‑прежнему ускользает от вас? Как понять без контекста, да даже и в контексте, что такое «bake sale» или кто такие «Momsters», если это не часть вашей родной культуры? Я нашла для себя способ, как при помощи LLM относительно быстро и недорого расшифровывать скрытые культурные коды фильма — делюсь своим первым опытом.

    habr.com/ru/articles/868214/

    #субтитры #фильмы #LLM #культурные_реалии #gpt4o_mini

  9. Помощь с текстом, перевод видео с японского и корейского, распознавание QR-кодов — что умеет обновлённый Яндекс Браузер

    Сегодня мы выпускаем большое обновление для Браузера с рекордным числом изменений, в основе которых лежат нейросети или другие методы машинного обучения. Теперь Браузер исправит ошибки в тексте, сократит или улучшит его, перескажет видео с японского или корейского, распознает QR-код в трансляции и предложит перейти по ссылке в один клик, а также защитит от фишинг-страниц и не только. В этой статье расскажем, как мы обучали нейросеть с помощью учебника Розенталя, как модель, отвечающая за субтитры, понимает, что начал говорить другой человек, почему не каждый QR-код легко распознать и за счёт чего мы научились ловить фишинговые сайты, которые появились буквально 5 минут назад. Обо всём этом — под катом.

    habr.com/ru/companies/yandex/a

    #яндекс #браузеры #яндекс_браузер #нейросети #редактирование_текстов #qrкоды #суммаризация #субтитры #перевод_видео #обновление

  10. Только вот куда всем этим делом делиться и есть ли вообще в этом смысл? Нинаю. Но! #Субтитры крайне важны, не только для интернациональности, но и для людей с ограниченными возможностями. Субтитры должны быть везде. Те, кто на #Peertube что-то заливает, не поленитесь писать свои сабы! #Fediverse нельзя написать без #diverse. Хорошая программа для этого - #Gaupol (otsaloma.io/gaupol/).