home.social

#captioning — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #captioning, aggregated by home.social.

  1. New updates. Some serious performance optimizations for CreatorCaps to keep your captioning workflow as smooth as ever.

    Get the update: apple.co/4ruCxYI

    #captioning #subtitles #autocaptions #ios #indiedev

  2. CreatorCaps gives you full control over your captions. Split, merge, retime, edit text. Get them exactly right before you export.

    Try it on iPhone & iPad: apple.co/4ruCxYI​​​​​​​​​​​​​​

    #captioning #videoEdit #indiedev #buildinpublic

  3. im like if a professional offline captioner, transcriber, and editor were broke and their comms were open.

    i can caption both short- and long-form videos!

    catch me on ko-fi.com/MelodyWisp/commissio, Vgen.co/melodywisp, and via e-mail at [email protected]

    Proofreading: $1.50 per audio minute
    Closed Captioning: $2 per A/M
    Open Captioning: $2.50 per A/M

    Please boost when you see this! And refer me to others! Thanks!

    #CommsOpen #Captioning #Stenography
    #Accessibility #youtube

  4. At DjangoCon US 2025 in Chicago, more than one person shared the workflow of dictating their articles or slide notes to a template using mobile apps 🎙️

    I was experimenting with huggingface.co/Mozilla/whisper, and it seems to work well on my PC 🔴

    It occurred to me that it could be used to add live captioning to meetups or small conferences that can't afford live captioners as good as the one we had at DjangoCon 💡

    Have any of you done any experiments?

  5. Как рёбра графа 3D-сцены помогают LLM отвечать на вопросы?

    Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и младший научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, 3D‑облака точек) для лучшего понимания 3D‑сцены. Сегодня мы поговорим о понимании 3D‑сцены в контексте задач, где требуется одновременно и трёхмерное компьютерное зрение, и обработка естественного языка, а также о том, как представление 3D‑сцены в виде графа с рёбрами помогает в их решении. Главной особенностью графового представления 3D‑сцены является его компактность, поэтому граф можно использовать для сжатого описания 3D‑сцены, подающегося на вход в LLM. Это позволяет получать качественные ответы на вопросы о 3D‑сцене до 5 раз быстрее по сравнению с методами, использующими последовательности изображений для LVLM. Это мы показали вместе с моим научным руководителем Дмитрием Юдиным в недавней работе 3DGraphLLM: Сombining Semantic Graphs and Large Language Models for 3D Scene Understanding , принятой на ведущую конференцию по компьютерному зрению ICCV 2025. Мы предоставляем открытый исходный код метода 3DGraphLLM с инструкциями по запуску, а также публикуем предварительно обученные веса модели на Hugging Face . Это позволяет каждому желающему легко воспроизвести результаты и опробовать все описанные методы на собственных данных. Здесь же хочется подробнее рассказать о новом методе и пути, по которому мы к нему пришли.

    habr.com/ru/companies/airi/art

    #графы #llmмодели #scene_understanding #graphs #question_answering #detection #captioning #детекция_объектов