home.social

#multimodality — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #multimodality, aggregated by home.social.

  1. SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели

    Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы Погрузиться

    habr.com/ru/articles/1009614/

    #representation_learning #multimodality #multimodal_llm #machine_learning #audiomodality #regularization #contrastive_learning #whisper #gemma3

  2. SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели

    Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы Погрузиться

    habr.com/ru/articles/1009614/

    #representation_learning #multimodality #multimodal_llm #machine_learning #audiomodality #regularization #contrastive_learning #whisper #gemma3

  3. SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели

    Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы Погрузиться

    habr.com/ru/articles/1009614/

    #representation_learning #multimodality #multimodal_llm #machine_learning #audiomodality #regularization #contrastive_learning #whisper #gemma3

  4. SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели

    Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы Погрузиться

    habr.com/ru/articles/1009614/

    #representation_learning #multimodality #multimodal_llm #machine_learning #audiomodality #regularization #contrastive_learning #whisper #gemma3

  5. Thrilled to share that Hayk Azizbekyan delivered a compelling presentation on 3D Mixed and Augmented Reality (MR/AR) with AI in Archaeological Fieldwork at the Hong Kong Association for Digital Humanities 2026 Conference!
    Taking the stage in the #Image Synthesis, #Immersion & #Multimodality session, Hayk explored how cutting-edge AI-powered 3D MR/AR technologies are revolutionizing archaeological field research—blending digital innovation with cultural heritage exploration and pushing the boundaries of how we study and preserve our past.

    This 3-day conference (23-25 Jan) at @cuhkofficial brought together global scholars to explore AI, multimodality, and digital humanities across diverse fields, offering an ideal platform for this groundbreaking research share.

    Kudos to Hayk for his excellent work in bridging tech and archaeology!

    Details of the conference: 2026.hkadh.org/

  6. Yue’s research interests lie in natural language processing and information retrieval. Her recent work focuses on LLM-powered AI agents, on advancing the factualness, faithfulness, and trustworthiness of large language models, and on developing and analysing multimodal foundation models.

    🔗 Yue’s Webpage: fengyue-leah.github.io/

    #UKPLab #NLP #InformationRetrieval #LargeLanguageModels #AIResearch #Multimodality #PeerReview #AISafety #TrustworthyAI

  7. Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

    В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

    habr.com/ru/companies/sberbank

    #генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo

  8. Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

    В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

    habr.com/ru/companies/sberbank

    #генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo

  9. Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

    В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

    habr.com/ru/companies/sberbank

    #генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo

  10. Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

    В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

    habr.com/ru/companies/sberbank

    #генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo

  11. 👻 Probiert es mal aus, egal ob gruselig oder heilig, der „Geist” erwartet euch (es funktionieren auch andere Suchbegriffe, Notizen oder Bilder 😊 )

    🧠 P.S. Für alle #CultureKnowledgeGraph- und #SPARQL-Kenner unter euch, bitte hier entlang 👉 nfdi4culture.de/resources/know

    #NFDIrocks #CultureKnowledgeGraph #CultureDataSearch #Multimodality #CulturalHeritage @fiz_karlsruhe
    Tabea Tietz @tabea Etienne Posthumus @epoz Harald Sack @lysander07
    Linnaea Söhn @linnaea
    Torsten Schrade

    ^ks (^zs)

    3/3

  12. 👻 Probiert es mal aus, egal ob gruselig oder heilig, der „Geist” erwartet euch (es funktionieren auch andere Suchbegriffe, Notizen oder Bilder 😊 )

    🧠 P.S. Für alle #CultureKnowledgeGraph- und #SPARQL-Kenner unter euch, bitte hier entlang 👉 nfdi4culture.de/resources/know

    #NFDIrocks #CultureKnowledgeGraph #CultureDataSearch #Multimodality #CulturalHeritage @fiz_karlsruhe
    Tabea Tietz @tabea Etienne Posthumus @epoz Harald Sack @lysander07
    Linnaea Söhn @linnaea
    Torsten Schrade

    ^ks (^zs)

    3/3

  13. 👻 Probiert es mal aus, egal ob gruselig oder heilig, der „Geist” erwartet euch (es funktionieren auch andere Suchbegriffe, Notizen oder Bilder 😊 )

    🧠 P.S. Für alle #CultureKnowledgeGraph- und #SPARQL-Kenner unter euch, bitte hier entlang 👉 nfdi4culture.de/resources/know

    #NFDIrocks #CultureKnowledgeGraph #CultureDataSearch #Multimodality #CulturalHeritage @fiz_karlsruhe
    Tabea Tietz @tabea Etienne Posthumus @epoz Harald Sack @lysander07
    Linnaea Söhn @linnaea
    Torsten Schrade

    ^ks (^zs)

    3/3

  14. 👻 Probiert es mal aus, egal ob gruselig oder heilig, der „Geist” erwartet euch (es funktionieren auch andere Suchbegriffe, Notizen oder Bilder 😊 )

    🧠 P.S. Für alle #CultureKnowledgeGraph- und #SPARQL-Kenner unter euch, bitte hier entlang 👉 nfdi4culture.de/resources/know

    #NFDIrocks #CultureKnowledgeGraph #CultureDataSearch #Multimodality #CulturalHeritage @fiz_karlsruhe
    Tabea Tietz @tabea Etienne Posthumus @epoz Harald Sack @lysander07
    Linnaea Söhn @linnaea
    Torsten Schrade

    ^ks (^zs)

    3/3

  15. 👻 Probiert es mal aus, egal ob gruselig oder heilig, der „Geist” erwartet euch (es funktionieren auch andere Suchbegriffe, Notizen oder Bilder 😊 )

    🧠 P.S. Für alle #CultureKnowledgeGraph- und #SPARQL-Kenner unter euch, bitte hier entlang 👉 nfdi4culture.de/resources/know

    #NFDIrocks #CultureKnowledgeGraph #CultureDataSearch #Multimodality #CulturalHeritage @fiz_karlsruhe
    Tabea Tietz @tabea Etienne Posthumus @epoz Harald Sack @lysander07
    Linnaea Söhn @linnaea
    Torsten Schrade

    ^ks (^zs)

    3/3

  16. #AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. dwarkesh.com/p/andrej-karpathy #tech #media #news

  17. #AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. dwarkesh.com/p/andrej-karpathy #tech #media #news

  18. #AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. dwarkesh.com/p/andrej-karpathy #tech #media #news

  19. #AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. dwarkesh.com/p/andrej-karpathy #tech #media #news

  20. #AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. dwarkesh.com/p/andrej-karpathy #tech #media #news

  21. Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

    Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом. На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.

    habr.com/ru/companies/yandex/a

    #vlm #natural_language_processing #computer_vision #multimodality #яндекс

  22. “With many genres, one needs the physical impact of the waveforms hitting the body to evaluate what is really going on” —Bob Ludwig, audio mastering engineer. #PhilPerception #AuditoryPerception #multimodality www.soundonsound.com/techniques/m...

    Mixing On Headphones

  23. [Перевод] Spring AI научился видеть! Показываю, как заставить GPT находить бананы на картинках

    Новый перевод от команды Spring АйО расскажет вам о работе с мультимодальностью при работе со Spring AI и о различных вариантах работы с графическими изображениями с использованием искусственного интеллекта.

    habr.com/ru/companies/spring_a

    #spring_ai #multimodality #images #image_generation #image_recognition

  24. I am rather happy to notice that @kielipankki, The Language Bank of Finland, is here.

    They provide access to numerous resources related to #research, especially relevant to for #linguistics #multimodality #LiteraryStudies and #NaturalLanguageProcessing. Many of the resources are open-access or free to use for #academic pursuits. Check them out!

  25. Kandinsky 4.0 — новая модель генерации видео

    Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video . В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности. В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

    habr.com/ru/companies/sberbank

    #генерация_видео #kandinsky #video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky_4

  26. Kandinsky 4.0 — новая модель генерации видео

    Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video . В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности. В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

    habr.com/ru/companies/sberbank

    #генерация_видео #kandinsky #video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky_4

  27. Kandinsky 4.0 — новая модель генерации видео

    Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video . В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности. В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

    habr.com/ru/companies/sberbank

    #генерация_видео #kandinsky #video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky_4

  28. Kandinsky 4.0 — новая модель генерации видео

    Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video . В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности. В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

    habr.com/ru/companies/sberbank

    #генерация_видео #kandinsky #video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky_4

  29. Gleich geht es los mit der Panel Discussion zum Thema "Wissen durch Bilder", am
    @dipf_aktuell, @bbf_dipfberlin. Ich freue mich auf den Austausch zu Bildern, Texten, multimodalen Formaten. #Bildungsgeschichte und #DigitalHumanities im Dialog! #DH #Multimodality

  30. I am heading to #Vienna for taking part at the Hackathon on #Multimodality in Digital Humanities. I am extremely glad, that years ago I took part at a three-days workshop on analysing DEMs for archaeology and one of the participants was 60y. That inspired me, to never stop visiting hackathons, workshops and the like, as they are unique opportunities to learn and to tackle my ideas. #motivatedgranny👵🏼😊

  31. I am heading to #Vienna for taking part at the Hackathon on #Multimodality in Digital Humanities. I am extremely glad, that years ago I took part at a three-days workshop on analysing DEMs for archaeology and one of the participants was 60y. That inspired me, to never stop visiting hackathons, workshops and the like, as they are unique opportunities to learn and to tackle my ideas. #motivatedgranny👵🏼😊

  32. I am heading to #Vienna for taking part at the Hackathon on #Multimodality in Digital Humanities. I am extremely glad, that years ago I took part at a three-days workshop on analysing DEMs for archaeology and one of the participants was 60y. That inspired me, to never stop visiting hackathons, workshops and the like, as they are unique opportunities to learn and to tackle my ideas. #motivatedgranny👵🏼😊

  33. I am heading to #Vienna for taking part at the Hackathon on #Multimodality in Digital Humanities. I am extremely glad, that years ago I took part at a three-days workshop on analysing DEMs for archaeology and one of the participants was 60y. That inspired me, to never stop visiting hackathons, workshops and the like, as they are unique opportunities to learn and to tackle my ideas. #motivatedgranny👵🏼😊

  34. How can OpenStreetMap provide community-sourced, street-level data for sustainable transport? Locals know which streets would work best for last-mile electric 3-wheeler deliveries—valuable input for logistics.

    buff.ly/4exUlLJ

    #OpenStreetMap #opendata #sustainabletransport #transportation #minibus #multimodal #Multimodality #Shipping #Delivery #Logistics #TrufiAssociation

  35. Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter Next (часть 3-я)

    В первой части , был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны первичные подходы и реализации по генерации видео из текста с использованием машинного обучения простой модели Splitter. Задача модели Splitter создавать серию близких текстовых эмбеддингов, которые будут потом использоваться Декодером для генерации близких изображений. В третей части я покажу как улучшал модель Splitter и оценивал.

    habr.com/ru/articles/835210/

    #rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models

  36. Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter Next (часть 3-я)

    В первой части , был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны первичные подходы и реализации по генерации видео из текста с использованием машинного обучения простой модели Splitter. Задача модели Splitter создавать серию близких текстовых эмбеддингов, которые будут потом использоваться Декодером для генерации близких изображений. В третей части я покажу как улучшал модель Splitter и оценивал.

    habr.com/ru/articles/835210/

    #rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models

  37. Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter Next (часть 3-я)

    В первой части , был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны первичные подходы и реализации по генерации видео из текста с использованием машинного обучения простой модели Splitter. Задача модели Splitter создавать серию близких текстовых эмбеддингов, которые будут потом использоваться Декодером для генерации близких изображений. В третей части я покажу как улучшал модель Splitter и оценивал.

    habr.com/ru/articles/835210/

    #rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models

  38. Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)

    В первой части , я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image. Во второй части двигаемся к решению задачи на основе машинного обучения через: - формализацию функции потерь; - построение базовой модели Splitter, по сути, обучаемой матрицы вращений; - построение алгоритма обучения на векторизованном датасете из 200-500 роликов. И посмотрим первые результаты.

    habr.com/ru/articles/831816/

    #rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models

  39. Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)

    В первой части , я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image. Во второй части двигаемся к решению задачи на основе машинного обучения через: - формализацию функции потерь; - построение базовой модели Splitter, по сути, обучаемой матрицы вращений; - построение алгоритма обучения на векторизованном датасете из 200-500 роликов. И посмотрим первые результаты.

    habr.com/ru/articles/831816/

    #rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models

  40. Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)

    В первой части , я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image. Во второй части двигаемся к решению задачи на основе машинного обучения через: - формализацию функции потерь; - построение базовой модели Splitter, по сути, обучаемой матрицы вращений; - построение алгоритма обучения на векторизованном датасете из 200-500 роликов. И посмотрим первые результаты.

    habr.com/ru/articles/831816/

    #rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models

  41. Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)

    В статье коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста. Статья (1-я часть) основана на моей магистерской работе в МФТИ, которую защитил в июне 2024г.

    habr.com/ru/articles/830366/

    #rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models

  42. Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)

    В статье коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста. Статья (1-я часть) основана на моей магистерской работе в МФТИ, которую защитил в июне 2024г.

    habr.com/ru/articles/830366/

    #rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models