#multimodality — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #multimodality, aggregated by home.social.
-
SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели
Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы Погрузиться
https://habr.com/ru/articles/1009614/
#representation_learning #multimodality #multimodal_llm #machine_learning #audiomodality #regularization #contrastive_learning #whisper #gemma3
-
SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели
Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы Погрузиться
https://habr.com/ru/articles/1009614/
#representation_learning #multimodality #multimodal_llm #machine_learning #audiomodality #regularization #contrastive_learning #whisper #gemma3
-
SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели
Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы Погрузиться
https://habr.com/ru/articles/1009614/
#representation_learning #multimodality #multimodal_llm #machine_learning #audiomodality #regularization #contrastive_learning #whisper #gemma3
-
SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели
Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы Погрузиться
https://habr.com/ru/articles/1009614/
#representation_learning #multimodality #multimodal_llm #machine_learning #audiomodality #regularization #contrastive_learning #whisper #gemma3
-
Thrilled to share that Hayk Azizbekyan delivered a compelling presentation on 3D Mixed and Augmented Reality (MR/AR) with AI in Archaeological Fieldwork at the Hong Kong Association for Digital Humanities 2026 Conference!
Taking the stage in the #Image Synthesis, #Immersion & #Multimodality session, Hayk explored how cutting-edge AI-powered 3D MR/AR technologies are revolutionizing archaeological field research—blending digital innovation with cultural heritage exploration and pushing the boundaries of how we study and preserve our past.This 3-day conference (23-25 Jan) at @cuhkofficial brought together global scholars to explore AI, multimodality, and digital humanities across diverse fields, offering an ideal platform for this groundbreaking research share.
Kudos to Hayk for his excellent work in bridging tech and archaeology!
Details of the conference: https://2026.hkadh.org/
-
Yue’s research interests lie in natural language processing and information retrieval. Her recent work focuses on LLM-powered AI agents, on advancing the factualness, faithfulness, and trustworthiness of large language models, and on developing and analysing multimodal foundation models.
🔗 Yue’s Webpage: https://fengyue-leah.github.io/
#UKPLab #NLP #InformationRetrieval #LargeLanguageModels #AIResearch #Multimodality #PeerReview #AISafety #TrustworthyAI
-
Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения
В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!
https://habr.com/ru/companies/sberbank/articles/971154/
#генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo
-
Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения
В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!
https://habr.com/ru/companies/sberbank/articles/971154/
#генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo
-
Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения
В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!
https://habr.com/ru/companies/sberbank/articles/971154/
#генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo
-
Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения
В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!
https://habr.com/ru/companies/sberbank/articles/971154/
#генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo
-
👻 Probiert es mal aus, egal ob gruselig oder heilig, der „Geist” erwartet euch (es funktionieren auch andere Suchbegriffe, Notizen oder Bilder 😊 )
🧠 P.S. Für alle #CultureKnowledgeGraph- und #SPARQL-Kenner unter euch, bitte hier entlang 👉 https://nfdi4culture.de/resources/knowledge-graph.html
#NFDIrocks #CultureKnowledgeGraph #CultureDataSearch #Multimodality #CulturalHeritage @fiz_karlsruhe
Tabea Tietz @tabea Etienne Posthumus @epoz Harald Sack @lysander07
Linnaea Söhn @linnaea
Torsten Schrade^ks (^zs)
3/3
-
👻 Probiert es mal aus, egal ob gruselig oder heilig, der „Geist” erwartet euch (es funktionieren auch andere Suchbegriffe, Notizen oder Bilder 😊 )
🧠 P.S. Für alle #CultureKnowledgeGraph- und #SPARQL-Kenner unter euch, bitte hier entlang 👉 https://nfdi4culture.de/resources/knowledge-graph.html
#NFDIrocks #CultureKnowledgeGraph #CultureDataSearch #Multimodality #CulturalHeritage @fiz_karlsruhe
Tabea Tietz @tabea Etienne Posthumus @epoz Harald Sack @lysander07
Linnaea Söhn @linnaea
Torsten Schrade^ks (^zs)
3/3
-
👻 Probiert es mal aus, egal ob gruselig oder heilig, der „Geist” erwartet euch (es funktionieren auch andere Suchbegriffe, Notizen oder Bilder 😊 )
🧠 P.S. Für alle #CultureKnowledgeGraph- und #SPARQL-Kenner unter euch, bitte hier entlang 👉 https://nfdi4culture.de/resources/knowledge-graph.html
#NFDIrocks #CultureKnowledgeGraph #CultureDataSearch #Multimodality #CulturalHeritage @fiz_karlsruhe
Tabea Tietz @tabea Etienne Posthumus @epoz Harald Sack @lysander07
Linnaea Söhn @linnaea
Torsten Schrade^ks (^zs)
3/3
-
👻 Probiert es mal aus, egal ob gruselig oder heilig, der „Geist” erwartet euch (es funktionieren auch andere Suchbegriffe, Notizen oder Bilder 😊 )
🧠 P.S. Für alle #CultureKnowledgeGraph- und #SPARQL-Kenner unter euch, bitte hier entlang 👉 https://nfdi4culture.de/resources/knowledge-graph.html
#NFDIrocks #CultureKnowledgeGraph #CultureDataSearch #Multimodality #CulturalHeritage @fiz_karlsruhe
Tabea Tietz @tabea Etienne Posthumus @epoz Harald Sack @lysander07
Linnaea Söhn @linnaea
Torsten Schrade^ks (^zs)
3/3
-
👻 Probiert es mal aus, egal ob gruselig oder heilig, der „Geist” erwartet euch (es funktionieren auch andere Suchbegriffe, Notizen oder Bilder 😊 )
🧠 P.S. Für alle #CultureKnowledgeGraph- und #SPARQL-Kenner unter euch, bitte hier entlang 👉 https://nfdi4culture.de/resources/knowledge-graph.html
#NFDIrocks #CultureKnowledgeGraph #CultureDataSearch #Multimodality #CulturalHeritage @fiz_karlsruhe
Tabea Tietz @tabea Etienne Posthumus @epoz Harald Sack @lysander07
Linnaea Söhn @linnaea
Torsten Schrade^ks (^zs)
3/3
-
#AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. https://www.dwarkesh.com/p/andrej-karpathy?eicker.news #tech #media #news
-
#AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. https://www.dwarkesh.com/p/andrej-karpathy?eicker.news #tech #media #news
-
#AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. https://www.dwarkesh.com/p/andrej-karpathy?eicker.news #tech #media #news
-
#AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. https://www.dwarkesh.com/p/andrej-karpathy?eicker.news #tech #media #news
-
#AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. https://www.dwarkesh.com/p/andrej-karpathy?eicker.news #tech #media #news
-
Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса
Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом. На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.
https://habr.com/ru/companies/yandex/articles/904584/
#vlm #natural_language_processing #computer_vision #multimodality #яндекс
-
“With many genres, one needs the physical impact of the waveforms hitting the body to evaluate what is really going on” —Bob Ludwig, audio mastering engineer. #PhilPerception #AuditoryPerception #multimodality www.soundonsound.com/techniques/m...
Mixing On Headphones -
[Перевод] Spring AI научился видеть! Показываю, как заставить GPT находить бананы на картинках
Новый перевод от команды Spring АйО расскажет вам о работе с мультимодальностью при работе со Spring AI и о различных вариантах работы с графическими изображениями с использованием искусственного интеллекта.
https://habr.com/ru/companies/spring_aio/articles/889974/
#spring_ai #multimodality #images #image_generation #image_recognition
-
Trae: AI Code Editor from ByteDance
https://www.trae.ai
#ycombinator #Trae #Builder #IDE #automatic #collaboration #Multimodality #efficiency #Fast #Accurate #Precise #Context #free #Deploy #editor #code #coding #Autocomplete -
Trae: AI Code Editor from ByteDance
https://www.trae.ai
#ycombinator #Trae #Builder #IDE #automatic #collaboration #Multimodality #efficiency #Fast #Accurate #Precise #Context #free #Deploy #editor #code #coding #Autocomplete -
Trae: An AI Powered IDE by ByteDance
https://www.trae.ai/home
#ycombinator #Trae #Builder #IDE #automatic #collaboration #Multimodality #efficiency #Fast #Accurate #Precise #Context #free #Deploy #editor #code #coding #Autocomplete -
Trae: An AI Powered IDE by ByteDance
https://www.trae.ai/home
#ycombinator #Trae #Builder #IDE #automatic #collaboration #Multimodality #efficiency #Fast #Accurate #Precise #Context #free #Deploy #editor #code #coding #Autocomplete -
I am rather happy to notice that @kielipankki, The Language Bank of Finland, is here.
They provide access to numerous resources related to #research, especially relevant to for #linguistics #multimodality #LiteraryStudies and #NaturalLanguageProcessing. Many of the resources are open-access or free to use for #academic pursuits. Check them out!
-
Kandinsky 4.0 — новая модель генерации видео
Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video . В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности. В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.
https://habr.com/ru/companies/sberbank/articles/866156/
#генерация_видео #kandinsky #video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky_4
-
Kandinsky 4.0 — новая модель генерации видео
Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video . В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности. В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.
https://habr.com/ru/companies/sberbank/articles/866156/
#генерация_видео #kandinsky #video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky_4
-
Kandinsky 4.0 — новая модель генерации видео
Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video . В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности. В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.
https://habr.com/ru/companies/sberbank/articles/866156/
#генерация_видео #kandinsky #video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky_4
-
Kandinsky 4.0 — новая модель генерации видео
Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video . В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности. В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.
https://habr.com/ru/companies/sberbank/articles/866156/
#генерация_видео #kandinsky #video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky_4
-
Gleich geht es los mit der Panel Discussion zum Thema "Wissen durch Bilder", am
@dipf_aktuell, @bbf_dipfberlin. Ich freue mich auf den Austausch zu Bildern, Texten, multimodalen Formaten. #Bildungsgeschichte und #DigitalHumanities im Dialog! #DH #Multimodality -
I am heading to #Vienna for taking part at the Hackathon on #Multimodality in Digital Humanities. I am extremely glad, that years ago I took part at a three-days workshop on analysing DEMs for archaeology and one of the participants was 60y. That inspired me, to never stop visiting hackathons, workshops and the like, as they are unique opportunities to learn and to tackle my ideas. #motivatedgranny👵🏼😊
-
I am heading to #Vienna for taking part at the Hackathon on #Multimodality in Digital Humanities. I am extremely glad, that years ago I took part at a three-days workshop on analysing DEMs for archaeology and one of the participants was 60y. That inspired me, to never stop visiting hackathons, workshops and the like, as they are unique opportunities to learn and to tackle my ideas. #motivatedgranny👵🏼😊
-
I am heading to #Vienna for taking part at the Hackathon on #Multimodality in Digital Humanities. I am extremely glad, that years ago I took part at a three-days workshop on analysing DEMs for archaeology and one of the participants was 60y. That inspired me, to never stop visiting hackathons, workshops and the like, as they are unique opportunities to learn and to tackle my ideas. #motivatedgranny👵🏼😊
-
I am heading to #Vienna for taking part at the Hackathon on #Multimodality in Digital Humanities. I am extremely glad, that years ago I took part at a three-days workshop on analysing DEMs for archaeology and one of the participants was 60y. That inspired me, to never stop visiting hackathons, workshops and the like, as they are unique opportunities to learn and to tackle my ideas. #motivatedgranny👵🏼😊
-
Small-scale accessible transport: The Baby Bus. There's a FRONT BIKE RACK!!! – another missing element in many minibus-based transport networks in the global South.
#publictransport #sustainabletransport #transportation #Accessibility #Americas #bus #BusRapidTransit #BRT #ElectricVehicles #EV #EVs #multimodal #Multimodality #publictransit #TrufiAssociation
-
India's transport inefficiencies stem from prioritizing highways over walking, cycling, and public transit, while new systems fail to integrate with existing modes.
It's not just you, India.
#multimodal #Multimodality #informaltransport #populartransport #publictransport #ActiveMobility #ActiveTransport #Asia #India #Cycling #Walking #TrufiAssociation
-
How can OpenStreetMap provide community-sourced, street-level data for sustainable transport? Locals know which streets would work best for last-mile electric 3-wheeler deliveries—valuable input for logistics.
#OpenStreetMap #opendata #sustainabletransport #transportation #minibus #multimodal #Multimodality #Shipping #Delivery #Logistics #TrufiAssociation
-
This multimodal transport hub in Minnesota used to be a gas station. One down, 1.5 million to go.
https://www.startribune.com/fridley-transforms-abandoned-gas-station-into-a-multimodal-hub/601158344
#sustainabletransport #transportation #Accessibility #ActiveMobility #ActiveTransport #bus #BusRapidTransit #BRT #commuter #commuterlife #Cycling #minibus #multimodal #Multimodality #TrufiAssociation
-
Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter Next (часть 3-я)
В первой части , был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны первичные подходы и реализации по генерации видео из текста с использованием машинного обучения простой модели Splitter. Задача модели Splitter создавать серию близких текстовых эмбеддингов, которые будут потом использоваться Декодером для генерации близких изображений. В третей части я покажу как улучшал модель Splitter и оценивал.
https://habr.com/ru/articles/835210/
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models
-
Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter Next (часть 3-я)
В первой части , был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны первичные подходы и реализации по генерации видео из текста с использованием машинного обучения простой модели Splitter. Задача модели Splitter создавать серию близких текстовых эмбеддингов, которые будут потом использоваться Декодером для генерации близких изображений. В третей части я покажу как улучшал модель Splitter и оценивал.
https://habr.com/ru/articles/835210/
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models
-
Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter Next (часть 3-я)
В первой части , был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны первичные подходы и реализации по генерации видео из текста с использованием машинного обучения простой модели Splitter. Задача модели Splitter создавать серию близких текстовых эмбеддингов, которые будут потом использоваться Декодером для генерации близких изображений. В третей части я покажу как улучшал модель Splitter и оценивал.
https://habr.com/ru/articles/835210/
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models
-
#CfP for the #conference "Femmes et #canon #littéraire à l’ère de la #multimodalité", which will take place at the Université de Bourgogne (Dijon) on November 7-8, 2024.
🗓️Deadline for Abstracts: August 15, 2024
📌Further Information: https://www.avldigital.de/de/vernetzen/details/callforpapers/femmes-et-canon-litteraire-a-lere-de-la-multimodalite-dijon/ #LiteraryHistory #LiteratureHistory #LiteratureGender #Intermediality #multimodality
-
Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)
В первой части , я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image. Во второй части двигаемся к решению задачи на основе машинного обучения через: - формализацию функции потерь; - построение базовой модели Splitter, по сути, обучаемой матрицы вращений; - построение алгоритма обучения на векторизованном датасете из 200-500 роликов. И посмотрим первые результаты.
https://habr.com/ru/articles/831816/
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models
-
Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)
В первой части , я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image. Во второй части двигаемся к решению задачи на основе машинного обучения через: - формализацию функции потерь; - построение базовой модели Splitter, по сути, обучаемой матрицы вращений; - построение алгоритма обучения на векторизованном датасете из 200-500 роликов. И посмотрим первые результаты.
https://habr.com/ru/articles/831816/
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models
-
Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)
В первой части , я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image. Во второй части двигаемся к решению задачи на основе машинного обучения через: - формализацию функции потерь; - построение базовой модели Splitter, по сути, обучаемой матрицы вращений; - построение алгоритма обучения на векторизованном датасете из 200-500 роликов. И посмотрим первые результаты.
https://habr.com/ru/articles/831816/
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models
-
Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)
В статье коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста. Статья (1-я часть) основана на моей магистерской работе в МФТИ, которую защитил в июне 2024г.
https://habr.com/ru/articles/830366/
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models
-
Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)
В статье коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста. Статья (1-я часть) основана на моей магистерской работе в МФТИ, которую защитил в июне 2024г.
https://habr.com/ru/articles/830366/
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models