#multimodality — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #multimodality, aggregated by home.social.
-
SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели
Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы Погрузиться
https://habr.com/ru/articles/1009614/
#representation_learning #multimodality #multimodal_llm #machine_learning #audiomodality #regularization #contrastive_learning #whisper #gemma3
-
Thrilled to share that Hayk Azizbekyan delivered a compelling presentation on 3D Mixed and Augmented Reality (MR/AR) with AI in Archaeological Fieldwork at the Hong Kong Association for Digital Humanities 2026 Conference!
Taking the stage in the #Image Synthesis, #Immersion & #Multimodality session, Hayk explored how cutting-edge AI-powered 3D MR/AR technologies are revolutionizing archaeological field research—blending digital innovation with cultural heritage exploration and pushing the boundaries of how we study and preserve our past.This 3-day conference (23-25 Jan) at @cuhkofficial brought together global scholars to explore AI, multimodality, and digital humanities across diverse fields, offering an ideal platform for this groundbreaking research share.
Kudos to Hayk for his excellent work in bridging tech and archaeology!
Details of the conference: https://2026.hkadh.org/
-
Yue’s research interests lie in natural language processing and information retrieval. Her recent work focuses on LLM-powered AI agents, on advancing the factualness, faithfulness, and trustworthiness of large language models, and on developing and analysing multimodal foundation models.
🔗 Yue’s Webpage: https://fengyue-leah.github.io/
#UKPLab #NLP #InformationRetrieval #LargeLanguageModels #AIResearch #Multimodality #PeerReview #AISafety #TrustworthyAI
-
Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения
В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!
https://habr.com/ru/companies/sberbank/articles/971154/
#генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo
-
Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения
В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!
https://habr.com/ru/companies/sberbank/articles/971154/
#генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo
-
Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения
В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!
https://habr.com/ru/companies/sberbank/articles/971154/
#генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo
-
Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения
В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!
https://habr.com/ru/companies/sberbank/articles/971154/
#генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo
-
👻 Probiert es mal aus, egal ob gruselig oder heilig, der „Geist” erwartet euch (es funktionieren auch andere Suchbegriffe, Notizen oder Bilder 😊 )
🧠 P.S. Für alle #CultureKnowledgeGraph- und #SPARQL-Kenner unter euch, bitte hier entlang 👉 https://nfdi4culture.de/resources/knowledge-graph.html
#NFDIrocks #CultureKnowledgeGraph #CultureDataSearch #Multimodality #CulturalHeritage @fiz_karlsruhe
Tabea Tietz @tabea Etienne Posthumus @epoz Harald Sack @lysander07
Linnaea Söhn @linnaea
Torsten Schrade^ks (^zs)
3/3
-
#AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. https://www.dwarkesh.com/p/andrej-karpathy?eicker.news #tech #media #news
-
#AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. https://www.dwarkesh.com/p/andrej-karpathy?eicker.news #tech #media #news
-
#AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. https://www.dwarkesh.com/p/andrej-karpathy?eicker.news #tech #media #news
-
#AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. https://www.dwarkesh.com/p/andrej-karpathy?eicker.news #tech #media #news
-
#AndrejKarpathy believes #AGI is still a decade away, citing the need for advancements in #continuallearning, #multimodality, and #computeruse. He argues that while the problems are solvable, they remain challenging. Karpathy also reflects on the history of AI, highlighting the impact of #deeplearning, #reinforcementlearning, and #largelanguagemodels on the field. https://www.dwarkesh.com/p/andrej-karpathy?eicker.news #tech #media #news
-
Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса
Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом. На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.
https://habr.com/ru/companies/yandex/articles/904584/
#vlm #natural_language_processing #computer_vision #multimodality #яндекс
-
[Перевод] Spring AI научился видеть! Показываю, как заставить GPT находить бананы на картинках
Новый перевод от команды Spring АйО расскажет вам о работе с мультимодальностью при работе со Spring AI и о различных вариантах работы с графическими изображениями с использованием искусственного интеллекта.
https://habr.com/ru/companies/spring_aio/articles/889974/
#spring_ai #multimodality #images #image_generation #image_recognition
-
Trae: AI Code Editor from ByteDance
https://www.trae.ai
#ycombinator #Trae #Builder #IDE #automatic #collaboration #Multimodality #efficiency #Fast #Accurate #Precise #Context #free #Deploy #editor #code #coding #Autocomplete -
Trae: AI Code Editor from ByteDance
https://www.trae.ai
#ycombinator #Trae #Builder #IDE #automatic #collaboration #Multimodality #efficiency #Fast #Accurate #Precise #Context #free #Deploy #editor #code #coding #Autocomplete -
Trae: An AI Powered IDE by ByteDance
https://www.trae.ai/home
#ycombinator #Trae #Builder #IDE #automatic #collaboration #Multimodality #efficiency #Fast #Accurate #Precise #Context #free #Deploy #editor #code #coding #Autocomplete -
Trae: An AI Powered IDE by ByteDance
https://www.trae.ai/home
#ycombinator #Trae #Builder #IDE #automatic #collaboration #Multimodality #efficiency #Fast #Accurate #Precise #Context #free #Deploy #editor #code #coding #Autocomplete -
Kandinsky 4.0 — новая модель генерации видео
Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video . В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности. В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.
https://habr.com/ru/companies/sberbank/articles/866156/
#генерация_видео #kandinsky #video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky_4
-
Small-scale accessible transport: The Baby Bus. There's a FRONT BIKE RACK!!! – another missing element in many minibus-based transport networks in the global South.
#publictransport #sustainabletransport #transportation #Accessibility #Americas #bus #BusRapidTransit #BRT #ElectricVehicles #EV #EVs #multimodal #Multimodality #publictransit #TrufiAssociation
-
Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter Next (часть 3-я)
В первой части , был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны первичные подходы и реализации по генерации видео из текста с использованием машинного обучения простой модели Splitter. Задача модели Splitter создавать серию близких текстовых эмбеддингов, которые будут потом использоваться Декодером для генерации близких изображений. В третей части я покажу как улучшал модель Splitter и оценивал.
https://habr.com/ru/articles/835210/
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models
-
Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)
В первой части , я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image. Во второй части двигаемся к решению задачи на основе машинного обучения через: - формализацию функции потерь; - построение базовой модели Splitter, по сути, обучаемой матрицы вращений; - построение алгоритма обучения на векторизованном датасете из 200-500 роликов. И посмотрим первые результаты.
https://habr.com/ru/articles/831816/
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models
-
Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)
В статье коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста. Статья (1-я часть) основана на моей магистерской работе в МФТИ, которую защитил в июне 2024г.
https://habr.com/ru/articles/830366/
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models
-
Kandinsky Video 1.1: обновленная модель генерации видео
В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Kandinsky Video , основанную на модели генерации изображений Kandinsky 3.0 , по которой мы недавно выпустили обновление – версию 3.1 (о чем можно почитать здесь ). Первая видеомодель уже обладала весьма достойным качеством, сравнимым с лучшими мировыми решениями на тот момент. Нам удалось прокачать скорость генерации и моделирование динамики, но главное – мы вступили в новую для себя область генеративного искусственного интеллекта и быстро достигли в ней заметных результатов. Тогда, полгода назад, о подобных моделях знали в основном лишь те, кто так или иначе интересуется областью генеративного искусственного интеллекта. Сегодня же ситуация изменилась – благодаря значительному росту качества генерации видео за последний период, о существовании подобных моделей не слышал только ленивый. Разумеется, такой вход новых технологий в нашу жизнь стал возможным именно благодаря тем исследованиям, которые сообщество проводило за последние полтора года и в которые исследователи из нашей команды включились практически сразу. Сегодня мы представляем следующую версию нашей модели генерации видео по тексту – Kandinsky Video 1.1. Мы учли последние тенденции в области разработок видеомоделей и сделали нашу технологию еще более впечатляющей, проведя собственные исследования в области архитектур, обработки данных и замере показателей качества, которые мы опишем ниже.
https://habr.com/ru/companies/sberbank/articles/817667/
#генерация_видео #kandinsky_video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #texttoimage #computer_vision
-
Kandinsky 3.1 — новая быстрая модель генерации изображений по тексту
2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, 2.2, 3.0, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, GPT-4, LLaMA, Falcon, GigaChat и др.), аудио (VALL-E, MusicLM и др.), 3D (Magic3D и др.), и даже модальности видео (Kandinsky Video, Gen-2, CogVideo и др.). В 2024 всё движется ещё более впечатляющими темпами: картинки (SD3), видео (Sora), музыка (Suno) и т. д. При этом все основные игроки стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества, а также сложными технологиями инженерии данных, позволяющими создавать огромные и в то же время очень качественные наборы данных для обучения моделей. В ноябре прошлого года, на конференции AI Journey, наша команда также представила новое поколение text-to-image-модели Kandinsky 3.0. В целом упростив архитектуру и взяв более мощный текстовый кодировщик по сравнению с семейством моделей Kandinsky 2.x, нам удалось добиться значительного роста в качестве изображений с точки зрения реалистичности и детализации, улучшить понимание текста и побить качество модели SDXL на side-by-side-сравнении с точки зрения человеческих предпочтений, что является наиболее показательной метрикой качества в задаче генерации. Подробнее о модели Kandinsky 3.0 можно прочитать в этой статье статье . Также, на базе этой модели в том же ноябре мы выпустили первую российскую модель генерации видео по тексту Kandinsky Video, о которой можно больше узнать здесь .
https://habr.com/ru/companies/sberbank/articles/805337/
#kandinsky_31 #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #computervision #texttoimage
-
Kandinsky 3.0 — новая модель генерации изображений по тексту
Без чувства современности художник останется непризнанным. Михаил Пришвин В прошлом году на АI Journey мы представили модель Kandinsky 2.0 — первую диффузионную мультиязычную модель генерации изображений по тексту, которая может генерировать изображения на основе русскоязычного текста. За ней последовали новые версии — Kandinsky 2.1 и Kandinsky 2.2 , которые значительно отличались по качеству и своим возможностям от версии 2.0, и стали для нашей команды серьёзными вехами на пути к достижению лучшего качества генерации. Спустя год после релиза нашей первой диффузионной модели мы представляем новую версию модели генерации изображений по тексту — Kandinsky 3.0! Это результат длительной работы нашей команды, которую мы вели параллельно с разработками версий Kandinsky 2.1 и 2.2. Мы провели много экспериментов по выбору архитектуры и проделали большую работу с данными, чтобы сделать понимание текста и качество генераций лучше, а саму архитектуру — проще и лаконичнее. Также мы сделали нашу модель более «отечественной»: теперь она значительно лучше ориентируется в российском и советском культурном поле. В этой статье я кратко опишу ключевые моменты новой архитектуры, стратегию работы с данными и, конечно, продемонстрирую возможности нашей модели на примере генераций.
https://habr.com/ru/companies/sberbank/articles/775590/
#kandinsky_30 #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #computer_vision #texttoimage #animation
-
A warm welcome to Falko Helm, who has just started as a PhD candidate at the UKP Lab! 👋 Falko researches #Multimodality & Structure for #TransformerModels. He is also interested in #GraphTheory to handle linked documents. Find more about Falko here: https://github.com/Falko1
-
Watch the discussion on enhancing active mobility! Experts D. Taylor Reich Carlosfelipe Pardo share insights on the power of open data and technology in this enlightening webinar recording. Data-driven decision-making and advocacy can transform cycling infrastructure.
#opendata #opensource #sustainabletransport #ActiveTransport #ActiveMobility #Cycling #Walking #CommuteByBike #mapping #Multimodality #mobility #OpenStreetMap #VGI #multimodal #mobileapp #webinar
-
🚴♂️ Join us this Thursday for a deep dive into the world of active mobility! 🚶♀️ Don't miss out on insights from experts Taylor Reich and Carlosfelipe Pardo. Discover the impact of data in shaping our cities. Register now:
https://www.linkedin.com/events/unpackingthepowerofdatainactive7109631505320071168/theater/
#opensource #sustainabletransport #transportation #ActiveTransport #Cycling #Walking #CommuteByBike #MobilityAsAService #mapping #Multimodality #mobility #OpenStreetMap #VGI #GTFS #GBFS #multimodal #webinar
-
Active mobility is the future, and data is driving the way. Join our webinar with experts Taylor Reich and Carlosfelipe Pardo to explore the intersection of walking, cycling, and data.
#opendata #opensource #sustainabletransport #transportation #ActiveTransport #ActiveMobility #Cycling #Walking #CommuteByBike #digitaldevelopment #Multimodality #mobility #populartransport #OpenStreetMap #VGI
-
Congratulations, MCO & Brightline! #Orlando International is now the first true U.S. #multiport: https://www.gobrightline.com/press-room/2023/the-countdown-is-on-brightline-orlando-to-officially-launch-service. More about multimodal #airport facilities in our upcoming #ACRP
#research report from Project 10-33 on the future of airport access... Stay tuned! ✈️🚄#AirTravel #aviation #mobility #multimodality #STEM #transportation
-
Are you a MaaS innovator? 📊 Trufi Association is your indispensable partner for GTFS and integration into apps, analytics, and transport tech solutions. Join us in revolutionizing transport for the global South and North!
#informaltransport #opendata #opensource #publictransport #sustainabletransport #transportation #ict4d #ict4dev #MaaS #MobilityAsAService #publictransit #mapping #Multimodality #mobility #populartransport #OpenStreetMap #GTFS
-
Wrangling transportation data in the global South is no easy feat. It's our specialty. We harness community crowdsourcing and OpenStreetMap to provide accurate GTFS informed by the people who know the city better than anyone.
#bus #digital #digitaldevelopment #ict4d #ict4dev #informaltransport #MaaS #mapping #Mobility #multimodal #Multimodality #opendata #opensource #opensteetmap #publictransit #publictransport #PublicTransportation #sustainabletransport
-
Open Source. Open Data. Better Cities. Help us shape urban mobility with one-time or a recurring donation to Trufi Association
#digitaldevelopment #ict4d #ict4dev #informaltransport #innovation #MaaS #mapping #Mobility #morningcommute #multimodal #Multimodality #opendata #opensource #opensourcesoftware #opensteetmap #OpenTripPlanner #publictransit #publictransport #PublicTransportation #software #sustainabletransport #tech #technology #transportation #donate
-
Excited to share: after my current postdoc at the FACESYNTAX project finishes, I'll join @ozyurek_a at the Multimodal Language Department @mpi_nl next year!
We'll use #VR and mocap to probe multimodal communication and language evolution in unprecedented ways. Looking forward to pushing boundaries with wild, insightful experiments. 🕹️😎
#Multimodality #VR #Interaction #LanguageEvolution