home.social

#texttoimage — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #texttoimage, aggregated by home.social.

  1. Как сделать локальный генератор изображений через ComfyUI

    Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

    habr.com/ru/articles/1030754/

    #ComfyUI #генерация_изображений #нейросети #локальный_ИИ #генеративный_ИИ #NoobXL #CFG_Scale #локальная_генерация #workflow #texttoimage

  2. Как сделать локальный генератор изображений через ComfyUI

    Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

    habr.com/ru/articles/1030754/

    #ComfyUI #генерация_изображений #нейросети #локальный_ИИ #генеративный_ИИ #NoobXL #CFG_Scale #локальная_генерация #workflow #texttoimage

  3. Как сделать локальный генератор изображений через ComfyUI

    Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

    habr.com/ru/articles/1030754/

    #ComfyUI #генерация_изображений #нейросети #локальный_ИИ #генеративный_ИИ #NoobXL #CFG_Scale #локальная_генерация #workflow #texttoimage

  4. Как сделать локальный генератор изображений через ComfyUI

    Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

    habr.com/ru/articles/1030754/

    #ComfyUI #генерация_изображений #нейросети #локальный_ИИ #генеративный_ИИ #NoobXL #CFG_Scale #локальная_генерация #workflow #texttoimage

  5. Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

    В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

    habr.com/ru/companies/sberbank

    #генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo

  6. Мы открыли для всех доступ к Kandinsky Video

    Ура! Состоялся публичный релиз Kandinsky Video в Telegram-боте GigaChat и Kandinsky . Модель умеет создавать видео по тексту и оживлять изображения. Узнать, как генерировать

    habr.com/ru/companies/sberbank

    #генерация_изображений #генерация_видео #kandinsky_4 #kandinsky_5 #sberai #generative_models #texttoimage #imagetovideo

  7. Часть-1. Почему ИИ рисует каракули вместо текста: анатомия проблемы и дорожная карта решений

    Привет, чемпионы! Давайте начистоту. Вы уже перепробовали все: и промпты в кавычках, и уговоры на английском, и даже шептали запросы своему GPU. Результат? Очередная вывеска с текстом, напоминающим древние руны, переведенные через пять языков. Знакомо? Это наша общая, фундаментальная боль, и сегодня мы не будем ее заливать кофеином и надеждой. Мы возьмем ее, положим на операционный стол и проведем полную анатомическую диссекцию.

    habr.com/ru/companies/datafeel

    #ml #ai #design #texttoimage #image_generation #text_generation #fix_text_on_image #contentmaker #contentmarketing #midjourney

  8. Kandinsky 4.1 Image – новый генератор изображений от Сбера

    В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!

    habr.com/ru/companies/sberbank

    #генерация_изображений #kandinsky_4 #sberai #generative_models #texttoimage #computer_vision #diffusion #sft #artificial_intelligence #machine_learning

  9. 🚀✨ Chocolate Snoopy as a Bunny: A Sweet 3D Adventure 🎨🍫

    Step into a whimsical world where a chocolate Snoopy, dressed as a bunny, sits surrounded by a delicious array of chocolate treats.

    💡 Want to bring this sweet, playful scene to life? Grab the full prompt here and start creating your own chocolate-inspired masterpiece:
    👉 deuspixel.com/chocolate-snoopy

    #AIArt #3DIllustration #ChocolateArt #CuteCharacters #CreativePrompts #EasterArt #WhimsicalDesign #TextToImage

  10. Janus Pro от DeepSeek: стоит ли она внимания? Сравнение генерации и объяснений с Dalle-3 и SD3

    Появились первые тесты новой нейросети Janus — эта модель не только генерирует изображения, но и анализирует их, объясняя детали и делая осмысленные комментарии. В этой статье мы разберёмся, как Janus Pro (7B) справляется с генерацией изображений по сравнению с Stable Diffusion 3 (Medium) и Dall-3 , а также кто лучше анализирует и комментирует изображения — Janus Pro или Dalle-3 . Ну что, готовы? Тогда погнали!

    habr.com/ru/companies/bothub/a

    #ai #ии #janus #deepseek #генерация_изображений #анализ_изображений #texttoimage #imagetotext

  11. Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter Next (часть 3-я)

    В первой части , был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны первичные подходы и реализации по генерации видео из текста с использованием машинного обучения простой модели Splitter. Задача модели Splitter создавать серию близких текстовых эмбеддингов, которые будут потом использоваться Декодером для генерации близких изображений. В третей части я покажу как улучшал модель Splitter и оценивал.

    habr.com/ru/articles/835210/

    #rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models

  12. Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)

    В первой части , я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image. Во второй части двигаемся к решению задачи на основе машинного обучения через: - формализацию функции потерь; - построение базовой модели Splitter, по сути, обучаемой матрицы вращений; - построение алгоритма обучения на векторизованном датасете из 200-500 роликов. И посмотрим первые результаты.

    habr.com/ru/articles/831816/

    #rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models

  13. Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)

    В статье коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста. Статья (1-я часть) основана на моей магистерской работе в МФТИ, которую защитил в июне 2024г.

    habr.com/ru/articles/830366/

    #rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #texttoimage #computer_vision #multimodality #generative_models

  14. Kandinsky Video 1.1: обновленная модель генерации видео

    В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Kandinsky Video , основанную на модели генерации изображений Kandinsky 3.0 , по которой мы недавно выпустили обновление – версию 3.1 (о чем можно почитать здесь ). Первая видеомодель уже обладала весьма достойным качеством, сравнимым с лучшими мировыми решениями на тот момент. Нам удалось прокачать скорость генерации и моделирование динамики, но главное – мы вступили в новую для себя область генеративного искусственного интеллекта и быстро достигли в ней заметных результатов. Тогда, полгода назад, о подобных моделях знали в основном лишь те, кто так или иначе интересуется областью генеративного искусственного интеллекта. Сегодня же ситуация изменилась – благодаря значительному росту качества генерации видео за последний период, о существовании подобных моделей не слышал только ленивый. Разумеется, такой вход новых технологий в нашу жизнь стал возможным именно благодаря тем исследованиям, которые сообщество проводило за последние полтора года и в которые исследователи из нашей команды включились практически сразу. Сегодня мы представляем следующую версию нашей модели генерации видео по тексту – Kandinsky Video 1.1. Мы учли последние тенденции в области разработок видеомоделей и сделали нашу технологию еще более впечатляющей, проведя собственные исследования в области архитектур, обработки данных и замере показателей качества, которые мы опишем ниже.

    habr.com/ru/companies/sberbank

    #генерация_видео #kandinsky_video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #texttoimage #computer_vision

  15. Kandinsky 3.1 — новая быстрая модель генерации изображений по тексту

    2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, 2.2, 3.0, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, GPT-4, LLaMA, Falcon, GigaChat и др.), аудио (VALL-E, MusicLM и др.), 3D (Magic3D и др.), и даже модальности видео (Kandinsky Video, Gen-2, CogVideo и др.). В 2024 всё движется ещё более впечатляющими темпами: картинки (SD3), видео (Sora), музыка (Suno) и т. д. При этом все основные игроки стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества, а также сложными технологиями инженерии данных, позволяющими создавать огромные и в то же время очень качественные наборы данных для обучения моделей. В ноябре прошлого года, на конференции AI Journey, наша команда также представила новое поколение text-to-image-модели Kandinsky 3.0. В целом упростив архитектуру и взяв более мощный текстовый кодировщик по сравнению с семейством моделей Kandinsky 2.x, нам удалось добиться значительного роста в качестве изображений с точки зрения реалистичности и детализации, улучшить понимание текста и побить качество модели SDXL на side-by-side-сравнении с точки зрения человеческих предпочтений, что является наиболее показательной метрикой качества в задаче генерации. Подробнее о модели Kandinsky 3.0 можно прочитать в этой статье статье . Также, на базе этой модели в том же ноябре мы выпустили первую российскую модель генерации видео по тексту Kandinsky Video, о которой можно больше узнать здесь .

    habr.com/ru/companies/sberbank

    #kandinsky_31 #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #computervision #texttoimage

  16. Kandinsky 3.0 — новая модель генерации изображений по тексту

    Без чувства современности художник останется непризнанным. Михаил Пришвин В прошлом году на АI Journey мы представили модель Kandinsky 2.0 — первую диффузионную мультиязычную модель генерации изображений по тексту, которая может генерировать изображения на основе русскоязычного текста. За ней последовали новые версии — Kandinsky 2.1 и Kandinsky 2.2 , которые значительно отличались по качеству и своим возможностям от версии 2.0, и стали для нашей команды серьёзными вехами на пути к достижению лучшего качества генерации. Спустя год после релиза нашей первой диффузионной модели мы представляем новую версию модели генерации изображений по тексту — Kandinsky 3.0! Это результат длительной работы нашей команды, которую мы вели параллельно с разработками версий Kandinsky 2.1 и 2.2. Мы провели много экспериментов по выбору архитектуры и проделали большую работу с данными, чтобы сделать понимание текста и качество генераций лучше, а саму архитектуру — проще и лаконичнее. Также мы сделали нашу модель более «отечественной»: теперь она значительно лучше ориентируется в российском и советском культурном поле. В этой статье я кратко опишу ключевые моменты новой архитектуры, стратегию работы с данными и, конечно, продемонстрирую возможности нашей модели на примере генераций.

    habr.com/ru/companies/sberbank

    #kandinsky_30 #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #computer_vision #texttoimage #animation