home.social

#vlm — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #vlm, aggregated by home.social.

  1. Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....

  2. Is there a FOSS model that does using machine vision learning tricks to get text of tricky docs where fails? Using to get & co to do it is stomach-turning....

  3. Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....

  4. Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....

  5. Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....

  6. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  7. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  8. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  9. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  10. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  11. What is the best for of tricky input such as tables or just for high fidelity output in general?

  12. Робот, способный создать себя сам. Режим «Инженера» в робототехнике

    Скажите роботу «настрой манипулятор» — и он напишет драйвер сам. Звучит как фантастика из тех самых фильмов 80-х и 90-х, но мы уже реализовали это в OpenGrall. Рассказываю, как работает режим Инженера и почему последнее слово всегда остаётся за человеком

    habr.com/ru/articles/1030526/

    #LLM #VLM #робототехника #OpenGrall #ИИ #Python #WebSocket #YandexGPT #DeepSeek #самокодинг

  13. Робот, способный создать себя сам. Режим «Инженера» в робототехнике Скажите роботу «настрой манипулятор» ...

    #LLM #VLM #робототехника #OpenGrall #ИИ #Python #WebSocket #YandexGPT #DeepSeek #самокодинг

    Origin | Interest | Match
  14. Как гибрид IDP и VLM экономит миллионы на верификации данных

    Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах. В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом , когда VLM усиливает IDP-решения. В этот раз мы проверили гипотезу: пусть VLM не распознает документ с нуля, а проверяет черновик из IDP-системы и исправляет ошибки, опираясь на исходное изображение. Базовым OCR движком выступила наша платформа ContentCapture. Практическая цель эксперимента — автоматизировать верификацию документов. Сейчас в крупных компаниях сотни операторов вручную сверяют распознанные данные с оригиналами.

    habr.com/ru/companies/contenta

    #idp #llmмодели #vlm #ocr #ocrтехнологии

  15. WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

    Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто! В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

    habr.com/ru/companies/airi/art

    #WACV_2026 #Computer_Vision #Машинное_обучение #Искусственный_интеллект #Конференции #Vision_Encoders #Deep_Learning #Интерпретируемость_нейросетей #VLM

  16. VLM / VLA / World Models / Physical AI

    Нейроночки в последнее время заполонили всё. Ну, почти всё. Cейчас подбираются к роботам. Настоящего прогресса почти так же много как нейрослопа, пиара и преувеличений. В этой статье попробую рассказать про нейроночки для управления роботами: 🤖 Расскажу немного про теорию 🤖 Покажу как обучить всё это дома на коленке (и стать экспертом в Physical AI конечно)

    habr.com/ru/companies/recognit

    #VLM #LLM #VLA #World_models

  17. Когда фантастика 1939 года становится реальностью 2025-го

    Вчера вечером я впервые после детства взяла в руки рассказ «Я, робот» Эндо Биндера, опубликованный в январе 1939 года в журнале Amazing Stories.Именно Эндо Биндера (псевдоним братьев Эрла и Отто Биндеров) — а не Айзека Азимова. Это тот самый рассказ, чьё название Азимов «позаимствовал» одиннадцать лет спустя для своего знаменитого сборника 1950 года, причём сам Азимов протестовал против этого решения издателя, понимая, что название уже занято. А фильм 2004 года с Уиллом Смитом сняли по мотивам азимовского цикла о Трёх законах роботехники, так что связь с оригинальным рассказом Биндера только в названии.

    habr.com/ru/articles/962348/

    #робототехника #искусственный_интеллект #научная_фантастика #роботы #онтология #rag #vlm #vla #llm #bipedal_locomotion

  18. "Cutting-edge Open OCR Models / We’ve seen an incredible wave of new models this past year. Because so much work is happening in the open, these players build on and benefit from each other’s work. A great example is AllenAI’s release of OlmOCR, which not only released a model but also the dataset used to train it. With these, others can build upon them in new directions. The field is incredibly active, but it’s not always obvious which model to use."

    #vlm #atr #ocr

    toot.cafe/@tomayac/11541811066

  19. Это не BDD, это другое. Путь от кода к BugBuster — платформе автоматизации тестирования на естественном языке

    Ручные тест-кейсы копятся быстрее, чем их успевают автоматизировать. Селекторы ломаются после каждого обновления вёрстки. А код автотестов остаётся понятным только разработчикам. В этой статье я разберу ключевые проблемы автотестов и расскажу, как их можно решить. Меня зовут Даниил Ахетов. Я занимаюсь автоматизацией тестирования уже достаточно давно. В основном пишу на JavaScript. Внедрял инструменты автоматизации тестирования в Яндексе, строил целое направление автоматизации тестирования фронта в SberDevices, но какие бы фреймворки я ни использовал и какие бы команды ни собирал, я всегда сталкивался с одной и той же проблемой: автоматизация тестирования не успевает. Мы постоянно работаем в догоняющем режиме. Причин этому много, но я для себя выделил три основные.

    habr.com/ru/articles/927840/

    #тестировщик #тестирование #qa #qa_automation #qa_management #vlm #ai #ии #ииагенты #тесткейсы

  20. Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

    Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом. На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.

    habr.com/ru/companies/yandex/a

    #vlm #natural_language_processing #computer_vision #multimodality #яндекс

  21. Photo of the Day 1st November 2024.

    PH-BDT, Boeing 737-406, KLM, being pushed back from Gate 24 at Manchester Airport, some time in the 1990s.

     

    On This Day 1st November 1993.

    F-GIJT, Airbus A300B4-103, Air Inter, under tow at Paris Orly, 1st November 1993.

     

    On This Day 1st November 1994.

    OO-VLN, Fokker F50, VLM, taxiing out to Runway 27 at London City Airport, 1st November 1994.

    https://mancavgeek.co.uk/2024/11/01/photo-of-the-day-1st-november-2024/

    #a300 #airbus #AirInter #avgeek #aviation #b737 #boeing #city #egcc #eglc #f50 #fokker #KLM #lcy #lfpo #london #man #manchester #OnThisDay #orly #ory #paris #photography #planespotting #VLM

  22. ¿Consejos para una DM a una semana de estrenarse dirigiendo Vampiro? #VLM #VTM #V20