home.social

#vlm — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #vlm, aggregated by home.social.

  1. Sea Levels Rising Dramatically In Some Areas Due To Land Subsidence [global]
    --
    phys.org/news/2026-05-sea-area <-- shared technical article
    --
    doi.org/10.1038/s41467-026-722 <-- shared paper
    --
    [#VLM = vertical land motion; #ASL = absolute sea-level; #RSL = relative sea-level; #GIA = (global) Glacial Isostatic Adjustment; #inSAR = Interferometric Synthetic Aperture Radar; #GNSS = Global Navigation Satellite System (~GPS); #OE24 = paper, doi.org/10.1038/s41561-023-013, interpolated VLM reconstruction based on the joint analysis of GNSS, tide gauges (TGs), and satellite altimetry]
    #GIS #spatial #mapping #remotesensing #earthobservation #sealevel #verticallandmotion #absolutesealevel #relativesealevel #GlacialIsostaticAdjustment #geomorphometry #SLR #sealevelrise #coast #coastal #flood #flooding #subsidence #landmass #landsubsidence #global #globalsealevelrise #climatechange #city #urban #farmlands #population #demographics #cities #planning #community #elevation #monitoring #spatialanalysis #spatiotemporal #altimetry

  2. Sea Levels Rising Dramatically In Some Areas Due To Land Subsidence [global]
    --
    phys.org/news/2026-05-sea-area <-- shared technical article
    --
    doi.org/10.1038/s41467-026-722 <-- shared paper
    --
    [#VLM = vertical land motion; #ASL = absolute sea-level; #RSL = relative sea-level; #GIA = (global) Glacial Isostatic Adjustment; #inSAR = Interferometric Synthetic Aperture Radar; #GNSS = Global Navigation Satellite System (~GPS); #OE24 = paper, doi.org/10.1038/s41561-023-013, interpolated VLM reconstruction based on the joint analysis of GNSS, tide gauges (TGs), and satellite altimetry]
    #GIS #spatial #mapping #remotesensing #earthobservation #sealevel #verticallandmotion #absolutesealevel #relativesealevel #GlacialIsostaticAdjustment #geomorphometry #SLR #sealevelrise #coast #coastal #flood #flooding #subsidence #landmass #landsubsidence #global #globalsealevelrise #climatechange #city #urban #farmlands #population #demographics #cities #planning #community #elevation #monitoring #spatialanalysis #spatiotemporal #altimetry

  3. Sea Levels Rising Dramatically In Some Areas Due To Land Subsidence [global]
    --
    phys.org/news/2026-05-sea-area <-- shared technical article
    --
    doi.org/10.1038/s41467-026-722 <-- shared paper
    --
    [#VLM = vertical land motion; #ASL = absolute sea-level; #RSL = relative sea-level; #GIA = (global) Glacial Isostatic Adjustment; #inSAR = Interferometric Synthetic Aperture Radar; #GNSS = Global Navigation Satellite System (~GPS); #OE24 = paper, doi.org/10.1038/s41561-023-013, interpolated VLM reconstruction based on the joint analysis of GNSS, tide gauges (TGs), and satellite altimetry]
    #GIS #spatial #mapping #remotesensing #earthobservation #sealevel #verticallandmotion #absolutesealevel #relativesealevel #GlacialIsostaticAdjustment #geomorphometry #SLR #sealevelrise #coast #coastal #flood #flooding #subsidence #landmass #landsubsidence #global #globalsealevelrise #climatechange #city #urban #farmlands #population #demographics #cities #planning #community #elevation #monitoring #spatialanalysis #spatiotemporal #altimetry

  4. Sea Levels Rising Dramatically In Some Areas Due To Land Subsidence [global]
    --
    phys.org/news/2026-05-sea-area <-- shared technical article
    --
    doi.org/10.1038/s41467-026-722 <-- shared paper
    --
    [#VLM = vertical land motion; #ASL = absolute sea-level; #RSL = relative sea-level; #GIA = (global) Glacial Isostatic Adjustment; #inSAR = Interferometric Synthetic Aperture Radar; #GNSS = Global Navigation Satellite System (~GPS); #OE24 = paper, doi.org/10.1038/s41561-023-013, interpolated VLM reconstruction based on the joint analysis of GNSS, tide gauges (TGs), and satellite altimetry]
    #GIS #spatial #mapping #remotesensing #earthobservation #sealevel #verticallandmotion #absolutesealevel #relativesealevel #GlacialIsostaticAdjustment #geomorphometry #SLR #sealevelrise #coast #coastal #flood #flooding #subsidence #landmass #landsubsidence #global #globalsealevelrise #climatechange #city #urban #farmlands #population #demographics #cities #planning #community #elevation #monitoring #spatialanalysis #spatiotemporal #altimetry

  5. Sea Levels Rising Dramatically In Some Areas Due To Land Subsidence [global]
    --
    phys.org/news/2026-05-sea-area <-- shared technical article
    --
    doi.org/10.1038/s41467-026-722 <-- shared paper
    --
    [ = vertical land motion; = absolute sea-level; = relative sea-level; = (global) Glacial Isostatic Adjustment; = Interferometric Synthetic Aperture Radar; = Global Navigation Satellite System (~GPS); = paper, doi.org/10.1038/s41561-023-013, interpolated VLM reconstruction based on the joint analysis of GNSS, tide gauges (TGs), and satellite altimetry]

  6. Как Vision-Language Models учатся работать с 3D-миром

    Привет, Хабр! Сегодня поговорим о том, как роботы работают с предметами в реальной жизни. Современные роботы умеют выполнять множество простых операций, но терпят катастрофический провал в задачах, требующих понимания трехмерных пространственных отношений и физической осуществимости действий. Попробуем разобраться, как с помощью vision-language models (VLM) роботы учатся работать с предметами в пространстве.

    habr.com/ru/companies/ru_mts/a

    #VLM #VisionLanguage_Models #робототехника #компьютерное_зрение #3Dмоделирование #spatial_reasoning #retrievalaugmented_generation #NVIDIA #манипуляторы #искусственный_интеллект

  7. Как Vision-Language Models учатся работать с 3D-миром

    Привет, Хабр! Сегодня поговорим о том, как роботы работают с предметами в реальной жизни. Современные роботы умеют выполнять множество простых операций, но терпят катастрофический провал в задачах, требующих понимания трехмерных пространственных отношений и физической осуществимости действий. Попробуем разобраться, как с помощью vision-language models (VLM) роботы учатся работать с предметами в пространстве.

    habr.com/ru/companies/ru_mts/a

    #VLM #VisionLanguage_Models #робототехника #компьютерное_зрение #3Dмоделирование #spatial_reasoning #retrievalaugmented_generation #NVIDIA #манипуляторы #искусственный_интеллект

  8. Как Vision-Language Models учатся работать с 3D-миром

    Привет, Хабр! Сегодня поговорим о том, как роботы работают с предметами в реальной жизни. Современные роботы умеют выполнять множество простых операций, но терпят катастрофический провал в задачах, требующих понимания трехмерных пространственных отношений и физической осуществимости действий. Попробуем разобраться, как с помощью vision-language models (VLM) роботы учатся работать с предметами в пространстве.

    habr.com/ru/companies/ru_mts/a

    #VLM #VisionLanguage_Models #робототехника #компьютерное_зрение #3Dмоделирование #spatial_reasoning #retrievalaugmented_generation #NVIDIA #манипуляторы #искусственный_интеллект

  9. Как Vision-Language Models учатся работать с 3D-миром

    Привет, Хабр! Сегодня поговорим о том, как роботы работают с предметами в реальной жизни. Современные роботы умеют выполнять множество простых операций, но терпят катастрофический провал в задачах, требующих понимания трехмерных пространственных отношений и физической осуществимости действий. Попробуем разобраться, как с помощью vision-language models (VLM) роботы учатся работать с предметами в пространстве.

    habr.com/ru/companies/ru_mts/a

    #VLM #VisionLanguage_Models #робототехника #компьютерное_зрение #3Dмоделирование #spatial_reasoning #retrievalaugmented_generation #NVIDIA #манипуляторы #искусственный_интеллект

  10. Axera AX650N: архитектура Edge ML SoC под CNN, LLM и VLM

    Большинство задач современной робототехники так или иначе завязаны на нейронных сетях: детекция объектов, оценка глубины, локализация, планирование. Всё это ресурсоёмко, и вопрос выбора компактного вычислителя (достаточно часто алгоритмы должны работать локально) встает довольно остро. На практике выбор сводится к трём классам устройств: NVIDIA Jetson , внешний ускоритель (один из самых популярных — Hailo) и китайский (не всегда, конечно, но в современных реалиях обычно китайский) SoC с интегрированным NPU. В этой статье я рассмотрю представителя третьего класса — Axera AX650N , а NVIDIA Jetson будет использоваться для сравнения, так как это единственное массовое edge-решение с универсальными вычислительными ядрами (CUDA) . Это первая часть цикла. Здесь я разберу аппаратную архитектуру самого AX650N — CPU, NPU, DSP, ISP, память — и поделюсь результатами первых тестов: YOLO, Depth Anything, SuperPoint и мультимодальный Qwen3. Подробные бенчмарки и сравнения — во второй части. Я тестировал AX650N в рамках готового устройства от Sipeed — Maix4 Hat . Он состоит из двух частей: SoM , на котором расположены SoC и 8 GB RAM (2x4 GB, так как у AX650N два отдельных DDR-контроллера) , и baseboard от Sipeed с минимальным количеством интерфейсов. Скромность интерфейсов объясняется просто: baseboard — это HAT для Raspberry Pi 5, подключающийся по PCIe 2.0. В такой конфигурации AX650N работает как внешний ML-ускоритель, аналогично Hailo . В рамках этой и последующих статей я буду использовать Maix4 Hat как самостоятельный микрокомпьютер.

    habr.com/ru/articles/1035776/

    #Axera #NPU #VLM #llm #embedded #cnn #нейросети #sipeed #электроника #компьютерное_зрение

  11. Axera AX650N: архитектура Edge ML SoC под CNN, LLM и VLM

    Большинство задач современной робототехники так или иначе завязаны на нейронных сетях: детекция объектов, оценка глубины, локализация, планирование. Всё это ресурсоёмко, и вопрос выбора компактного вычислителя (достаточно часто алгоритмы должны работать локально) встает довольно остро. На практике выбор сводится к трём классам устройств: NVIDIA Jetson , внешний ускоритель (один из самых популярных — Hailo) и китайский (не всегда, конечно, но в современных реалиях обычно китайский) SoC с интегрированным NPU. В этой статье я рассмотрю представителя третьего класса — Axera AX650N , а NVIDIA Jetson будет использоваться для сравнения, так как это единственное массовое edge-решение с универсальными вычислительными ядрами (CUDA) . Это первая часть цикла. Здесь я разберу аппаратную архитектуру самого AX650N — CPU, NPU, DSP, ISP, память — и поделюсь результатами первых тестов: YOLO, Depth Anything, SuperPoint и мультимодальный Qwen3. Подробные бенчмарки и сравнения — во второй части. Я тестировал AX650N в рамках готового устройства от Sipeed — Maix4 Hat . Он состоит из двух частей: SoM , на котором расположены SoC и 8 GB RAM (2x4 GB, так как у AX650N два отдельных DDR-контроллера) , и baseboard от Sipeed с минимальным количеством интерфейсов. Скромность интерфейсов объясняется просто: baseboard — это HAT для Raspberry Pi 5, подключающийся по PCIe 2.0. В такой конфигурации AX650N работает как внешний ML-ускоритель, аналогично Hailo . В рамках этой и последующих статей я буду использовать Maix4 Hat как самостоятельный микрокомпьютер.

    habr.com/ru/articles/1035776/

    #Axera #NPU #VLM #llm #embedded #cnn #нейросети #sipeed #электроника #компьютерное_зрение

  12. Axera AX650N: архитектура Edge ML SoC под CNN, LLM и VLM

    Большинство задач современной робототехники так или иначе завязаны на нейронных сетях: детекция объектов, оценка глубины, локализация, планирование. Всё это ресурсоёмко, и вопрос выбора компактного вычислителя (достаточно часто алгоритмы должны работать локально) встает довольно остро. На практике выбор сводится к трём классам устройств: NVIDIA Jetson , внешний ускоритель (один из самых популярных — Hailo) и китайский (не всегда, конечно, но в современных реалиях обычно китайский) SoC с интегрированным NPU. В этой статье я рассмотрю представителя третьего класса — Axera AX650N , а NVIDIA Jetson будет использоваться для сравнения, так как это единственное массовое edge-решение с универсальными вычислительными ядрами (CUDA) . Это первая часть цикла. Здесь я разберу аппаратную архитектуру самого AX650N — CPU, NPU, DSP, ISP, память — и поделюсь результатами первых тестов: YOLO, Depth Anything, SuperPoint и мультимодальный Qwen3. Подробные бенчмарки и сравнения — во второй части. Я тестировал AX650N в рамках готового устройства от Sipeed — Maix4 Hat . Он состоит из двух частей: SoM , на котором расположены SoC и 8 GB RAM (2x4 GB, так как у AX650N два отдельных DDR-контроллера) , и baseboard от Sipeed с минимальным количеством интерфейсов. Скромность интерфейсов объясняется просто: baseboard — это HAT для Raspberry Pi 5, подключающийся по PCIe 2.0. В такой конфигурации AX650N работает как внешний ML-ускоритель, аналогично Hailo . В рамках этой и последующих статей я буду использовать Maix4 Hat как самостоятельный микрокомпьютер.

    habr.com/ru/articles/1035776/

    #Axera #NPU #VLM #llm #embedded #cnn #нейросети #sipeed #электроника #компьютерное_зрение

  13. Axera AX650N: архитектура Edge ML SoC под CNN, LLM и VLM

    Большинство задач современной робототехники так или иначе завязаны на нейронных сетях: детекция объектов, оценка глубины, локализация, планирование. Всё это ресурсоёмко, и вопрос выбора компактного вычислителя (достаточно часто алгоритмы должны работать локально) встает довольно остро. На практике выбор сводится к трём классам устройств: NVIDIA Jetson , внешний ускоритель (один из самых популярных — Hailo) и китайский (не всегда, конечно, но в современных реалиях обычно китайский) SoC с интегрированным NPU. В этой статье я рассмотрю представителя третьего класса — Axera AX650N , а NVIDIA Jetson будет использоваться для сравнения, так как это единственное массовое edge-решение с универсальными вычислительными ядрами (CUDA) . Это первая часть цикла. Здесь я разберу аппаратную архитектуру самого AX650N — CPU, NPU, DSP, ISP, память — и поделюсь результатами первых тестов: YOLO, Depth Anything, SuperPoint и мультимодальный Qwen3. Подробные бенчмарки и сравнения — во второй части. Я тестировал AX650N в рамках готового устройства от Sipeed — Maix4 Hat . Он состоит из двух частей: SoM , на котором расположены SoC и 8 GB RAM (2x4 GB, так как у AX650N два отдельных DDR-контроллера) , и baseboard от Sipeed с минимальным количеством интерфейсов. Скромность интерфейсов объясняется просто: baseboard — это HAT для Raspberry Pi 5, подключающийся по PCIe 2.0. В такой конфигурации AX650N работает как внешний ML-ускоритель, аналогично Hailo . В рамках этой и последующих статей я буду использовать Maix4 Hat как самостоятельный микрокомпьютер.

    habr.com/ru/articles/1035776/

    #Axera #NPU #VLM #llm #embedded #cnn #нейросети #sipeed #электроника #компьютерное_зрение

  14. Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....

  15. Is there a FOSS model that does using machine vision learning tricks to get text of tricky docs where fails? Using to get & co to do it is stomach-turning....

  16. Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....

  17. Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....

  18. Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....

  19. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  20. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  21. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  22. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  23. Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.

    Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.

    8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.

    Detaylı yazı + VRAM önerileri:
    webbrain.one/blog

    GitHub'da ⭐ atarsanız çok seviniriz 🙏
    github.com/esokullu/webbrain

    #LocalLLM #VLM #AIAgents #Qwen #AI #yapayzeka

  24. What is the best for of tricky input such as tables or just for high fidelity output in general?

  25. What #VLM is the best for #OCR of tricky input such as tables or just for high fidelity output in general?

  26. What #VLM is the best for #OCR of tricky input such as tables or just for high fidelity output in general?

  27. What #VLM is the best for #OCR of tricky input such as tables or just for high fidelity output in general?

  28. What #VLM is the best for #OCR of tricky input such as tables or just for high fidelity output in general?

  29. Робот, способный создать себя сам. Режим «Инженера» в робототехнике

    Скажите роботу «настрой манипулятор» — и он напишет драйвер сам. Звучит как фантастика из тех самых фильмов 80-х и 90-х, но мы уже реализовали это в OpenGrall. Рассказываю, как работает режим Инженера и почему последнее слово всегда остаётся за человеком

    habr.com/ru/articles/1030526/

    #LLM #VLM #робототехника #OpenGrall #ИИ #Python #WebSocket #YandexGPT #DeepSeek #самокодинг

  30. Робот, способный создать себя сам. Режим «Инженера» в робототехнике

    Скажите роботу «настрой манипулятор» — и он напишет драйвер сам. Звучит как фантастика из тех самых фильмов 80-х и 90-х, но мы уже реализовали это в OpenGrall. Рассказываю, как работает режим Инженера и почему последнее слово всегда остаётся за человеком

    habr.com/ru/articles/1030526/

    #LLM #VLM #робототехника #OpenGrall #ИИ #Python #WebSocket #YandexGPT #DeepSeek #самокодинг

  31. Робот, способный создать себя сам. Режим «Инженера» в робототехнике

    Скажите роботу «настрой манипулятор» — и он напишет драйвер сам. Звучит как фантастика из тех самых фильмов 80-х и 90-х, но мы уже реализовали это в OpenGrall. Рассказываю, как работает режим Инженера и почему последнее слово всегда остаётся за человеком

    habr.com/ru/articles/1030526/

    #LLM #VLM #робототехника #OpenGrall #ИИ #Python #WebSocket #YandexGPT #DeepSeek #самокодинг

  32. Робот, способный создать себя сам. Режим «Инженера» в робототехнике

    Скажите роботу «настрой манипулятор» — и он напишет драйвер сам. Звучит как фантастика из тех самых фильмов 80-х и 90-х, но мы уже реализовали это в OpenGrall. Рассказываю, как работает режим Инженера и почему последнее слово всегда остаётся за человеком

    habr.com/ru/articles/1030526/

    #LLM #VLM #робототехника #OpenGrall #ИИ #Python #WebSocket #YandexGPT #DeepSeek #самокодинг

  33. Робот, способный создать себя сам. Режим «Инженера» в робототехнике Скажите роботу «настрой манипулятор» ...

    #LLM #VLM #робототехника #OpenGrall #ИИ #Python #WebSocket #YandexGPT #DeepSeek #самокодинг

    Origin | Interest | Match
  34. z.ai GLM 5.1: Как я научил слепую модель видеть

    Если у вас есть неограниченный доступ к фронтир моделям (Calude, Codex и т.д.), то эта статья не для вас. Сегодня доступны отличные недорогие модели для кодинга и архитектуры. Например, GLM-5.1 (реферальная ссылка +10% бонус на пополнение) умеет генерировать, рефакторить, отлаживать код, строить архитектуру – в десятки раз дешевле фронтит моделей или вообще бесплатно при локальном развёртывании. Но у всех таких моделей часто есть общая слепая зона: они не видят результат своей работы . В этой статье я рассказываю, как "научить модель видеть".

    habr.com/ru/articles/1029682/

    #MCP #vision #VLM #qwen3vl #Ollama #кодингагент #тестирование #скриншот #opensource #prompttuning

  35. z.ai GLM 5.1: Как я научил слепую модель видеть

    Если у вас есть неограниченный доступ к фронтир моделям (Calude, Codex и т.д.), то эта статья не для вас. Сегодня доступны отличные недорогие модели для кодинга и архитектуры. Например, GLM-5.1 (реферальная ссылка +10% бонус на пополнение) умеет генерировать, рефакторить, отлаживать код, строить архитектуру – в десятки раз дешевле фронтит моделей или вообще бесплатно при локальном развёртывании. Но у всех таких моделей часто есть общая слепая зона: они не видят результат своей работы . В этой статье я рассказываю, как "научить модель видеть".

    habr.com/ru/articles/1029682/

    #MCP #vision #VLM #qwen3vl #Ollama #кодингагент #тестирование #скриншот #opensource #prompttuning

  36. z.ai GLM 5.1: Как я научил слепую модель видеть

    Если у вас есть неограниченный доступ к фронтир моделям (Calude, Codex и т.д.), то эта статья не для вас. Сегодня доступны отличные недорогие модели для кодинга и архитектуры. Например, GLM-5.1 (реферальная ссылка +10% бонус на пополнение) умеет генерировать, рефакторить, отлаживать код, строить архитектуру – в десятки раз дешевле фронтит моделей или вообще бесплатно при локальном развёртывании. Но у всех таких моделей часто есть общая слепая зона: они не видят результат своей работы . В этой статье я рассказываю, как "научить модель видеть".

    habr.com/ru/articles/1029682/

    #MCP #vision #VLM #qwen3vl #Ollama #кодингагент #тестирование #скриншот #opensource #prompttuning

  37. z.ai GLM 5.1: Как я научил слепую модель видеть

    Если у вас есть неограниченный доступ к фронтир моделям (Calude, Codex и т.д.), то эта статья не для вас. Сегодня доступны отличные недорогие модели для кодинга и архитектуры. Например, GLM-5.1 (реферальная ссылка +10% бонус на пополнение) умеет генерировать, рефакторить, отлаживать код, строить архитектуру – в десятки раз дешевле фронтит моделей или вообще бесплатно при локальном развёртывании. Но у всех таких моделей часто есть общая слепая зона: они не видят результат своей работы . В этой статье я рассказываю, как "научить модель видеть".

    habr.com/ru/articles/1029682/

    #MCP #vision #VLM #qwen3vl #Ollama #кодингагент #тестирование #скриншот #opensource #prompttuning

  38. Как гибрид IDP и VLM экономит миллионы на верификации данных

    Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах. В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом , когда VLM усиливает IDP-решения. В этот раз мы проверили гипотезу: пусть VLM не распознает документ с нуля, а проверяет черновик из IDP-системы и исправляет ошибки, опираясь на исходное изображение. Базовым OCR движком выступила наша платформа ContentCapture. Практическая цель эксперимента — автоматизировать верификацию документов. Сейчас в крупных компаниях сотни операторов вручную сверяют распознанные данные с оригиналами.

    habr.com/ru/companies/contenta

    #idp #llmмодели #vlm #ocr #ocrтехнологии

  39. Как гибрид IDP и VLM экономит миллионы на верификации данных

    Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах. В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом , когда VLM усиливает IDP-решения. В этот раз мы проверили гипотезу: пусть VLM не распознает документ с нуля, а проверяет черновик из IDP-системы и исправляет ошибки, опираясь на исходное изображение. Базовым OCR движком выступила наша платформа ContentCapture. Практическая цель эксперимента — автоматизировать верификацию документов. Сейчас в крупных компаниях сотни операторов вручную сверяют распознанные данные с оригиналами.

    habr.com/ru/companies/contenta

    #idp #llmмодели #vlm #ocr #ocrтехнологии

  40. Как гибрид IDP и VLM экономит миллионы на верификации данных

    Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах. В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом , когда VLM усиливает IDP-решения. В этот раз мы проверили гипотезу: пусть VLM не распознает документ с нуля, а проверяет черновик из IDP-системы и исправляет ошибки, опираясь на исходное изображение. Базовым OCR движком выступила наша платформа ContentCapture. Практическая цель эксперимента — автоматизировать верификацию документов. Сейчас в крупных компаниях сотни операторов вручную сверяют распознанные данные с оригиналами.

    habr.com/ru/companies/contenta

    #idp #llmмодели #vlm #ocr #ocrтехнологии

  41. Как гибрид IDP и VLM экономит миллионы на верификации данных

    Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах. В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом , когда VLM усиливает IDP-решения. В этот раз мы проверили гипотезу: пусть VLM не распознает документ с нуля, а проверяет черновик из IDP-системы и исправляет ошибки, опираясь на исходное изображение. Базовым OCR движком выступила наша платформа ContentCapture. Практическая цель эксперимента — автоматизировать верификацию документов. Сейчас в крупных компаниях сотни операторов вручную сверяют распознанные данные с оригиналами.

    habr.com/ru/companies/contenta

    #idp #llmмодели #vlm #ocr #ocrтехнологии

  42. WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

    Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто! В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

    habr.com/ru/companies/airi/art

    #WACV_2026 #Computer_Vision #Машинное_обучение #Искусственный_интеллект #Конференции #Vision_Encoders #Deep_Learning #Интерпретируемость_нейросетей #VLM

  43. WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

    Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто! В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

    habr.com/ru/companies/airi/art

    #WACV_2026 #Computer_Vision #Машинное_обучение #Искусственный_интеллект #Конференции #Vision_Encoders #Deep_Learning #Интерпретируемость_нейросетей #VLM

  44. WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

    Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто! В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

    habr.com/ru/companies/airi/art

    #WACV_2026 #Computer_Vision #Машинное_обучение #Искусственный_интеллект #Конференции #Vision_Encoders #Deep_Learning #Интерпретируемость_нейросетей #VLM

  45. WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

    Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто! В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

    habr.com/ru/companies/airi/art

    #WACV_2026 #Computer_Vision #Машинное_обучение #Искусственный_интеллект #Конференции #Vision_Encoders #Deep_Learning #Интерпретируемость_нейросетей #VLM