#vlm — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #vlm, aggregated by home.social.
-
Sea Levels Rising Dramatically In Some Areas Due To Land Subsidence [global]
--
https://phys.org/news/2026-05-sea-areas-due-subsidence.html <-- shared technical article
--
https://doi.org/10.1038/s41467-026-72293-z <-- shared paper
--
[#VLM = vertical land motion; #ASL = absolute sea-level; #RSL = relative sea-level; #GIA = (global) Glacial Isostatic Adjustment; #inSAR = Interferometric Synthetic Aperture Radar; #GNSS = Global Navigation Satellite System (~GPS); #OE24 = paper, https://doi.org/10.1038/s41561-023-01357-2, interpolated VLM reconstruction based on the joint analysis of GNSS, tide gauges (TGs), and satellite altimetry]
#GIS #spatial #mapping #remotesensing #earthobservation #sealevel #verticallandmotion #absolutesealevel #relativesealevel #GlacialIsostaticAdjustment #geomorphometry #SLR #sealevelrise #coast #coastal #flood #flooding #subsidence #landmass #landsubsidence #global #globalsealevelrise #climatechange #city #urban #farmlands #population #demographics #cities #planning #community #elevation #monitoring #spatialanalysis #spatiotemporal #altimetry -
Sea Levels Rising Dramatically In Some Areas Due To Land Subsidence [global]
--
https://phys.org/news/2026-05-sea-areas-due-subsidence.html <-- shared technical article
--
https://doi.org/10.1038/s41467-026-72293-z <-- shared paper
--
[#VLM = vertical land motion; #ASL = absolute sea-level; #RSL = relative sea-level; #GIA = (global) Glacial Isostatic Adjustment; #inSAR = Interferometric Synthetic Aperture Radar; #GNSS = Global Navigation Satellite System (~GPS); #OE24 = paper, https://doi.org/10.1038/s41561-023-01357-2, interpolated VLM reconstruction based on the joint analysis of GNSS, tide gauges (TGs), and satellite altimetry]
#GIS #spatial #mapping #remotesensing #earthobservation #sealevel #verticallandmotion #absolutesealevel #relativesealevel #GlacialIsostaticAdjustment #geomorphometry #SLR #sealevelrise #coast #coastal #flood #flooding #subsidence #landmass #landsubsidence #global #globalsealevelrise #climatechange #city #urban #farmlands #population #demographics #cities #planning #community #elevation #monitoring #spatialanalysis #spatiotemporal #altimetry -
Sea Levels Rising Dramatically In Some Areas Due To Land Subsidence [global]
--
https://phys.org/news/2026-05-sea-areas-due-subsidence.html <-- shared technical article
--
https://doi.org/10.1038/s41467-026-72293-z <-- shared paper
--
[#VLM = vertical land motion; #ASL = absolute sea-level; #RSL = relative sea-level; #GIA = (global) Glacial Isostatic Adjustment; #inSAR = Interferometric Synthetic Aperture Radar; #GNSS = Global Navigation Satellite System (~GPS); #OE24 = paper, https://doi.org/10.1038/s41561-023-01357-2, interpolated VLM reconstruction based on the joint analysis of GNSS, tide gauges (TGs), and satellite altimetry]
#GIS #spatial #mapping #remotesensing #earthobservation #sealevel #verticallandmotion #absolutesealevel #relativesealevel #GlacialIsostaticAdjustment #geomorphometry #SLR #sealevelrise #coast #coastal #flood #flooding #subsidence #landmass #landsubsidence #global #globalsealevelrise #climatechange #city #urban #farmlands #population #demographics #cities #planning #community #elevation #monitoring #spatialanalysis #spatiotemporal #altimetry -
Sea Levels Rising Dramatically In Some Areas Due To Land Subsidence [global]
--
https://phys.org/news/2026-05-sea-areas-due-subsidence.html <-- shared technical article
--
https://doi.org/10.1038/s41467-026-72293-z <-- shared paper
--
[#VLM = vertical land motion; #ASL = absolute sea-level; #RSL = relative sea-level; #GIA = (global) Glacial Isostatic Adjustment; #inSAR = Interferometric Synthetic Aperture Radar; #GNSS = Global Navigation Satellite System (~GPS); #OE24 = paper, https://doi.org/10.1038/s41561-023-01357-2, interpolated VLM reconstruction based on the joint analysis of GNSS, tide gauges (TGs), and satellite altimetry]
#GIS #spatial #mapping #remotesensing #earthobservation #sealevel #verticallandmotion #absolutesealevel #relativesealevel #GlacialIsostaticAdjustment #geomorphometry #SLR #sealevelrise #coast #coastal #flood #flooding #subsidence #landmass #landsubsidence #global #globalsealevelrise #climatechange #city #urban #farmlands #population #demographics #cities #planning #community #elevation #monitoring #spatialanalysis #spatiotemporal #altimetry -
Sea Levels Rising Dramatically In Some Areas Due To Land Subsidence [global]
--
https://phys.org/news/2026-05-sea-areas-due-subsidence.html <-- shared technical article
--
https://doi.org/10.1038/s41467-026-72293-z <-- shared paper
--
[#VLM = vertical land motion; #ASL = absolute sea-level; #RSL = relative sea-level; #GIA = (global) Glacial Isostatic Adjustment; #inSAR = Interferometric Synthetic Aperture Radar; #GNSS = Global Navigation Satellite System (~GPS); #OE24 = paper, https://doi.org/10.1038/s41561-023-01357-2, interpolated VLM reconstruction based on the joint analysis of GNSS, tide gauges (TGs), and satellite altimetry]
#GIS #spatial #mapping #remotesensing #earthobservation #sealevel #verticallandmotion #absolutesealevel #relativesealevel #GlacialIsostaticAdjustment #geomorphometry #SLR #sealevelrise #coast #coastal #flood #flooding #subsidence #landmass #landsubsidence #global #globalsealevelrise #climatechange #city #urban #farmlands #population #demographics #cities #planning #community #elevation #monitoring #spatialanalysis #spatiotemporal #altimetry -
Как Vision-Language Models учатся работать с 3D-миром
Привет, Хабр! Сегодня поговорим о том, как роботы работают с предметами в реальной жизни. Современные роботы умеют выполнять множество простых операций, но терпят катастрофический провал в задачах, требующих понимания трехмерных пространственных отношений и физической осуществимости действий. Попробуем разобраться, как с помощью vision-language models (VLM) роботы учатся работать с предметами в пространстве.
https://habr.com/ru/companies/ru_mts/articles/1035508/
#VLM #VisionLanguage_Models #робототехника #компьютерное_зрение #3Dмоделирование #spatial_reasoning #retrievalaugmented_generation #NVIDIA #манипуляторы #искусственный_интеллект
-
Как Vision-Language Models учатся работать с 3D-миром
Привет, Хабр! Сегодня поговорим о том, как роботы работают с предметами в реальной жизни. Современные роботы умеют выполнять множество простых операций, но терпят катастрофический провал в задачах, требующих понимания трехмерных пространственных отношений и физической осуществимости действий. Попробуем разобраться, как с помощью vision-language models (VLM) роботы учатся работать с предметами в пространстве.
https://habr.com/ru/companies/ru_mts/articles/1035508/
#VLM #VisionLanguage_Models #робототехника #компьютерное_зрение #3Dмоделирование #spatial_reasoning #retrievalaugmented_generation #NVIDIA #манипуляторы #искусственный_интеллект
-
Как Vision-Language Models учатся работать с 3D-миром
Привет, Хабр! Сегодня поговорим о том, как роботы работают с предметами в реальной жизни. Современные роботы умеют выполнять множество простых операций, но терпят катастрофический провал в задачах, требующих понимания трехмерных пространственных отношений и физической осуществимости действий. Попробуем разобраться, как с помощью vision-language models (VLM) роботы учатся работать с предметами в пространстве.
https://habr.com/ru/companies/ru_mts/articles/1035508/
#VLM #VisionLanguage_Models #робототехника #компьютерное_зрение #3Dмоделирование #spatial_reasoning #retrievalaugmented_generation #NVIDIA #манипуляторы #искусственный_интеллект
-
Как Vision-Language Models учатся работать с 3D-миром
Привет, Хабр! Сегодня поговорим о том, как роботы работают с предметами в реальной жизни. Современные роботы умеют выполнять множество простых операций, но терпят катастрофический провал в задачах, требующих понимания трехмерных пространственных отношений и физической осуществимости действий. Попробуем разобраться, как с помощью vision-language models (VLM) роботы учатся работать с предметами в пространстве.
https://habr.com/ru/companies/ru_mts/articles/1035508/
#VLM #VisionLanguage_Models #робототехника #компьютерное_зрение #3Dмоделирование #spatial_reasoning #retrievalaugmented_generation #NVIDIA #манипуляторы #искусственный_интеллект
-
Axera AX650N: архитектура Edge ML SoC под CNN, LLM и VLM
Большинство задач современной робототехники так или иначе завязаны на нейронных сетях: детекция объектов, оценка глубины, локализация, планирование. Всё это ресурсоёмко, и вопрос выбора компактного вычислителя (достаточно часто алгоритмы должны работать локально) встает довольно остро. На практике выбор сводится к трём классам устройств: NVIDIA Jetson , внешний ускоритель (один из самых популярных — Hailo) и китайский (не всегда, конечно, но в современных реалиях обычно китайский) SoC с интегрированным NPU. В этой статье я рассмотрю представителя третьего класса — Axera AX650N , а NVIDIA Jetson будет использоваться для сравнения, так как это единственное массовое edge-решение с универсальными вычислительными ядрами (CUDA) . Это первая часть цикла. Здесь я разберу аппаратную архитектуру самого AX650N — CPU, NPU, DSP, ISP, память — и поделюсь результатами первых тестов: YOLO, Depth Anything, SuperPoint и мультимодальный Qwen3. Подробные бенчмарки и сравнения — во второй части. Я тестировал AX650N в рамках готового устройства от Sipeed — Maix4 Hat . Он состоит из двух частей: SoM , на котором расположены SoC и 8 GB RAM (2x4 GB, так как у AX650N два отдельных DDR-контроллера) , и baseboard от Sipeed с минимальным количеством интерфейсов. Скромность интерфейсов объясняется просто: baseboard — это HAT для Raspberry Pi 5, подключающийся по PCIe 2.0. В такой конфигурации AX650N работает как внешний ML-ускоритель, аналогично Hailo . В рамках этой и последующих статей я буду использовать Maix4 Hat как самостоятельный микрокомпьютер.
https://habr.com/ru/articles/1035776/
#Axera #NPU #VLM #llm #embedded #cnn #нейросети #sipeed #электроника #компьютерное_зрение
-
Axera AX650N: архитектура Edge ML SoC под CNN, LLM и VLM
Большинство задач современной робототехники так или иначе завязаны на нейронных сетях: детекция объектов, оценка глубины, локализация, планирование. Всё это ресурсоёмко, и вопрос выбора компактного вычислителя (достаточно часто алгоритмы должны работать локально) встает довольно остро. На практике выбор сводится к трём классам устройств: NVIDIA Jetson , внешний ускоритель (один из самых популярных — Hailo) и китайский (не всегда, конечно, но в современных реалиях обычно китайский) SoC с интегрированным NPU. В этой статье я рассмотрю представителя третьего класса — Axera AX650N , а NVIDIA Jetson будет использоваться для сравнения, так как это единственное массовое edge-решение с универсальными вычислительными ядрами (CUDA) . Это первая часть цикла. Здесь я разберу аппаратную архитектуру самого AX650N — CPU, NPU, DSP, ISP, память — и поделюсь результатами первых тестов: YOLO, Depth Anything, SuperPoint и мультимодальный Qwen3. Подробные бенчмарки и сравнения — во второй части. Я тестировал AX650N в рамках готового устройства от Sipeed — Maix4 Hat . Он состоит из двух частей: SoM , на котором расположены SoC и 8 GB RAM (2x4 GB, так как у AX650N два отдельных DDR-контроллера) , и baseboard от Sipeed с минимальным количеством интерфейсов. Скромность интерфейсов объясняется просто: baseboard — это HAT для Raspberry Pi 5, подключающийся по PCIe 2.0. В такой конфигурации AX650N работает как внешний ML-ускоритель, аналогично Hailo . В рамках этой и последующих статей я буду использовать Maix4 Hat как самостоятельный микрокомпьютер.
https://habr.com/ru/articles/1035776/
#Axera #NPU #VLM #llm #embedded #cnn #нейросети #sipeed #электроника #компьютерное_зрение
-
Axera AX650N: архитектура Edge ML SoC под CNN, LLM и VLM
Большинство задач современной робототехники так или иначе завязаны на нейронных сетях: детекция объектов, оценка глубины, локализация, планирование. Всё это ресурсоёмко, и вопрос выбора компактного вычислителя (достаточно часто алгоритмы должны работать локально) встает довольно остро. На практике выбор сводится к трём классам устройств: NVIDIA Jetson , внешний ускоритель (один из самых популярных — Hailo) и китайский (не всегда, конечно, но в современных реалиях обычно китайский) SoC с интегрированным NPU. В этой статье я рассмотрю представителя третьего класса — Axera AX650N , а NVIDIA Jetson будет использоваться для сравнения, так как это единственное массовое edge-решение с универсальными вычислительными ядрами (CUDA) . Это первая часть цикла. Здесь я разберу аппаратную архитектуру самого AX650N — CPU, NPU, DSP, ISP, память — и поделюсь результатами первых тестов: YOLO, Depth Anything, SuperPoint и мультимодальный Qwen3. Подробные бенчмарки и сравнения — во второй части. Я тестировал AX650N в рамках готового устройства от Sipeed — Maix4 Hat . Он состоит из двух частей: SoM , на котором расположены SoC и 8 GB RAM (2x4 GB, так как у AX650N два отдельных DDR-контроллера) , и baseboard от Sipeed с минимальным количеством интерфейсов. Скромность интерфейсов объясняется просто: baseboard — это HAT для Raspberry Pi 5, подключающийся по PCIe 2.0. В такой конфигурации AX650N работает как внешний ML-ускоритель, аналогично Hailo . В рамках этой и последующих статей я буду использовать Maix4 Hat как самостоятельный микрокомпьютер.
https://habr.com/ru/articles/1035776/
#Axera #NPU #VLM #llm #embedded #cnn #нейросети #sipeed #электроника #компьютерное_зрение
-
Axera AX650N: архитектура Edge ML SoC под CNN, LLM и VLM
Большинство задач современной робототехники так или иначе завязаны на нейронных сетях: детекция объектов, оценка глубины, локализация, планирование. Всё это ресурсоёмко, и вопрос выбора компактного вычислителя (достаточно часто алгоритмы должны работать локально) встает довольно остро. На практике выбор сводится к трём классам устройств: NVIDIA Jetson , внешний ускоритель (один из самых популярных — Hailo) и китайский (не всегда, конечно, но в современных реалиях обычно китайский) SoC с интегрированным NPU. В этой статье я рассмотрю представителя третьего класса — Axera AX650N , а NVIDIA Jetson будет использоваться для сравнения, так как это единственное массовое edge-решение с универсальными вычислительными ядрами (CUDA) . Это первая часть цикла. Здесь я разберу аппаратную архитектуру самого AX650N — CPU, NPU, DSP, ISP, память — и поделюсь результатами первых тестов: YOLO, Depth Anything, SuperPoint и мультимодальный Qwen3. Подробные бенчмарки и сравнения — во второй части. Я тестировал AX650N в рамках готового устройства от Sipeed — Maix4 Hat . Он состоит из двух частей: SoM , на котором расположены SoC и 8 GB RAM (2x4 GB, так как у AX650N два отдельных DDR-контроллера) , и baseboard от Sipeed с минимальным количеством интерфейсов. Скромность интерфейсов объясняется просто: baseboard — это HAT для Raspberry Pi 5, подключающийся по PCIe 2.0. В такой конфигурации AX650N работает как внешний ML-ускоритель, аналогично Hailo . В рамках этой и последующих статей я буду использовать Maix4 Hat как самостоятельный микрокомпьютер.
https://habr.com/ru/articles/1035776/
#Axera #NPU #VLM #llm #embedded #cnn #нейросети #sipeed #электроника #компьютерное_зрение
-
Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....
-
Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....
-
Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....
-
Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....
-
Is there a FOSS model that does #OCR using #VLM #LLM machine vision learning tricks to get text of tricky docs where #tesseract fails? Using #apitokens to get #chatgpt & co to do it is stomach-turning....
-
Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.
Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.
8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.
Detaylı yazı + VRAM önerileri:
https://webbrain.one/blogGitHub'da ⭐ atarsanız çok seviniriz 🙏
https://github.com/esokullu/webbrain -
Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.
Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.
8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.
Detaylı yazı + VRAM önerileri:
https://webbrain.one/blogGitHub'da ⭐ atarsanız çok seviniriz 🙏
https://github.com/esokullu/webbrain -
Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.
Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.
8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.
Detaylı yazı + VRAM önerileri:
https://webbrain.one/blogGitHub'da ⭐ atarsanız çok seviniriz 🙏
https://github.com/esokullu/webbrain -
Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.
Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.
8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.
Detaylı yazı + VRAM önerileri:
https://webbrain.one/blogGitHub'da ⭐ atarsanız çok seviniriz 🙏
https://github.com/esokullu/webbrain -
Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.
Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.
8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.
Detaylı yazı + VRAM önerileri:
https://webbrain.one/blogGitHub'da ⭐ atarsanız çok seviniriz 🙏
https://github.com/esokullu/webbrain -
Робот, способный создать себя сам. Режим «Инженера» в робототехнике
Скажите роботу «настрой манипулятор» — и он напишет драйвер сам. Звучит как фантастика из тех самых фильмов 80-х и 90-х, но мы уже реализовали это в OpenGrall. Рассказываю, как работает режим Инженера и почему последнее слово всегда остаётся за человеком
https://habr.com/ru/articles/1030526/
#LLM #VLM #робототехника #OpenGrall #ИИ #Python #WebSocket #YandexGPT #DeepSeek #самокодинг
-
Робот, способный создать себя сам. Режим «Инженера» в робототехнике
Скажите роботу «настрой манипулятор» — и он напишет драйвер сам. Звучит как фантастика из тех самых фильмов 80-х и 90-х, но мы уже реализовали это в OpenGrall. Рассказываю, как работает режим Инженера и почему последнее слово всегда остаётся за человеком
https://habr.com/ru/articles/1030526/
#LLM #VLM #робототехника #OpenGrall #ИИ #Python #WebSocket #YandexGPT #DeepSeek #самокодинг
-
Робот, способный создать себя сам. Режим «Инженера» в робототехнике
Скажите роботу «настрой манипулятор» — и он напишет драйвер сам. Звучит как фантастика из тех самых фильмов 80-х и 90-х, но мы уже реализовали это в OpenGrall. Рассказываю, как работает режим Инженера и почему последнее слово всегда остаётся за человеком
https://habr.com/ru/articles/1030526/
#LLM #VLM #робототехника #OpenGrall #ИИ #Python #WebSocket #YandexGPT #DeepSeek #самокодинг
-
Робот, способный создать себя сам. Режим «Инженера» в робототехнике
Скажите роботу «настрой манипулятор» — и он напишет драйвер сам. Звучит как фантастика из тех самых фильмов 80-х и 90-х, но мы уже реализовали это в OpenGrall. Рассказываю, как работает режим Инженера и почему последнее слово всегда остаётся за человеком
https://habr.com/ru/articles/1030526/
#LLM #VLM #робототехника #OpenGrall #ИИ #Python #WebSocket #YandexGPT #DeepSeek #самокодинг
-
Робот, способный создать себя сам. Режим «Инженера» в робототехнике Скажите роботу «настрой манипулятор» ...
#LLM #VLM #робототехника #OpenGrall #ИИ #Python #WebSocket #YandexGPT #DeepSeek #самокодинг
Origin | Interest | Match -
z.ai GLM 5.1: Как я научил слепую модель видеть
Если у вас есть неограниченный доступ к фронтир моделям (Calude, Codex и т.д.), то эта статья не для вас. Сегодня доступны отличные недорогие модели для кодинга и архитектуры. Например, GLM-5.1 (реферальная ссылка +10% бонус на пополнение) умеет генерировать, рефакторить, отлаживать код, строить архитектуру – в десятки раз дешевле фронтит моделей или вообще бесплатно при локальном развёртывании. Но у всех таких моделей часто есть общая слепая зона: они не видят результат своей работы . В этой статье я рассказываю, как "научить модель видеть".
https://habr.com/ru/articles/1029682/
#MCP #vision #VLM #qwen3vl #Ollama #кодингагент #тестирование #скриншот #opensource #prompttuning
-
z.ai GLM 5.1: Как я научил слепую модель видеть
Если у вас есть неограниченный доступ к фронтир моделям (Calude, Codex и т.д.), то эта статья не для вас. Сегодня доступны отличные недорогие модели для кодинга и архитектуры. Например, GLM-5.1 (реферальная ссылка +10% бонус на пополнение) умеет генерировать, рефакторить, отлаживать код, строить архитектуру – в десятки раз дешевле фронтит моделей или вообще бесплатно при локальном развёртывании. Но у всех таких моделей часто есть общая слепая зона: они не видят результат своей работы . В этой статье я рассказываю, как "научить модель видеть".
https://habr.com/ru/articles/1029682/
#MCP #vision #VLM #qwen3vl #Ollama #кодингагент #тестирование #скриншот #opensource #prompttuning
-
z.ai GLM 5.1: Как я научил слепую модель видеть
Если у вас есть неограниченный доступ к фронтир моделям (Calude, Codex и т.д.), то эта статья не для вас. Сегодня доступны отличные недорогие модели для кодинга и архитектуры. Например, GLM-5.1 (реферальная ссылка +10% бонус на пополнение) умеет генерировать, рефакторить, отлаживать код, строить архитектуру – в десятки раз дешевле фронтит моделей или вообще бесплатно при локальном развёртывании. Но у всех таких моделей часто есть общая слепая зона: они не видят результат своей работы . В этой статье я рассказываю, как "научить модель видеть".
https://habr.com/ru/articles/1029682/
#MCP #vision #VLM #qwen3vl #Ollama #кодингагент #тестирование #скриншот #opensource #prompttuning
-
z.ai GLM 5.1: Как я научил слепую модель видеть
Если у вас есть неограниченный доступ к фронтир моделям (Calude, Codex и т.д.), то эта статья не для вас. Сегодня доступны отличные недорогие модели для кодинга и архитектуры. Например, GLM-5.1 (реферальная ссылка +10% бонус на пополнение) умеет генерировать, рефакторить, отлаживать код, строить архитектуру – в десятки раз дешевле фронтит моделей или вообще бесплатно при локальном развёртывании. Но у всех таких моделей часто есть общая слепая зона: они не видят результат своей работы . В этой статье я рассказываю, как "научить модель видеть".
https://habr.com/ru/articles/1029682/
#MCP #vision #VLM #qwen3vl #Ollama #кодингагент #тестирование #скриншот #opensource #prompttuning
-
Как гибрид IDP и VLM экономит миллионы на верификации данных
Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах. В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом , когда VLM усиливает IDP-решения. В этот раз мы проверили гипотезу: пусть VLM не распознает документ с нуля, а проверяет черновик из IDP-системы и исправляет ошибки, опираясь на исходное изображение. Базовым OCR движком выступила наша платформа ContentCapture. Практическая цель эксперимента — автоматизировать верификацию документов. Сейчас в крупных компаниях сотни операторов вручную сверяют распознанные данные с оригиналами.
-
Как гибрид IDP и VLM экономит миллионы на верификации данных
Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах. В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом , когда VLM усиливает IDP-решения. В этот раз мы проверили гипотезу: пусть VLM не распознает документ с нуля, а проверяет черновик из IDP-системы и исправляет ошибки, опираясь на исходное изображение. Базовым OCR движком выступила наша платформа ContentCapture. Практическая цель эксперимента — автоматизировать верификацию документов. Сейчас в крупных компаниях сотни операторов вручную сверяют распознанные данные с оригиналами.
-
Как гибрид IDP и VLM экономит миллионы на верификации данных
Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах. В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом , когда VLM усиливает IDP-решения. В этот раз мы проверили гипотезу: пусть VLM не распознает документ с нуля, а проверяет черновик из IDP-системы и исправляет ошибки, опираясь на исходное изображение. Базовым OCR движком выступила наша платформа ContentCapture. Практическая цель эксперимента — автоматизировать верификацию документов. Сейчас в крупных компаниях сотни операторов вручную сверяют распознанные данные с оригиналами.
-
Как гибрид IDP и VLM экономит миллионы на верификации данных
Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах. В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом , когда VLM усиливает IDP-решения. В этот раз мы проверили гипотезу: пусть VLM не распознает документ с нуля, а проверяет черновик из IDP-системы и исправляет ошибки, опираясь на исходное изображение. Базовым OCR движком выступила наша платформа ContentCapture. Практическая цель эксперимента — автоматизировать верификацию документов. Сейчас в крупных компаниях сотни операторов вручную сверяют распознанные данные с оригиналами.
-
WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции
Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто! В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!
https://habr.com/ru/companies/airi/articles/1018010/
#WACV_2026 #Computer_Vision #Машинное_обучение #Искусственный_интеллект #Конференции #Vision_Encoders #Deep_Learning #Интерпретируемость_нейросетей #VLM
-
WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции
Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто! В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!
https://habr.com/ru/companies/airi/articles/1018010/
#WACV_2026 #Computer_Vision #Машинное_обучение #Искусственный_интеллект #Конференции #Vision_Encoders #Deep_Learning #Интерпретируемость_нейросетей #VLM
-
WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции
Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто! В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!
https://habr.com/ru/companies/airi/articles/1018010/
#WACV_2026 #Computer_Vision #Машинное_обучение #Искусственный_интеллект #Конференции #Vision_Encoders #Deep_Learning #Интерпретируемость_нейросетей #VLM
-
WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции
Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто! В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!
https://habr.com/ru/companies/airi/articles/1018010/
#WACV_2026 #Computer_Vision #Машинное_обучение #Искусственный_интеллект #Конференции #Vision_Encoders #Deep_Learning #Интерпретируемость_нейросетей #VLM
-
手書き・チェック・丸印も認識できる?OCI Generative AI の VLM で伝票を読ませてみた
https://qiita.com/engchina/items/7accb885f62d28b67a88?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items -
手書き・チェック・丸印も認識できる?OCI Generative AI の VLM で伝票を読ませてみた
https://qiita.com/engchina/items/7accb885f62d28b67a88?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items -
RE: https://mastodon.social/@xlth/116144192667591833
Not the ideal conditions for geospatial applications of VLMs 😅
#GIScience #VLM #spatiotemporal #MobilityDataScience #SpatialDataScience
-
RE: https://mastodon.social/@xlth/116144192667591833
Not the ideal conditions for geospatial applications of VLMs 😅
#GIScience #VLM #spatiotemporal #MobilityDataScience #SpatialDataScience
-
RE: https://mastodon.social/@xlth/116144192667591833
Not the ideal conditions for geospatial applications of VLMs 😅
#GIScience #VLM #spatiotemporal #MobilityDataScience #SpatialDataScience