#tuna2 — Public Fediverse posts on home.social

Andreas Becker @[email protected] · 2026-05-04 · 07:37 UTC

Meta AI veröffentlicht das multimodale Modell Tuna-2, das Bildinhalte ohne klassische Vision-Encoder verarbeitet.

Die Architektur liest rohe Pixel direkt über Patch-Embeddings ein und umgeht VAE-Module. Beim OCRBench zeigt Tuna-2 bessere Werte als vergleichbare Systeme. Das Training zwingt Transformer-Decoder durch das Verdecken von Bildbereichen zur eigenständigen Erkennung visueller Strukturen.

#MetaAI #Tuna2 #MultimodalAI #LLM #AIGeneratedImage

https://www.all-ai.de/news/news26/meta-tuna2-neu

#metaai #tuna2 #multimodalai #llm #aigeneratedimage

Andreas Becker @[email protected] · 2026-05-04 · 07:37 UTC

Meta AI veröffentlicht das multimodale Modell Tuna-2, das Bildinhalte ohne klassische Vision-Encoder verarbeitet.

Die Architektur liest rohe Pixel direkt über Patch-Embeddings ein und umgeht VAE-Module. Beim OCRBench zeigt Tuna-2 bessere Werte als vergleichbare Systeme. Das Training zwingt Transformer-Decoder durch das Verdecken von Bildbereichen zur eigenständigen Erkennung visueller Strukturen.

#MetaAI #Tuna2 #MultimodalAI #LLM #AIGeneratedImage

https://www.all-ai.de/news/news26/meta-tuna2-neu

#metaai #tuna2 #multimodalai #llm #aigeneratedimage

Andreas Becker @[email protected] · 2026-05-04 · 07:37 UTC

Meta AI veröffentlicht das multimodale Modell Tuna-2, das Bildinhalte ohne klassische Vision-Encoder verarbeitet.

Die Architektur liest rohe Pixel direkt über Patch-Embeddings ein und umgeht VAE-Module. Beim OCRBench zeigt Tuna-2 bessere Werte als vergleichbare Systeme. Das Training zwingt Transformer-Decoder durch das Verdecken von Bildbereichen zur eigenständigen Erkennung visueller Strukturen.

#MetaAI #Tuna2 #MultimodalAI #LLM #AIGeneratedImage

https://www.all-ai.de/news/news26/meta-tuna2-neu

#metaai #tuna2 #multimodalai #llm #aigeneratedimage

Andreas Becker @[email protected] · 2026-05-04 · 07:37 UTC

Meta AI veröffentlicht das multimodale Modell Tuna-2, das Bildinhalte ohne klassische Vision-Encoder verarbeitet.

Die Architektur liest rohe Pixel direkt über Patch-Embeddings ein und umgeht VAE-Module. Beim OCRBench zeigt Tuna-2 bessere Werte als vergleichbare Systeme. Das Training zwingt Transformer-Decoder durch das Verdecken von Bildbereichen zur eigenständigen Erkennung visueller Strukturen.

#MetaAI #Tuna2 #MultimodalAI #LLM #AIGeneratedImage

https://www.all-ai.de/news/news26/meta-tuna2-neu

#aigeneratedimage #llm #multimodalai #tuna2 #metaai

Andreas Becker @[email protected] · 2026-05-04 · 07:37 UTC

Meta AI veröffentlicht das multimodale Modell Tuna-2, das Bildinhalte ohne klassische Vision-Encoder verarbeitet.

Die Architektur liest rohe Pixel direkt über Patch-Embeddings ein und umgeht VAE-Module. Beim OCRBench zeigt Tuna-2 bessere Werte als vergleichbare Systeme. Das Training zwingt Transformer-Decoder durch das Verdecken von Bildbereichen zur eigenständigen Erkennung visueller Strukturen.

#MetaAI #Tuna2 #MultimodalAI #LLM #AIGeneratedImage

https://www.all-ai.de/news/news26/meta-tuna2-neu

#metaai #tuna2 #multimodalai #llm #aigeneratedimage