#gemini25 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #gemini25, aggregated by home.social.
-
Chińskiej ofensywy ciąg dalszy. Baidu ERNIE 4.5 pokonuje GPT-5 i Gemini w analizie obrazu i wideo
Zaledwie wczoraj informowaliśmy o chińskim modelu Kimi K2, który rzucił wyzwanie liderom z USA. Dziś do gry wchodzi waga ciężka.
Technologiczny gigant Baidu zaprezentował model ERNIE-4.5-VL-28B-A3B-Thinking, który w kluczowych benchmarkach multimodalnych wyprzedza zarówno GPT-5, jak i Gemini 2.5.
Mistrz wykresów i schematów
O ile Kimi K2 skupiał się na rozumowaniu, nowy ERNIE 4.5 to specjalista od „patrzenia”. Jest to model multimodalny, zaprojektowany specjalnie do pracy z trudnymi danymi biznesowymi: schematami inżynieryjnymi, nagraniami z fabryk czy skanami medycznymi.
Wyniki w benchmarkach są imponujące. W teście ChartQA (analiza wykresów) ERNIE uzyskał 87.1 pkt, deklasując Gemini 2.5 Pro (76.3) i GPT-5-High (78.2). Wygrał również w teście matematycznym MathVista (82.5 vs 82.3 u Gemini i 81.3 u GPT-5).
Widzi, rozumie i… klika
To, co wyróżnia ten model, to podejście „agentowe”. ERNIE nie tylko opisuje obrazek, ale potrafi działać:
- Rozumie schematy: potrafi rozwiązać diagram obwodu mostkowego, stosując prawa Ohma i Kirchhoffa.
- Generuje dane: zapytany o ludzi w garniturach na zdjęciu, może zwrócić ich dokładne współrzędne w formacie JSON – idealne do systemów bezpieczeństwa czy inspekcji wizualnej.
- Używa narzędzi: jeśli tekst na zdjęciu jest za mały, model autonomicznie „przybliża” obraz, by go odczytać.
Potężny, ale wymagający
Baidu zastosowało architekturę Mixture-of-Experts (MoE). Choć model jest potężny, podczas pracy aktywuje zaledwie 3 miliardy parametrów, co obniża koszty operacyjne (tzw. inferencję).
Jest jednak haczyk sprzętowy. Aby wdrożyć to rozwiązanie we własnej firmie (single-card deployment), potrzebujesz karty graficznej z aż 80 GB pamięci VRAM. Nie jest to więc narzędzie do domowych eksperymentów, ale dla firm posiadających infrastrukturę AI. Na osłodę: Baidu udostępnia model na licencji Apache 2.0, co pozwala na jego komercyjne wykorzystanie.
Chiński startup pobił GPT-5 i Claude 4.5. Model AI trenowano za ułamek ceny
#aiSi #analizaObrazu #baidu #benchmark #chiny #ernie45 #gemini25 #gpt5 #news #sztucznaInteligencja
-
Gemini Live uczy się aktorstwa. Możesz kazać mu mówić szybciej, wolniej albo z akcentem kowboja
Rozmowy z asystentem AI stają się coraz bardziej naturalne, a teraz także… teatralne.
Google wdraża właśnie aktualizację dla Gemini Live na Androida i iOS, która czyni asystenta znacznie bardziej „adaptacyjnym i ekspresyjnym”.
Dzięki nowym modelom AI znacznie lepiej rozumie niuanse ludzkiej mowy i potrafi dynamicznie dostosować swój styl wypowiedzi.
„Mów szybciej!”
Praktyczną nowością jest kontrola tempa. Możesz teraz powiedzieć do Gemini: „Mów szybciej”, jeśli chcesz błyskawicznego streszczenia tematu, albo „Mów wolniej”, co może być nieocenione np. podczas nauki języków obcych.
AI z akcentem
Google dodało też element zabawy. Gemini Live potrafi teraz naśladować różne akcenty i style mowy na życzenie. Google podaje przykłady:
- Możesz poprosić o przepis na niedzielną pieczeń mówiony z brytyjskim akcentem Cockney.
- Albo przeprowadzić burzę mózgów na temat imprezy, rozmawiając z AI udającym kowboja.
- Lub poprosić o lekcję historii o Rzymie z perspektywy (i głosem) samego Juliusza Cezara.
Te zmiany stylu obowiązują przez czas trwania danej rozmowy. Aktualizacja jest już udostępniana użytkownikom na Androidzie i iOS. Uwaga: funkcje te (zwłaszcza te dotyczące konkretnych akcentów i stylów mówienia) są wdrażane przede wszystkim dla języka angielskiego. W języku polskim ich dostępność może być na razie ograniczona. Niemniej biorąc pod uwagę, że dziś Gemini Live może w Polsce, po polsku mówić różnymi głosami, kwestia dodania stosownych akcentów (wyobraźcie sobie Gemini gadające akcentem z Podlasia) również dla języka polskiego wydaje się prawdopodobna.
Gemini recenzuje ChatGPT: „To skorumpowany, sfabrykowany bałagan”
#aiSi #aktualizacja #android #asystentGlosowy #gemini25 #geminiLive #google #ios #news
-
Google introduces Gemini 2.5 Computer Use model to automate web and mobile interfaces
https://web.brid.gy/r/https://nerds.xyz/2025/10/gemini-25-computer-use-model/
-
💡 Google AI Mode: come cambia la ricerca e l’esperienza web
https://gomoot.com/google-ai-mode-come-cambia-la-ricerca-e-lesperienza-web
#agenti #agentiai #ai #aimode #aioverviews #blog #deepresearch #gemini #gemini25 #google #ia #news #openai #picks #search #tech #tecnologia
-
Google Unveils Gemini 2.5: How It Stacks Up Against Models from OpenAI, xAI, Anthropic and DeepSeek
#AI #Google #GeminiAI #Gemini25 #AIModels #AIReasoning #MultimodalAI #LongContextAI #GenAI #Alphabet