#gemini-2-5 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #gemini-2-5, aggregated by home.social.
-
Chińskiej ofensywy ciąg dalszy. Baidu ERNIE 4.5 pokonuje GPT-5 i Gemini w analizie obrazu i wideo
Zaledwie wczoraj informowaliśmy o chińskim modelu Kimi K2, który rzucił wyzwanie liderom z USA. Dziś do gry wchodzi waga ciężka.
Technologiczny gigant Baidu zaprezentował model ERNIE-4.5-VL-28B-A3B-Thinking, który w kluczowych benchmarkach multimodalnych wyprzedza zarówno GPT-5, jak i Gemini 2.5.
Mistrz wykresów i schematów
O ile Kimi K2 skupiał się na rozumowaniu, nowy ERNIE 4.5 to specjalista od „patrzenia”. Jest to model multimodalny, zaprojektowany specjalnie do pracy z trudnymi danymi biznesowymi: schematami inżynieryjnymi, nagraniami z fabryk czy skanami medycznymi.
Wyniki w benchmarkach są imponujące. W teście ChartQA (analiza wykresów) ERNIE uzyskał 87.1 pkt, deklasując Gemini 2.5 Pro (76.3) i GPT-5-High (78.2). Wygrał również w teście matematycznym MathVista (82.5 vs 82.3 u Gemini i 81.3 u GPT-5).
Widzi, rozumie i… klika
To, co wyróżnia ten model, to podejście „agentowe”. ERNIE nie tylko opisuje obrazek, ale potrafi działać:
- Rozumie schematy: potrafi rozwiązać diagram obwodu mostkowego, stosując prawa Ohma i Kirchhoffa.
- Generuje dane: zapytany o ludzi w garniturach na zdjęciu, może zwrócić ich dokładne współrzędne w formacie JSON – idealne do systemów bezpieczeństwa czy inspekcji wizualnej.
- Używa narzędzi: jeśli tekst na zdjęciu jest za mały, model autonomicznie „przybliża” obraz, by go odczytać.
Potężny, ale wymagający
Baidu zastosowało architekturę Mixture-of-Experts (MoE). Choć model jest potężny, podczas pracy aktywuje zaledwie 3 miliardy parametrów, co obniża koszty operacyjne (tzw. inferencję).
Jest jednak haczyk sprzętowy. Aby wdrożyć to rozwiązanie we własnej firmie (single-card deployment), potrzebujesz karty graficznej z aż 80 GB pamięci VRAM. Nie jest to więc narzędzie do domowych eksperymentów, ale dla firm posiadających infrastrukturę AI. Na osłodę: Baidu udostępnia model na licencji Apache 2.0, co pozwala na jego komercyjne wykorzystanie.
Chiński startup pobił GPT-5 i Claude 4.5. Model AI trenowano za ułamek ceny
#aiSi #analizaObrazu #baidu #benchmark #chiny #ernie45 #gemini25 #gpt5 #news #sztucznaInteligencja
-
Gemini Live uczy się aktorstwa. Możesz kazać mu mówić szybciej, wolniej albo z akcentem kowboja
Rozmowy z asystentem AI stają się coraz bardziej naturalne, a teraz także… teatralne.
Google wdraża właśnie aktualizację dla Gemini Live na Androida i iOS, która czyni asystenta znacznie bardziej „adaptacyjnym i ekspresyjnym”.
Dzięki nowym modelom AI znacznie lepiej rozumie niuanse ludzkiej mowy i potrafi dynamicznie dostosować swój styl wypowiedzi.
„Mów szybciej!”
Praktyczną nowością jest kontrola tempa. Możesz teraz powiedzieć do Gemini: „Mów szybciej”, jeśli chcesz błyskawicznego streszczenia tematu, albo „Mów wolniej”, co może być nieocenione np. podczas nauki języków obcych.
AI z akcentem
Google dodało też element zabawy. Gemini Live potrafi teraz naśladować różne akcenty i style mowy na życzenie. Google podaje przykłady:
- Możesz poprosić o przepis na niedzielną pieczeń mówiony z brytyjskim akcentem Cockney.
- Albo przeprowadzić burzę mózgów na temat imprezy, rozmawiając z AI udającym kowboja.
- Lub poprosić o lekcję historii o Rzymie z perspektywy (i głosem) samego Juliusza Cezara.
Te zmiany stylu obowiązują przez czas trwania danej rozmowy. Aktualizacja jest już udostępniana użytkownikom na Androidzie i iOS. Uwaga: funkcje te (zwłaszcza te dotyczące konkretnych akcentów i stylów mówienia) są wdrażane przede wszystkim dla języka angielskiego. W języku polskim ich dostępność może być na razie ograniczona. Niemniej biorąc pod uwagę, że dziś Gemini Live może w Polsce, po polsku mówić różnymi głosami, kwestia dodania stosownych akcentów (wyobraźcie sobie Gemini gadające akcentem z Podlasia) również dla języka polskiego wydaje się prawdopodobna.
Gemini recenzuje ChatGPT: „To skorumpowany, sfabrykowany bałagan”
#aiSi #aktualizacja #android #asystentGlosowy #gemini25 #geminiLive #google #ios #news
-
Google's latest AI breakthrough enables direct software interaction without APIs 🤖 Experience how Gemini 2.5 navigates web interfaces, fills forms, and handles real-world tasks just like a human would ⚡️ Read more about this groundbreaking development and its safety features.
#Gemini25 #GoogleAI #ArtificialIntelligence #TechNews #AIautomation
-
Google introduces Gemini 2.5 Computer Use model to automate web and mobile interfaces
https://web.brid.gy/r/https://nerds.xyz/2025/10/gemini-25-computer-use-model/
-
💡 Il modello AI Gemini 2.5 Flash Image permette l’editing fotografico
https://gomoot.com/il-modello-ai-gemini-2-5-flash-image-permette-lediting-fotografico
#blog #flashimage #gemini25 #nanobanana #news #picks #tech #tecnologia
-
Google Search AI Mode now rolling out in Malaysia, powered by Gemini 2.5 #aimode #gemini #gemini25 #google #googlegemini #googlesearch #googlesearchaimode #misc
-
We're expanding our Gemini 2.5 family of models
https://blog.google/products/gemini/gemini-2-5-model-family-expands/
-
Gemini 2.5: Google erweitert Audio-Funktionen seiner KI-Plattform
Google stellt mit Gemini 2.5 die neueste Version seiner KI-Plattform vor. Im Fokus stehen Fortschritte in der Verarbeitung und Generierung von Audioinhalten. Die multimodale KI
https://www.apfeltalk.de/magazin/news/gemini-2-5-google-erweitert-audio-funktionen-seiner-ki-plattform/
#News #Tellerrand #AudioVerarbeitung #Gemini25 #Google #GoogleAIStudio #KI #KnstlicheIntelligenz #MultimodaleKI #SynthID #TexttoSpeech #VertexAI -
Har Gemini Pro genom jobbet, jag skriver alltid på svenska men den envisas alltid med att svara på norska. Det är väl helt OK då jag gärna exponeras mer till norska - men varför? Min profil har "engelska (sverige)" som språkval.
Jag tror bestämt det är den lilla notisen nere till vänster som säger att den lokaliserat mig till Norge... Relevant: https://vitonsky.net/blog/2025/05/17/language-detection/
Den går så långt att den till och med citerar mig översatt till norska!
-
💡 Google AI Mode: come cambia la ricerca e l’esperienza web
https://gomoot.com/google-ai-mode-come-cambia-la-ricerca-e-lesperienza-web
#agenti #agentiai #ai #aimode #aioverviews #blog #deepresearch #gemini #gemini25 #google #ia #news #openai #picks #search #tech #tecnologia
-
"That is the nature of the Jagged Frontier. In some tasks, AI is unreliable. In others, it is superhuman"
https://www.oneusefulthing.org/p/on-jagged-agi-o3-gemini-25-and-everything
#AI #AGI #Gemini25 #o3 -
What the "best" model is, really depends on your context and application. Benchmarks don't tell the whole story, are gamed etc. Still this benchmark about hallucinations is interesting because it shows that the one of the best current models, OpenAI o3 has a terrible score, 6,8% hallucination rate, quite terrible if you think about it. Gemini 2.5 is much better (1,1%).
Always check outcomes of any model...
https://github.com/vectara/hallucination-leaderboard
#AI #Hallucinations #OpenAI #o3 #Google #Gemini25 -
Jagged AGI: o3, Gemini 2.5, and everything after
https://www.oneusefulthing.org/p/on-jagged-agi-o3-gemini-25-and-everything
#HackerNews #JaggedAGI #o3 #Gemini25 #AItechnology #futureofAI
-
Interesting, i asked GPT-4o, o3, Gemini 2.5, Claude 3,7, at how many points lines crossed in the image below. GPT-4o said 5, o3 took 2 minutes, but gave the correct answer 8 and it used python code.
Gemini 2.5 answered quickly but failed , it answered 4.
Claude 3.7 also gave the correct answer and quickly.
#openai #google #testing #AI #o3 #gemini25 #claude -
OpenAI o3 is far from AGI but especially because of it's web access when answering a query, it has become a very good assistant for answering various questions. It has a lot of added value for me. Gemini 2.5 is just as good but i don't have a paid account there so there are limits on queries.
Remember, never use private, confidential, company or organisational data (unless public) and always always check outcomes when you are going to use these for something else.
#AI #o3 #Gemini25 -
🤖 AI
🔴 Gemini 2.5 Pro: Google’s AI Gets “Good Vibes”🔸 Faster, more factual & engaging than earlier Gemini models.
🔸 Uses “Dynamic Thinking” to avoid overthinking simple prompts.
🔸 Ranks top on LM Arena; aims to match ChatGPT’s appeal.
🔸 Transparency still lacking: no model card or technical report yet.#Google #Gemini #AI #LLM #DynamicThinking #ChatGPT #Vibes #Gemini25 #GoogleAI #OpenAI
-
Google rolls out Gemini 2.5 Pro Experimental to all Gemini users, after initially launching it for Gemini Advanced subscribers on March 25. Exciting updates ahead! 🚀 #Google #Gemini #AI #TechNews #Innovation #MachineLearning #AIUpdates #Gemini25
-
Gemini 2.5: Google DeepMind prezentuje najbardziej zaawansowany model AI z funkcją myślenia
Google DeepMind ogłosił wprowadzenie Gemini 2.5, swojego najnowszego i najbardziej inteligentnego modelu sztucznej inteligencji, który wyróżnia się zdolnością do rozumowania.
Pierwszą wersją jest Gemini 2.5 Pro Experimental, dostępny od 25 marca w Google AI Studio, który osiąga rekordowe wyniki w szeregu benchmarków, takich jak GPQA i AIME 2025, przewyższając inne modele w zadaniach wymagających zaawansowanego myślenia, w tym w matematyce i naukach ścisłych.
Gemini 2.5 to tzw. „model myślący” – przed udzieleniem odpowiedzi analizuje problem krok po kroku, naśladując ludzki proces rozumowania. Dzięki temu potrafi rozkładać złożone zagadnienia na części, rozważać różne rozwiązania i wybierać najlepsze, co przekłada się na wyższą dokładność i lepsze wyniki. Model osiągnął m.in. 18,8% w teście Humanity’s Last Exam, zaprojektowanym przez ekspertów do oceny granic ludzkiej wiedzy i logiki, ustanawiając nowy standard w tej kategorii.
Szczególną uwagę zwrócono na zdolności kodowania Gemini 2.5 Pro. Model ma się ponoć bardzo dobrze sprawdzać również w tworzeniu atrakcyjnych wizualnie aplikacji webowych, programowaniu agentów AI oraz edycji i transformacji kodu.Przykładem jest szybkie stworzenie gry „dino run” z animowanym dinozaurem i przeszkodami, co pokazuje jego potencjał w praktycznych zastosowaniach. Tak, to ta gra, którą użytkownicy Google mogą pograć, gdy na ich urządzeniach nie jest dostępny internet.
Użytkownicy Gemini Advanced mogą już testować model na desktopie i urządzeniach mobilnych, wybierając go z menu, a wkrótce pojawi się na platformie Vertex AI Google Cloud.
Google DeepMind podkreśla, że Gemini 2.5 to krok w stronę bardziej pomocnych i intuicyjnych systemów AI. Model opiera się na multimodalnych fundamentach Gemini, oferując natywne wsparcie dla tekstu i długich kontekstów, a w przyszłości planowane są kolejne ulepszenia, w tym obsługa dodatkowych modalności, jak obraz czy dźwięk.
Firma zachęca deweloperów i przedsiębiorstwa do eksperymentowania z modelem w Google AI Studio, gdzie jest dostępny za darmo w ramach limitów. Rozwój Gemini 2.5 to także odpowiedź na oczekiwania użytkowników po sukcesie wcześniejszych modeli, takich jak 2.0 Flash Thinking Experimental. Google DeepMind zapowiada dalsze inwestycje w „myślące modele”, które mają zrewolucjonizować sposób, w jaki AI wspiera ludzi w rozwiązywaniu problemów – od codziennych zadań po przełomowe odkrycia naukowe. Więcej szczegółów na blogu Google.
-
🤖 AI
🔴 Google’s Gemini 2.5 Pro Raises the Bar
🔸 Beats o3-mini, Grok & DeepSeek in chatbot rankings.
🔸 Fast, accurate & intuitive on coding, math, and science.
🔸 Context window 5x larger than rivals—2M token upgrade coming.
🔸 Now in mobile & web; 50 free messages/day before pricing update.#Gemini25 #GoogleAI #Chatbots #AIModels #LLM #OpenAI #GeminiPro #VertexAI
-
Gemini 2.5 solved this connections puzzle flawlessly, impressive.ChatGPT 4o failed !
#AI #NYT #connections #gemini25 #chatgpt -
Good analysis by "AI explained"
https://youtu.be/Y9mVlNwj_ic?si=iRWg8lUWyTgc11BP
#AI #Gemini25 #Deepseek #Microsoft #OpenAI -
Google Unveils Gemini 2.5: How It Stacks Up Against Models from OpenAI, xAI, Anthropic and DeepSeek
#AI #Google #GeminiAI #Gemini25 #AIModels #AIReasoning #MultimodalAI #LongContextAI #GenAI #Alphabet