home.social

#gemini-2-5 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #gemini-2-5, aggregated by home.social.

fetched live
  1. Chińskiej ofensywy ciąg dalszy. Baidu ERNIE 4.5 pokonuje GPT-5 i Gemini w analizie obrazu i wideo

    Zaledwie wczoraj informowaliśmy o chińskim modelu Kimi K2, który rzucił wyzwanie liderom z USA. Dziś do gry wchodzi waga ciężka.

    Technologiczny gigant Baidu zaprezentował model ERNIE-4.5-VL-28B-A3B-Thinking, który w kluczowych benchmarkach multimodalnych wyprzedza zarówno GPT-5, jak i Gemini 2.5.

    Mistrz wykresów i schematów

    O ile Kimi K2 skupiał się na rozumowaniu, nowy ERNIE 4.5 to specjalista od „patrzenia”. Jest to model multimodalny, zaprojektowany specjalnie do pracy z trudnymi danymi biznesowymi: schematami inżynieryjnymi, nagraniami z fabryk czy skanami medycznymi.

    Wyniki w benchmarkach są imponujące. W teście ChartQA (analiza wykresów) ERNIE uzyskał 87.1 pkt, deklasując Gemini 2.5 Pro (76.3) i GPT-5-High (78.2). Wygrał również w teście matematycznym MathVista (82.5 vs 82.3 u Gemini i 81.3 u GPT-5).

    Widzi, rozumie i… klika

    To, co wyróżnia ten model, to podejście „agentowe”. ERNIE nie tylko opisuje obrazek, ale potrafi działać:

    • Rozumie schematy: potrafi rozwiązać diagram obwodu mostkowego, stosując prawa Ohma i Kirchhoffa.
    • Generuje dane: zapytany o ludzi w garniturach na zdjęciu, może zwrócić ich dokładne współrzędne w formacie JSON – idealne do systemów bezpieczeństwa czy inspekcji wizualnej.
    • Używa narzędzi: jeśli tekst na zdjęciu jest za mały, model autonomicznie „przybliża” obraz, by go odczytać.

    Potężny, ale wymagający

    Baidu zastosowało architekturę Mixture-of-Experts (MoE). Choć model jest potężny, podczas pracy aktywuje zaledwie 3 miliardy parametrów, co obniża koszty operacyjne (tzw. inferencję).

    Jest jednak haczyk sprzętowy. Aby wdrożyć to rozwiązanie we własnej firmie (single-card deployment), potrzebujesz karty graficznej z aż 80 GB pamięci VRAM. Nie jest to więc narzędzie do domowych eksperymentów, ale dla firm posiadających infrastrukturę AI. Na osłodę: Baidu udostępnia model na licencji Apache 2.0, co pozwala na jego komercyjne wykorzystanie.

    Chiński startup pobił GPT-5 i Claude 4.5. Model AI trenowano za ułamek ceny

    #aiSi #analizaObrazu #baidu #benchmark #chiny #ernie45 #gemini25 #gpt5 #news #sztucznaInteligencja

  2. Gemini Live uczy się aktorstwa. Możesz kazać mu mówić szybciej, wolniej albo z akcentem kowboja

    Rozmowy z asystentem AI stają się coraz bardziej naturalne, a teraz także… teatralne.

    Google wdraża właśnie aktualizację dla Gemini Live na Androida i iOS, która czyni asystenta znacznie bardziej „adaptacyjnym i ekspresyjnym”.

    Dzięki nowym modelom AI znacznie lepiej rozumie niuanse ludzkiej mowy i potrafi dynamicznie dostosować swój styl wypowiedzi.

    „Mów szybciej!”

    Praktyczną nowością jest kontrola tempa. Możesz teraz powiedzieć do Gemini: „Mów szybciej”, jeśli chcesz błyskawicznego streszczenia tematu, albo „Mów wolniej”, co może być nieocenione np. podczas nauki języków obcych.

    AI z akcentem

    Google dodało też element zabawy. Gemini Live potrafi teraz naśladować różne akcenty i style mowy na życzenie. Google podaje przykłady:

    • Możesz poprosić o przepis na niedzielną pieczeń mówiony z brytyjskim akcentem Cockney.
    • Albo przeprowadzić burzę mózgów na temat imprezy, rozmawiając z AI udającym kowboja.
    • Lub poprosić o lekcję historii o Rzymie z perspektywy (i głosem) samego Juliusza Cezara.

    Te zmiany stylu obowiązują przez czas trwania danej rozmowy. Aktualizacja jest już udostępniana użytkownikom na Androidzie i iOS. Uwaga: funkcje te (zwłaszcza te dotyczące konkretnych akcentów i stylów mówienia) są wdrażane przede wszystkim dla języka angielskiego. W języku polskim ich dostępność może być na razie ograniczona. Niemniej biorąc pod uwagę, że dziś Gemini Live może w Polsce, po polsku mówić różnymi głosami, kwestia dodania stosownych akcentów (wyobraźcie sobie Gemini gadające akcentem z Podlasia) również dla języka polskiego wydaje się prawdopodobna.

    Gemini recenzuje ChatGPT: „To skorumpowany, sfabrykowany bałagan”

    #aiSi #aktualizacja #android #asystentGlosowy #gemini25 #geminiLive #google #ios #news

  3. Google's latest AI breakthrough enables direct software interaction without APIs 🤖 Experience how Gemini 2.5 navigates web interfaces, fills forms, and handles real-world tasks just like a human would ⚡️ Read more about this groundbreaking development and its safety features.

    #Gemini25 #GoogleAI #ArtificialIntelligence #TechNews #AIautomation

    true-tech.net/google-unveils-g

  4. Gemini 2.5: Google erweitert Audio-Funktionen seiner KI-Plattform
    Google stellt mit Gemini 2.5 die neueste Version seiner KI-Plattform vor. Im Fokus stehen Fortschritte in der Verarbeitung und Generierung von Audioinhalten. Die multimodale KI
    apfeltalk.de/magazin/news/gemi
    #News #Tellerrand #AudioVerarbeitung #Gemini25 #Google #GoogleAIStudio #KI #KnstlicheIntelligenz #MultimodaleKI #SynthID #TexttoSpeech #VertexAI

  5. Har Gemini Pro genom jobbet, jag skriver alltid på svenska men den envisas alltid med att svara på norska. Det är väl helt OK då jag gärna exponeras mer till norska - men varför? Min profil har "engelska (sverige)" som språkval.

    Jag tror bestämt det är den lilla notisen nere till vänster som säger att den lokaliserat mig till Norge... Relevant: vitonsky.net/blog/2025/05/17/l

    Den går så långt att den till och med citerar mig översatt till norska!

    #LLM #Gemini25 #Gemini #Google #MoveToNorway #Norway

  6. "That is the nature of the Jagged Frontier. In some tasks, AI is unreliable. In others, it is superhuman"
    oneusefulthing.org/p/on-jagged
    #AI #AGI #Gemini25 #o3

  7. What the "best" model is, really depends on your context and application. Benchmarks don't tell the whole story, are gamed etc. Still this benchmark about hallucinations is interesting because it shows that the one of the best current models, OpenAI o3 has a terrible score, 6,8% hallucination rate, quite terrible if you think about it. Gemini 2.5 is much better (1,1%).
    Always check outcomes of any model...
    github.com/vectara/hallucinati
    #AI #Hallucinations #OpenAI #o3 #Google #Gemini25

  8. Interesting, i asked GPT-4o, o3, Gemini 2.5, Claude 3,7, at how many points lines crossed in the image below. GPT-4o said 5, o3 took 2 minutes, but gave the correct answer 8 and it used python code.
    Gemini 2.5 answered quickly but failed , it answered 4.
    Claude 3.7 also gave the correct answer and quickly.
    #openai #google #testing #AI #o3 #gemini25 #claude

  9. OpenAI o3 is far from AGI but especially because of it's web access when answering a query, it has become a very good assistant for answering various questions. It has a lot of added value for me. Gemini 2.5 is just as good but i don't have a paid account there so there are limits on queries.
    Remember, never use private, confidential, company or organisational data (unless public) and always always check outcomes when you are going to use these for something else.
    #AI #o3 #Gemini25

  10. 🤖 AI
    🔴 Gemini 2.5 Pro: Google’s AI Gets “Good Vibes”

    🔸 Faster, more factual & engaging than earlier Gemini models.
    🔸 Uses “Dynamic Thinking” to avoid overthinking simple prompts.
    🔸 Ranks top on LM Arena; aims to match ChatGPT’s appeal.
    🔸 Transparency still lacking: no model card or technical report yet.

    #Google #Gemini #AI #LLM #DynamicThinking #ChatGPT #Vibes #Gemini25 #GoogleAI #OpenAI

  11. Google rolls out Gemini 2.5 Pro Experimental to all Gemini users, after initially launching it for Gemini Advanced subscribers on March 25. Exciting updates ahead! 🚀 #Google #Gemini #AI #TechNews #Innovation #MachineLearning #AIUpdates #Gemini25

  12. Gemini 2.5: Google DeepMind prezentuje najbardziej zaawansowany model AI z funkcją myślenia

    Google DeepMind ogłosił wprowadzenie Gemini 2.5, swojego najnowszego i najbardziej inteligentnego modelu sztucznej inteligencji, który wyróżnia się zdolnością do rozumowania.

    Pierwszą wersją jest Gemini 2.5 Pro Experimental, dostępny od 25 marca w Google AI Studio, który osiąga rekordowe wyniki w szeregu benchmarków, takich jak GPQA i AIME 2025, przewyższając inne modele w zadaniach wymagających zaawansowanego myślenia, w tym w matematyce i naukach ścisłych.

    Gemini 2.5 to tzw. „model myślący” – przed udzieleniem odpowiedzi analizuje problem krok po kroku, naśladując ludzki proces rozumowania. Dzięki temu potrafi rozkładać złożone zagadnienia na części, rozważać różne rozwiązania i wybierać najlepsze, co przekłada się na wyższą dokładność i lepsze wyniki. Model osiągnął m.in. 18,8% w teście Humanity’s Last Exam, zaprojektowanym przez ekspertów do oceny granic ludzkiej wiedzy i logiki, ustanawiając nowy standard w tej kategorii.
    Szczególną uwagę zwrócono na zdolności kodowania Gemini 2.5 Pro. Model ma się ponoć bardzo dobrze sprawdzać również w tworzeniu atrakcyjnych wizualnie aplikacji webowych, programowaniu agentów AI oraz edycji i transformacji kodu.

    Przykładem jest szybkie stworzenie gry „dino run” z animowanym dinozaurem i przeszkodami, co pokazuje jego potencjał w praktycznych zastosowaniach. Tak, to ta gra, którą użytkownicy Google mogą pograć, gdy na ich urządzeniach nie jest dostępny internet.

    Użytkownicy Gemini Advanced mogą już testować model na desktopie i urządzeniach mobilnych, wybierając go z menu, a wkrótce pojawi się na platformie Vertex AI Google Cloud.

    Google DeepMind podkreśla, że Gemini 2.5 to krok w stronę bardziej pomocnych i intuicyjnych systemów AI. Model opiera się na multimodalnych fundamentach Gemini, oferując natywne wsparcie dla tekstu i długich kontekstów, a w przyszłości planowane są kolejne ulepszenia, w tym obsługa dodatkowych modalności, jak obraz czy dźwięk.

    Firma zachęca deweloperów i przedsiębiorstwa do eksperymentowania z modelem w Google AI Studio, gdzie jest dostępny za darmo w ramach limitów. Rozwój Gemini 2.5 to także odpowiedź na oczekiwania użytkowników po sukcesie wcześniejszych modeli, takich jak 2.0 Flash Thinking Experimental. Google DeepMind zapowiada dalsze inwestycje w „myślące modele”, które mają zrewolucjonizować sposób, w jaki AI wspiera ludzi w rozwiązywaniu problemów – od codziennych zadań po przełomowe odkrycia naukowe. Więcej szczegółów na blogu Google.

    #AI #Gemini #Gemini25 #news #sztucznaInteligencja

  13. 🤖 AI
    🔴 Google’s Gemini 2.5 Pro Raises the Bar
    🔸 Beats o3-mini, Grok & DeepSeek in chatbot rankings.
    🔸 Fast, accurate & intuitive on coding, math, and science.
    🔸 Context window 5x larger than rivals—2M token upgrade coming.
    🔸 Now in mobile & web; 50 free messages/day before pricing update.

    #Gemini25 #GoogleAI #Chatbots #AIModels #LLM #OpenAI #GeminiPro #VertexAI

  14. Gemini 2.5 solved this connections puzzle flawlessly, impressive.ChatGPT 4o failed !
    #AI #NYT #connections #gemini25 #chatgpt