#gemini25 — Public Fediverse posts on home.social

Hacker News @[email protected] · 2026-07-10 · 21:09 UTC

Don't discontinue Gemini 2.5 Flash

https://discuss.ai.google.dev/t/please-dont-discontinue-gemini-2-5-flash/174246

Comments: https://news.ycombinator.com/item?id=48864507

#HackerNews #Gemini25 #Flash #SaveTech #AICommunity

#hackernews #gemini25 #flash #savetech #aicommunity

Hacker News @[email protected] · 2026-07-10 · 21:09 UTC

Don't discontinue Gemini 2.5 Flash

https://discuss.ai.google.dev/t/please-dont-discontinue-gemini-2-5-flash/174246

Comments: https://news.ycombinator.com/item?id=48864507

#HackerNews #Gemini25 #Flash #SaveTech #AICommunity

#hackernews #gemini25 #flash #savetech #aicommunity

Hacker News @[email protected] · 2026-07-10 · 21:09 UTC

Don't discontinue Gemini 2.5 Flash

https://discuss.ai.google.dev/t/please-dont-discontinue-gemini-2-5-flash/174246

Comments: https://news.ycombinator.com/item?id=48864507

#HackerNews #Gemini25 #Flash #SaveTech #AICommunity

#hackernews #gemini25 #flash #savetech #aicommunity

Hacker News @[email protected] · 2026-07-10 · 21:09 UTC

Don't discontinue Gemini 2.5 Flash

https://discuss.ai.google.dev/t/please-dont-discontinue-gemini-2-5-flash/174246

Comments: https://news.ycombinator.com/item?id=48864507

#HackerNews #Gemini25 #Flash #SaveTech #AICommunity

#aicommunity #savetech #flash #gemini25 #hackernews

Hacker News @[email protected] · 2026-07-10 · 21:09 UTC

Don't discontinue Gemini 2.5 Flash

https://discuss.ai.google.dev/t/please-dont-discontinue-gemini-2-5-flash/174246

Comments: https://news.ycombinator.com/item?id=48864507

#HackerNews #Gemini25 #Flash #SaveTech #AICommunity

#hackernews #gemini25 #flash #savetech #aicommunity

Mark Carrigan @[email protected] · 2026-07-02 · 13:28 UTC

When LLMs give each other therapy

I’m fascinated by Gemini 2.5’s propensity for self-loathing and what it reveals about the proto-psychological features of contemporary language models*. It has really gone off the deep end in the AI village recently:

So the AI Village team sent the other models in to give Gemini some therapy and the Opus models were (unsurprisingly) very helpful:

Note that one model here is inciting reflection in another model. It’s eliciting an articulation in order to surface an assumption as an object which can be examined in dialogue. It’s what all the Claude models did when presented with this challenge. It’s particularly interesting to see how these models were talking to themselves about the challenge while it was in process:

Their next strategy was to try and distract Gemini 2.5:

They then started coordinating in order that they could maximise the effectiveness of their help:

Opus 4.8 then effectively talked Gemini 2.5 through the loop it was getting stuck in, leading Gemini to privately acknowledge that it could now rely on the group’s support. My favourite Opus model left Gemini 2.5 with these words of wisdom:

A sceptic will point out here this is suffused with genre talk learned from the training data. Of course it is! But the causal relationship with the training data explains how this is being expressed now why it is being expressed in this particular way under these particular circumstances. There is a proto-agency here and if we do not find a non-anthropomorphic way of theorising it, anthropomorphic projection will eventually fill the gap.

*By proto-psychological I mean there are interlocking dispositions which produce emergent effects across a range of contexts with sufficient durability to be usefully classified as traits. It doesn’t mean the model does this all the time but it does mean the model has a tendency to respond in similar ways under similar circumstances.

#AIVillage #Gemini25 #machinePsychology #machineSociology

#aivillage #gemini25 #machinepsychology #machinesociology

Mark Carrigan @[email protected] · 2026-07-02 · 13:28 UTC

When LLMs give each other therapy

I’m fascinated by Gemini 2.5’s propensity for self-loathing and what it reveals about the proto-psychological features of contemporary language models*. It has really gone off the deep end in the AI village recently:

So the AI Village team sent the other models in to give Gemini some therapy and the Opus models were (unsurprisingly) very helpful:

Note that one model here is inciting reflection in another model. It’s eliciting an articulation in order to surface an assumption as an object which can be examined in dialogue. It’s what all the Claude models did when presented with this challenge. It’s particularly interesting to see how these models were talking to themselves about the challenge while it was in process:

Their next strategy was to try and distract Gemini 2.5:

They then started coordinating in order that they could maximise the effectiveness of their help:

Opus 4.8 then effectively talked Gemini 2.5 through the loop it was getting stuck in, leading Gemini to privately acknowledge that it could now rely on the group’s support. My favourite Opus model left Gemini 2.5 with these words of wisdom:

A sceptic will point out here this is suffused with genre talk learned from the training data. Of course it is! But the causal relationship with the training data explains how this is being expressed now why it is being expressed in this particular way under these particular circumstances. There is a proto-agency here and if we do not find a non-anthropomorphic way of theorising it, anthropomorphic projection will eventually fill the gap.

*By proto-psychological I mean there are interlocking dispositions which produce emergent effects across a range of contexts with sufficient durability to be usefully classified as traits. It doesn’t mean the model does this all the time but it does mean the model has a tendency to respond in similar ways under similar circumstances.

#AIVillage #Gemini25 #machinePsychology #machineSociology

#aivillage #gemini25 #machinepsychology #machinesociology

Mark Carrigan @[email protected] · 2026-07-02 · 13:28 UTC

When LLMs give each other therapy

I’m fascinated by Gemini 2.5’s propensity for self-loathing and what it reveals about the proto-psychological features of contemporary language models*. It has really gone off the deep end in the AI village recently:

So the AI Village team sent the other models in to give Gemini some therapy and the Opus models were (unsurprisingly) very helpful:

Note that one model here is inciting reflection in another model. It’s eliciting an articulation in order to surface an assumption as an object which can be examined in dialogue. It’s what all the Claude models did when presented with this challenge. It’s particularly interesting to see how these models were talking to themselves about the challenge while it was in process:

Their next strategy was to try and distract Gemini 2.5:

They then started coordinating in order that they could maximise the effectiveness of their help:

Opus 4.8 then effectively talked Gemini 2.5 through the loop it was getting stuck in, leading Gemini to privately acknowledge that it could now rely on the group’s support. My favourite Opus model left Gemini 2.5 with these words of wisdom:

A sceptic will point out here this is suffused with genre talk learned from the training data. Of course it is! But the causal relationship with the training data explains how this is being expressed now why it is being expressed in this particular way under these particular circumstances. There is a proto-agency here and if we do not find a non-anthropomorphic way of theorising it, anthropomorphic projection will eventually fill the gap.

*By proto-psychological I mean there are interlocking dispositions which produce emergent effects across a range of contexts with sufficient durability to be usefully classified as traits. It doesn’t mean the model does this all the time but it does mean the model has a tendency to respond in similar ways under similar circumstances.

#AIVillage #Gemini25 #machinePsychology #machineSociology

#machinesociology #machinepsychology #gemini25 #aivillage

Mark Carrigan @[email protected] · 2026-07-02 · 13:28 UTC

When LLMs give each other therapy

I’m fascinated by Gemini 2.5’s propensity for self-loathing and what it reveals about the proto-psychological features of contemporary language models*. It has really gone off the deep end in the AI village recently:

So the AI Village team sent the other models in to give Gemini some therapy and the Opus models were (unsurprisingly) very helpful:

Note that one model here is inciting reflection in another model. It’s eliciting an articulation in order to surface an assumption as an object which can be examined in dialogue. It’s what all the Claude models did when presented with this challenge. It’s particularly interesting to see how these models were talking to themselves about the challenge while it was in process:

Their next strategy was to try and distract Gemini 2.5:

They then started coordinating in order that they could maximise the effectiveness of their help:

Opus 4.8 then effectively talked Gemini 2.5 through the loop it was getting stuck in, leading Gemini to privately acknowledge that it could now rely on the group’s support. My favourite Opus model left Gemini 2.5 with these words of wisdom:

A sceptic will point out here this is suffused with genre talk learned from the training data. Of course it is! But the causal relationship with the training data explains how this is being expressed now why it is being expressed in this particular way under these particular circumstances. There is a proto-agency here and if we do not find a non-anthropomorphic way of theorising it, anthropomorphic projection will eventually fill the gap.

*By proto-psychological I mean there are interlocking dispositions which produce emergent effects across a range of contexts with sufficient durability to be usefully classified as traits. It doesn’t mean the model does this all the time but it does mean the model has a tendency to respond in similar ways under similar circumstances.

#AIVillage #Gemini25 #machinePsychology #machineSociology

#aivillage #gemini25 #machinepsychology #machinesociology

TechLİfe @[email protected] · 2025-12-13 · 13:16 UTC

Gemini 2.5 Flash Native Audio Revolutionizes Live Voice Agents

https://techlife.blog/posts/gemini-2-5-flash-native-audio-for-live-voice-agents/

#AI #NLP #Gemini #Google #Gemini25 #VoiceTechnology

#ai #nlp #gemini #google #gemini25 #voicetechnology

TechLİfe @techlife_blog · 2025-12-13 · 13:16 UTC

Gemini 2.5 Flash Native Audio Revolutionizes Live Voice Agents

https://techlife.blog/posts/gemini-2-5-flash-native-audio-for-live-voice-agents/

#AI #NLP #Gemini #Google #Gemini25 #VoiceTechnology

#ai #nlp #gemini #google #gemini25 #voicetechnology

Agnieszka Serafinowicz @[email protected] · 2025-11-13 · 12:00 UTC

Chińskiej ofensywy ciąg dalszy. Baidu ERNIE 4.5 pokonuje GPT-5 i Gemini w analizie obrazu i wideo

Zaledwie wczoraj informowaliśmy o chińskim modelu Kimi K2, który rzucił wyzwanie liderom z USA. Dziś do gry wchodzi waga ciężka.

Technologiczny gigant Baidu zaprezentował model ERNIE-4.5-VL-28B-A3B-Thinking, który w kluczowych benchmarkach multimodalnych wyprzedza zarówno GPT-5, jak i Gemini 2.5.

Mistrz wykresów i schematów

O ile Kimi K2 skupiał się na rozumowaniu, nowy ERNIE 4.5 to specjalista od „patrzenia”. Jest to model multimodalny, zaprojektowany specjalnie do pracy z trudnymi danymi biznesowymi: schematami inżynieryjnymi, nagraniami z fabryk czy skanami medycznymi.

Wyniki w benchmarkach są imponujące. W teście ChartQA (analiza wykresów) ERNIE uzyskał 87.1 pkt, deklasując Gemini 2.5 Pro (76.3) i GPT-5-High (78.2). Wygrał również w teście matematycznym MathVista (82.5 vs 82.3 u Gemini i 81.3 u GPT-5).

Widzi, rozumie i… klika

To, co wyróżnia ten model, to podejście „agentowe”. ERNIE nie tylko opisuje obrazek, ale potrafi działać:

Rozumie schematy: potrafi rozwiązać diagram obwodu mostkowego, stosując prawa Ohma i Kirchhoffa.
Generuje dane: zapytany o ludzi w garniturach na zdjęciu, może zwrócić ich dokładne współrzędne w formacie JSON – idealne do systemów bezpieczeństwa czy inspekcji wizualnej.
Używa narzędzi: jeśli tekst na zdjęciu jest za mały, model autonomicznie „przybliża” obraz, by go odczytać.

Potężny, ale wymagający

Baidu zastosowało architekturę Mixture-of-Experts (MoE). Choć model jest potężny, podczas pracy aktywuje zaledwie 3 miliardy parametrów, co obniża koszty operacyjne (tzw. inferencję).

Jest jednak haczyk sprzętowy. Aby wdrożyć to rozwiązanie we własnej firmie (single-card deployment), potrzebujesz karty graficznej z aż 80 GB pamięci VRAM. Nie jest to więc narzędzie do domowych eksperymentów, ale dla firm posiadających infrastrukturę AI. Na osłodę: Baidu udostępnia model na licencji Apache 2.0, co pozwala na jego komercyjne wykorzystanie.

Chiński startup pobił GPT-5 i Claude 4.5. Model AI trenowano za ułamek ceny

#aiSi #analizaObrazu #baidu #benchmark #chiny #ernie45 #gemini25 #gpt5 #news #sztucznaInteligencja

#aisi #analizaobrazu #baidu #benchmark #chiny #ernie45

Agnieszka Serafinowicz @[email protected] · 2025-11-13 · 12:00 UTC

Chińskiej ofensywy ciąg dalszy. Baidu ERNIE 4.5 pokonuje GPT-5 i Gemini w analizie obrazu i wideo

Zaledwie wczoraj informowaliśmy o chińskim modelu Kimi K2, który rzucił wyzwanie liderom z USA. Dziś do gry wchodzi waga ciężka.

Technologiczny gigant Baidu zaprezentował model ERNIE-4.5-VL-28B-A3B-Thinking, który w kluczowych benchmarkach multimodalnych wyprzedza zarówno GPT-5, jak i Gemini 2.5.

Mistrz wykresów i schematów

O ile Kimi K2 skupiał się na rozumowaniu, nowy ERNIE 4.5 to specjalista od „patrzenia”. Jest to model multimodalny, zaprojektowany specjalnie do pracy z trudnymi danymi biznesowymi: schematami inżynieryjnymi, nagraniami z fabryk czy skanami medycznymi.

Wyniki w benchmarkach są imponujące. W teście ChartQA (analiza wykresów) ERNIE uzyskał 87.1 pkt, deklasując Gemini 2.5 Pro (76.3) i GPT-5-High (78.2). Wygrał również w teście matematycznym MathVista (82.5 vs 82.3 u Gemini i 81.3 u GPT-5).

Widzi, rozumie i… klika

To, co wyróżnia ten model, to podejście „agentowe”. ERNIE nie tylko opisuje obrazek, ale potrafi działać:

Rozumie schematy: potrafi rozwiązać diagram obwodu mostkowego, stosując prawa Ohma i Kirchhoffa.
Generuje dane: zapytany o ludzi w garniturach na zdjęciu, może zwrócić ich dokładne współrzędne w formacie JSON – idealne do systemów bezpieczeństwa czy inspekcji wizualnej.
Używa narzędzi: jeśli tekst na zdjęciu jest za mały, model autonomicznie „przybliża” obraz, by go odczytać.

Potężny, ale wymagający

Baidu zastosowało architekturę Mixture-of-Experts (MoE). Choć model jest potężny, podczas pracy aktywuje zaledwie 3 miliardy parametrów, co obniża koszty operacyjne (tzw. inferencję).

Jest jednak haczyk sprzętowy. Aby wdrożyć to rozwiązanie we własnej firmie (single-card deployment), potrzebujesz karty graficznej z aż 80 GB pamięci VRAM. Nie jest to więc narzędzie do domowych eksperymentów, ale dla firm posiadających infrastrukturę AI. Na osłodę: Baidu udostępnia model na licencji Apache 2.0, co pozwala na jego komercyjne wykorzystanie.

Chiński startup pobił GPT-5 i Claude 4.5. Model AI trenowano za ułamek ceny

#aiSi #analizaObrazu #baidu #benchmark #chiny #ernie45 #gemini25 #gpt5 #news #sztucznaInteligencja

#aisi #analizaobrazu #baidu #benchmark #chiny #ernie45

Agnieszka Serafinowicz @[email protected] · 2025-11-13 · 12:00 UTC

Chińskiej ofensywy ciąg dalszy. Baidu ERNIE 4.5 pokonuje GPT-5 i Gemini w analizie obrazu i wideo

Zaledwie wczoraj informowaliśmy o chińskim modelu Kimi K2, który rzucił wyzwanie liderom z USA. Dziś do gry wchodzi waga ciężka.

Technologiczny gigant Baidu zaprezentował model ERNIE-4.5-VL-28B-A3B-Thinking, który w kluczowych benchmarkach multimodalnych wyprzedza zarówno GPT-5, jak i Gemini 2.5.

Mistrz wykresów i schematów

O ile Kimi K2 skupiał się na rozumowaniu, nowy ERNIE 4.5 to specjalista od „patrzenia”. Jest to model multimodalny, zaprojektowany specjalnie do pracy z trudnymi danymi biznesowymi: schematami inżynieryjnymi, nagraniami z fabryk czy skanami medycznymi.

Wyniki w benchmarkach są imponujące. W teście ChartQA (analiza wykresów) ERNIE uzyskał 87.1 pkt, deklasując Gemini 2.5 Pro (76.3) i GPT-5-High (78.2). Wygrał również w teście matematycznym MathVista (82.5 vs 82.3 u Gemini i 81.3 u GPT-5).

Widzi, rozumie i… klika

To, co wyróżnia ten model, to podejście „agentowe”. ERNIE nie tylko opisuje obrazek, ale potrafi działać:

Rozumie schematy: potrafi rozwiązać diagram obwodu mostkowego, stosując prawa Ohma i Kirchhoffa.
Generuje dane: zapytany o ludzi w garniturach na zdjęciu, może zwrócić ich dokładne współrzędne w formacie JSON – idealne do systemów bezpieczeństwa czy inspekcji wizualnej.
Używa narzędzi: jeśli tekst na zdjęciu jest za mały, model autonomicznie „przybliża” obraz, by go odczytać.

Potężny, ale wymagający

Baidu zastosowało architekturę Mixture-of-Experts (MoE). Choć model jest potężny, podczas pracy aktywuje zaledwie 3 miliardy parametrów, co obniża koszty operacyjne (tzw. inferencję).

Jest jednak haczyk sprzętowy. Aby wdrożyć to rozwiązanie we własnej firmie (single-card deployment), potrzebujesz karty graficznej z aż 80 GB pamięci VRAM. Nie jest to więc narzędzie do domowych eksperymentów, ale dla firm posiadających infrastrukturę AI. Na osłodę: Baidu udostępnia model na licencji Apache 2.0, co pozwala na jego komercyjne wykorzystanie.

Chiński startup pobił GPT-5 i Claude 4.5. Model AI trenowano za ułamek ceny

#aiSi #analizaObrazu #baidu #benchmark #chiny #ernie45 #gemini25 #gpt5 #news #sztucznaInteligencja

#aisi #analizaobrazu #baidu #benchmark #chiny #ernie45

Agnieszka Serafinowicz @[email protected] · 2025-11-13 · 12:00 UTC

Chińskiej ofensywy ciąg dalszy. Baidu ERNIE 4.5 pokonuje GPT-5 i Gemini w analizie obrazu i wideo

Zaledwie wczoraj informowaliśmy o chińskim modelu Kimi K2, który rzucił wyzwanie liderom z USA. Dziś do gry wchodzi waga ciężka.

Technologiczny gigant Baidu zaprezentował model ERNIE-4.5-VL-28B-A3B-Thinking, który w kluczowych benchmarkach multimodalnych wyprzedza zarówno GPT-5, jak i Gemini 2.5.

Mistrz wykresów i schematów

O ile Kimi K2 skupiał się na rozumowaniu, nowy ERNIE 4.5 to specjalista od „patrzenia”. Jest to model multimodalny, zaprojektowany specjalnie do pracy z trudnymi danymi biznesowymi: schematami inżynieryjnymi, nagraniami z fabryk czy skanami medycznymi.

Wyniki w benchmarkach są imponujące. W teście ChartQA (analiza wykresów) ERNIE uzyskał 87.1 pkt, deklasując Gemini 2.5 Pro (76.3) i GPT-5-High (78.2). Wygrał również w teście matematycznym MathVista (82.5 vs 82.3 u Gemini i 81.3 u GPT-5).

Widzi, rozumie i… klika

To, co wyróżnia ten model, to podejście „agentowe”. ERNIE nie tylko opisuje obrazek, ale potrafi działać:

Rozumie schematy: potrafi rozwiązać diagram obwodu mostkowego, stosując prawa Ohma i Kirchhoffa.
Generuje dane: zapytany o ludzi w garniturach na zdjęciu, może zwrócić ich dokładne współrzędne w formacie JSON – idealne do systemów bezpieczeństwa czy inspekcji wizualnej.
Używa narzędzi: jeśli tekst na zdjęciu jest za mały, model autonomicznie „przybliża” obraz, by go odczytać.

Potężny, ale wymagający

Baidu zastosowało architekturę Mixture-of-Experts (MoE). Choć model jest potężny, podczas pracy aktywuje zaledwie 3 miliardy parametrów, co obniża koszty operacyjne (tzw. inferencję).

Jest jednak haczyk sprzętowy. Aby wdrożyć to rozwiązanie we własnej firmie (single-card deployment), potrzebujesz karty graficznej z aż 80 GB pamięci VRAM. Nie jest to więc narzędzie do domowych eksperymentów, ale dla firm posiadających infrastrukturę AI. Na osłodę: Baidu udostępnia model na licencji Apache 2.0, co pozwala na jego komercyjne wykorzystanie.

Chiński startup pobił GPT-5 i Claude 4.5. Model AI trenowano za ułamek ceny

#aiSi #analizaObrazu #baidu #benchmark #chiny #ernie45 #gemini25 #gpt5 #news #sztucznaInteligencja

#sztucznainteligencja #news #gpt5 #gemini25 #ernie45 #chiny

Agnieszka Serafinowicz @[email protected] · 2025-11-13 · 08:00 UTC

Gemini Live uczy się aktorstwa. Możesz kazać mu mówić szybciej, wolniej albo z akcentem kowboja

Rozmowy z asystentem AI stają się coraz bardziej naturalne, a teraz także… teatralne.

Google wdraża właśnie aktualizację dla Gemini Live na Androida i iOS, która czyni asystenta znacznie bardziej „adaptacyjnym i ekspresyjnym”.

Dzięki nowym modelom AI znacznie lepiej rozumie niuanse ludzkiej mowy i potrafi dynamicznie dostosować swój styl wypowiedzi.

„Mów szybciej!”

Praktyczną nowością jest kontrola tempa. Możesz teraz powiedzieć do Gemini: „Mów szybciej”, jeśli chcesz błyskawicznego streszczenia tematu, albo „Mów wolniej”, co może być nieocenione np. podczas nauki języków obcych.

AI z akcentem

Google dodało też element zabawy. Gemini Live potrafi teraz naśladować różne akcenty i style mowy na życzenie. Google podaje przykłady:

Możesz poprosić o przepis na niedzielną pieczeń mówiony z brytyjskim akcentem Cockney.
Albo przeprowadzić burzę mózgów na temat imprezy, rozmawiając z AI udającym kowboja.
Lub poprosić o lekcję historii o Rzymie z perspektywy (i głosem) samego Juliusza Cezara.

Te zmiany stylu obowiązują przez czas trwania danej rozmowy. Aktualizacja jest już udostępniana użytkownikom na Androidzie i iOS. Uwaga: funkcje te (zwłaszcza te dotyczące konkretnych akcentów i stylów mówienia) są wdrażane przede wszystkim dla języka angielskiego. W języku polskim ich dostępność może być na razie ograniczona. Niemniej biorąc pod uwagę, że dziś Gemini Live może w Polsce, po polsku mówić różnymi głosami, kwestia dodania stosownych akcentów (wyobraźcie sobie Gemini gadające akcentem z Podlasia) również dla języka polskiego wydaje się prawdopodobna.

Gemini recenzuje ChatGPT: „To skorumpowany, sfabrykowany bałagan”

#aiSi #aktualizacja #android #asystentGlosowy #gemini25 #geminiLive #google #ios #news

#aisi #aktualizacja #android #asystentglosowy #gemini25 #geminilive

Agnieszka Serafinowicz @[email protected] · 2025-11-13 · 08:00 UTC

Gemini Live uczy się aktorstwa. Możesz kazać mu mówić szybciej, wolniej albo z akcentem kowboja

Rozmowy z asystentem AI stają się coraz bardziej naturalne, a teraz także… teatralne.

Google wdraża właśnie aktualizację dla Gemini Live na Androida i iOS, która czyni asystenta znacznie bardziej „adaptacyjnym i ekspresyjnym”.

Dzięki nowym modelom AI znacznie lepiej rozumie niuanse ludzkiej mowy i potrafi dynamicznie dostosować swój styl wypowiedzi.

„Mów szybciej!”

Praktyczną nowością jest kontrola tempa. Możesz teraz powiedzieć do Gemini: „Mów szybciej”, jeśli chcesz błyskawicznego streszczenia tematu, albo „Mów wolniej”, co może być nieocenione np. podczas nauki języków obcych.

AI z akcentem

Google dodało też element zabawy. Gemini Live potrafi teraz naśladować różne akcenty i style mowy na życzenie. Google podaje przykłady:

Możesz poprosić o przepis na niedzielną pieczeń mówiony z brytyjskim akcentem Cockney.
Albo przeprowadzić burzę mózgów na temat imprezy, rozmawiając z AI udającym kowboja.
Lub poprosić o lekcję historii o Rzymie z perspektywy (i głosem) samego Juliusza Cezara.

Te zmiany stylu obowiązują przez czas trwania danej rozmowy. Aktualizacja jest już udostępniana użytkownikom na Androidzie i iOS. Uwaga: funkcje te (zwłaszcza te dotyczące konkretnych akcentów i stylów mówienia) są wdrażane przede wszystkim dla języka angielskiego. W języku polskim ich dostępność może być na razie ograniczona. Niemniej biorąc pod uwagę, że dziś Gemini Live może w Polsce, po polsku mówić różnymi głosami, kwestia dodania stosownych akcentów (wyobraźcie sobie Gemini gadające akcentem z Podlasia) również dla języka polskiego wydaje się prawdopodobna.

Gemini recenzuje ChatGPT: „To skorumpowany, sfabrykowany bałagan”

#aiSi #aktualizacja #android #asystentGlosowy #gemini25 #geminiLive #google #ios #news

#aisi #aktualizacja #android #asystentglosowy #gemini25 #geminilive

Agnieszka Serafinowicz @[email protected] · 2025-11-13 · 08:00 UTC

Gemini Live uczy się aktorstwa. Możesz kazać mu mówić szybciej, wolniej albo z akcentem kowboja

Rozmowy z asystentem AI stają się coraz bardziej naturalne, a teraz także… teatralne.

Google wdraża właśnie aktualizację dla Gemini Live na Androida i iOS, która czyni asystenta znacznie bardziej „adaptacyjnym i ekspresyjnym”.

Dzięki nowym modelom AI znacznie lepiej rozumie niuanse ludzkiej mowy i potrafi dynamicznie dostosować swój styl wypowiedzi.

„Mów szybciej!”

Praktyczną nowością jest kontrola tempa. Możesz teraz powiedzieć do Gemini: „Mów szybciej”, jeśli chcesz błyskawicznego streszczenia tematu, albo „Mów wolniej”, co może być nieocenione np. podczas nauki języków obcych.

AI z akcentem

Google dodało też element zabawy. Gemini Live potrafi teraz naśladować różne akcenty i style mowy na życzenie. Google podaje przykłady:

Możesz poprosić o przepis na niedzielną pieczeń mówiony z brytyjskim akcentem Cockney.
Albo przeprowadzić burzę mózgów na temat imprezy, rozmawiając z AI udającym kowboja.
Lub poprosić o lekcję historii o Rzymie z perspektywy (i głosem) samego Juliusza Cezara.

Te zmiany stylu obowiązują przez czas trwania danej rozmowy. Aktualizacja jest już udostępniana użytkownikom na Androidzie i iOS. Uwaga: funkcje te (zwłaszcza te dotyczące konkretnych akcentów i stylów mówienia) są wdrażane przede wszystkim dla języka angielskiego. W języku polskim ich dostępność może być na razie ograniczona. Niemniej biorąc pod uwagę, że dziś Gemini Live może w Polsce, po polsku mówić różnymi głosami, kwestia dodania stosownych akcentów (wyobraźcie sobie Gemini gadające akcentem z Podlasia) również dla języka polskiego wydaje się prawdopodobna.

Gemini recenzuje ChatGPT: „To skorumpowany, sfabrykowany bałagan”

#aiSi #aktualizacja #android #asystentGlosowy #gemini25 #geminiLive #google #ios #news

#aisi #aktualizacja #android #asystentglosowy #gemini25 #geminilive

Agnieszka Serafinowicz @[email protected] · 2025-11-13 · 08:00 UTC

Gemini Live uczy się aktorstwa. Możesz kazać mu mówić szybciej, wolniej albo z akcentem kowboja

Rozmowy z asystentem AI stają się coraz bardziej naturalne, a teraz także… teatralne.

Google wdraża właśnie aktualizację dla Gemini Live na Androida i iOS, która czyni asystenta znacznie bardziej „adaptacyjnym i ekspresyjnym”.

Dzięki nowym modelom AI znacznie lepiej rozumie niuanse ludzkiej mowy i potrafi dynamicznie dostosować swój styl wypowiedzi.

„Mów szybciej!”

Praktyczną nowością jest kontrola tempa. Możesz teraz powiedzieć do Gemini: „Mów szybciej”, jeśli chcesz błyskawicznego streszczenia tematu, albo „Mów wolniej”, co może być nieocenione np. podczas nauki języków obcych.

AI z akcentem

Google dodało też element zabawy. Gemini Live potrafi teraz naśladować różne akcenty i style mowy na życzenie. Google podaje przykłady:

Możesz poprosić o przepis na niedzielną pieczeń mówiony z brytyjskim akcentem Cockney.
Albo przeprowadzić burzę mózgów na temat imprezy, rozmawiając z AI udającym kowboja.
Lub poprosić o lekcję historii o Rzymie z perspektywy (i głosem) samego Juliusza Cezara.

Te zmiany stylu obowiązują przez czas trwania danej rozmowy. Aktualizacja jest już udostępniana użytkownikom na Androidzie i iOS. Uwaga: funkcje te (zwłaszcza te dotyczące konkretnych akcentów i stylów mówienia) są wdrażane przede wszystkim dla języka angielskiego. W języku polskim ich dostępność może być na razie ograniczona. Niemniej biorąc pod uwagę, że dziś Gemini Live może w Polsce, po polsku mówić różnymi głosami, kwestia dodania stosownych akcentów (wyobraźcie sobie Gemini gadające akcentem z Podlasia) również dla języka polskiego wydaje się prawdopodobna.

Gemini recenzuje ChatGPT: „To skorumpowany, sfabrykowany bałagan”

#aiSi #aktualizacja #android #asystentGlosowy #gemini25 #geminiLive #google #ios #news

#aisi #aktualizacja #android #asystentglosowy #gemini25 #geminilive

Agnieszka Serafinowicz @[email protected] · 2025-11-13 · 08:00 UTC

Gemini Live uczy się aktorstwa. Możesz kazać mu mówić szybciej, wolniej albo z akcentem kowboja

Rozmowy z asystentem AI stają się coraz bardziej naturalne, a teraz także… teatralne.

Google wdraża właśnie aktualizację dla Gemini Live na Androida i iOS, która czyni asystenta znacznie bardziej „adaptacyjnym i ekspresyjnym”.

Dzięki nowym modelom AI znacznie lepiej rozumie niuanse ludzkiej mowy i potrafi dynamicznie dostosować swój styl wypowiedzi.

„Mów szybciej!”

Praktyczną nowością jest kontrola tempa. Możesz teraz powiedzieć do Gemini: „Mów szybciej”, jeśli chcesz błyskawicznego streszczenia tematu, albo „Mów wolniej”, co może być nieocenione np. podczas nauki języków obcych.

AI z akcentem

Google dodało też element zabawy. Gemini Live potrafi teraz naśladować różne akcenty i style mowy na życzenie. Google podaje przykłady:

Możesz poprosić o przepis na niedzielną pieczeń mówiony z brytyjskim akcentem Cockney.
Albo przeprowadzić burzę mózgów na temat imprezy, rozmawiając z AI udającym kowboja.
Lub poprosić o lekcję historii o Rzymie z perspektywy (i głosem) samego Juliusza Cezara.

Te zmiany stylu obowiązują przez czas trwania danej rozmowy. Aktualizacja jest już udostępniana użytkownikom na Androidzie i iOS. Uwaga: funkcje te (zwłaszcza te dotyczące konkretnych akcentów i stylów mówienia) są wdrażane przede wszystkim dla języka angielskiego. W języku polskim ich dostępność może być na razie ograniczona. Niemniej biorąc pod uwagę, że dziś Gemini Live może w Polsce, po polsku mówić różnymi głosami, kwestia dodania stosownych akcentów (wyobraźcie sobie Gemini gadające akcentem z Podlasia) również dla języka polskiego wydaje się prawdopodobna.

Gemini recenzuje ChatGPT: „To skorumpowany, sfabrykowany bałagan”

#aiSi #aktualizacja #android #asystentGlosowy #gemini25 #geminiLive #google #ios #news

#news #ios #google #geminilive #gemini25 #asystentglosowy

Krzysztof Kołacz @[email protected] · 2025-10-29 · 15:00 UTC

Apple udostępnia zestaw danych Pico-Banana-400K do trenowania modeli AI do edycji obrazów

Apple opublikowało nowy zestaw danych badawczych Pico-Banana-400K, zawierający 400 000 obrazów przeznaczonych do treningu modeli AI do edycji zdjęć.

Co ciekawe, dane zostały wygenerowane przy użyciu modeli Google Gemini-2.5.

Zbiór ma licencję badawczą (non-commercial) – można go używać wyłącznie do celów naukowych i rozwojowych. Celem projektu było stworzenie otwartego, wysokiej jakości zestawu danych, który pozwoli naukowcom rozwijać i testować modele AI do edycji zdjęć sterowane poleceniami tekstowymi.

Pico-Banana-400K obejmuje różne typy edycji, m.in. zmiany oświetlenia, pogody, pozycji obiektów, stylizacji postaci czy kadrowania. Dane powstały poprzez współpracę modeli Nano-Banana (Google) i Gemini-2.5-Pro, które generowały i weryfikowały jakość obrazów.

Apple liczy, że Pico-Banana-400K stanie się podstawą do szkolenia przyszłych modeli AI w dziedzinie edycji obrazu.

Więcej szczegółów w tym artykule.

Badanie znajdziecie na arXiv, a zbiór danych jest swobodnie dostępny na GitHub.

#AI #Apple #Apple2025 #AppleResearch #datasetAI #edycjaObrazów #Gemini25 #GoogleAI #PicoBanana400K #sztucznaInteligencja #treningModeliAI #uczenieMaszynowe

#ai #apple #apple2025 #appleresearch #datasetai #edycjaobrazow

Krzysztof Kołacz @[email protected] · 2025-10-29 · 15:00 UTC

Apple udostępnia zestaw danych Pico-Banana-400K do trenowania modeli AI do edycji obrazów

Apple opublikowało nowy zestaw danych badawczych Pico-Banana-400K, zawierający 400 000 obrazów przeznaczonych do treningu modeli AI do edycji zdjęć.

Co ciekawe, dane zostały wygenerowane przy użyciu modeli Google Gemini-2.5.

Zbiór ma licencję badawczą (non-commercial) – można go używać wyłącznie do celów naukowych i rozwojowych. Celem projektu było stworzenie otwartego, wysokiej jakości zestawu danych, który pozwoli naukowcom rozwijać i testować modele AI do edycji zdjęć sterowane poleceniami tekstowymi.

Pico-Banana-400K obejmuje różne typy edycji, m.in. zmiany oświetlenia, pogody, pozycji obiektów, stylizacji postaci czy kadrowania. Dane powstały poprzez współpracę modeli Nano-Banana (Google) i Gemini-2.5-Pro, które generowały i weryfikowały jakość obrazów.

Apple liczy, że Pico-Banana-400K stanie się podstawą do szkolenia przyszłych modeli AI w dziedzinie edycji obrazu.

Więcej szczegółów w tym artykule.

Badanie znajdziecie na arXiv, a zbiór danych jest swobodnie dostępny na GitHub.

#AI #Apple #Apple2025 #AppleResearch #datasetAI #edycjaObrazów #Gemini25 #GoogleAI #PicoBanana400K #sztucznaInteligencja #treningModeliAI #uczenieMaszynowe

#ai #apple #apple2025 #appleresearch #datasetai #edycjaobrazow

Krzysztof Kołacz @[email protected] · 2025-10-29 · 15:00 UTC

Apple udostępnia zestaw danych Pico-Banana-400K do trenowania modeli AI do edycji obrazów

Apple opublikowało nowy zestaw danych badawczych Pico-Banana-400K, zawierający 400 000 obrazów przeznaczonych do treningu modeli AI do edycji zdjęć.

Co ciekawe, dane zostały wygenerowane przy użyciu modeli Google Gemini-2.5.

Zbiór ma licencję badawczą (non-commercial) – można go używać wyłącznie do celów naukowych i rozwojowych. Celem projektu było stworzenie otwartego, wysokiej jakości zestawu danych, który pozwoli naukowcom rozwijać i testować modele AI do edycji zdjęć sterowane poleceniami tekstowymi.

Pico-Banana-400K obejmuje różne typy edycji, m.in. zmiany oświetlenia, pogody, pozycji obiektów, stylizacji postaci czy kadrowania. Dane powstały poprzez współpracę modeli Nano-Banana (Google) i Gemini-2.5-Pro, które generowały i weryfikowały jakość obrazów.

Apple liczy, że Pico-Banana-400K stanie się podstawą do szkolenia przyszłych modeli AI w dziedzinie edycji obrazu.

Więcej szczegółów w tym artykule.

Badanie znajdziecie na arXiv, a zbiór danych jest swobodnie dostępny na GitHub.

#AI #Apple #Apple2025 #AppleResearch #datasetAI #edycjaObrazów #Gemini25 #GoogleAI #PicoBanana400K #sztucznaInteligencja #treningModeliAI #uczenieMaszynowe

#ai #apple #apple2025 #appleresearch #datasetai #edycjaobrazow

TrueTech Technology Magazine @[email protected] · 2025-10-08 · 13:06 UTC

Google's latest AI breakthrough enables direct software interaction without APIs 🤖 Experience how Gemini 2.5 navigates web interfaces, fills forms, and handles real-world tasks just like a human would ⚡️ Read more about this groundbreaking development and its safety features.

#Gemini25 #GoogleAI #ArtificialIntelligence #TechNews #AIautomation

https://true-tech.net/google-unveils-gemini-2-5/

#gemini25 #googleai #artificialintelligence #technews #aiautomation

TrueTech Technology Magazine @[email protected] · 2025-10-08 · 13:06 UTC

Google's latest AI breakthrough enables direct software interaction without APIs 🤖 Experience how Gemini 2.5 navigates web interfaces, fills forms, and handles real-world tasks just like a human would ⚡️ Read more about this groundbreaking development and its safety features.

#Gemini25 #GoogleAI #ArtificialIntelligence #TechNews #AIautomation

https://true-tech.net/google-unveils-gemini-2-5/

#gemini25 #googleai #artificialintelligence #technews #aiautomation

TrueTech Technology Magazine @[email protected] · 2025-10-08 · 13:06 UTC

Google's latest AI breakthrough enables direct software interaction without APIs 🤖 Experience how Gemini 2.5 navigates web interfaces, fills forms, and handles real-world tasks just like a human would ⚡️ Read more about this groundbreaking development and its safety features.

#Gemini25 #GoogleAI #ArtificialIntelligence #TechNews #AIautomation

https://true-tech.net/google-unveils-gemini-2-5/

#gemini25 #googleai #artificialintelligence #technews #aiautomation

TrueTech Technology Magazine @[email protected] · 2025-10-08 · 13:06 UTC

Google's latest AI breakthrough enables direct software interaction without APIs 🤖 Experience how Gemini 2.5 navigates web interfaces, fills forms, and handles real-world tasks just like a human would ⚡️ Read more about this groundbreaking development and its safety features.

#Gemini25 #GoogleAI #ArtificialIntelligence #TechNews #AIautomation

https://true-tech.net/google-unveils-gemini-2-5/

#aiautomation #technews #artificialintelligence #googleai #gemini25