home.social

#generowanie-obrazow — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #generowanie-obrazow, aggregated by home.social.

fetched live
  1. Nano Banana Pro od Google: nowy model AI generuje bardziej precyzyjne obrazy i czytelny tekst

    Google wprowadza na rynek Nano Banana Pro (Gemini 3 Pro Image), nowy, zaawansowany model do generowania i edycji obrazów.

    Model ten, zbudowany na bazie Gemini 3 Pro , wykorzystuje zaawansowane rozumowanie i wiedzę o świecie platformy Gemini, co pozwala mu na lepszą wizualizację informacji  i tworzenie bardziej pomocnych, kontekstowych treści. Jest to rozwinięcie poprzedniego modelu, Nano Banana (Gemini 2.5 Flash Image).

    Kluczową nowością w Nano Banana Pro jest zdolność do generowania dokładniejszego i bardziej czytelnego tekstu bezpośrednio w obrazach , w tym w wielu językach. Dzięki lepszemu rozumieniu niuansów przez Gemini 3 , model potrafi tworzyć szczegółowe slogany reklamowe, mockupy czy plakaty z różnorodnymi teksturami, czcionkami i kaligrafią. Model ten potrafi również generować wizualizacje wzbogacone o wiedzę o świecie i informacje w czasie rzeczywistym, np. infografiki na podstawie podanych treści lub faktów czy wizualizacje receptur. Może też łączyć się z Google Search, aby pokazać np. aktualną pogodę.

    Nowa wersja modelu znacznie rozszerza możliwości twórcze. Nano Banana Pro może utrzymywać spójność wizualną i podobieństwo do 5 osób oraz łączyć do 14 elementów wejściowych w złożonych kompozycjach. Umożliwia to np. łatwe przenoszenie szkiców do fotorealistycznych struktur 3D. Użytkownicy otrzymują również zaawansowane kontrole w stylu studyjnym , pozwalające na precyzyjną lokalną edycję , zmianę kątów kamery, dostosowanie ostrości , a także aplikację zaawansowanego kolorowania czy transformację oświetlenia sceny (np. zmiana dnia na noc lub efekt bokeh). Gotowe kreacje są dostępne w rozdzielczości 2K i 4K oraz różnych proporcjach obrazu.

    Aby zwiększyć transparentność, Google wprowadza narzędzie do weryfikacji obrazów. Wszystkie multimedia generowane przez narzędzia Google mają wbudowany niewidzialny znak wodny SynthID. Użytkownicy mogą teraz przesłać obraz do aplikacji Gemini i zapytać, czy został wygenerowany przez Google AI. Widoczny znak wodny (iskierka Gemini) pozostanie dla użytkowników bezpłatnych i subskrybentów Google AI Pro, ale zostanie usunięty dla subskrybentów Google AI Ultra oraz w narzędziu Google AI Studio.

    Nano Banana Pro jest już wdrażany globalnie w aplikacji Gemini  (w opcji „Create images” z modelem „Thinking”) oraz w narzędziach dla profesjonalistów, takich jak Google Ads, Google Slides i Vids dla klientów Workspace.

    Gemini 3 oficjalnie. Google otwiera nową erę AI – to nie ewolucja, to rewolucja. Mamy kompletne szczegóły

    #gemini3ProImage #geminiAplikacja #generowanieObrazow #googleAi #nanoBananaPro #news #synthid #sztucznaInteligencjaGrafika

  2. Koniec z domysłami. Oto jakie są limity w darmowym i płatnym Gemini

    Google wprowadza pełną transparentność w kwestii limitów użytkowania swojego asystenta AI.

    Firma opublikowała oficjalną tabelę, która szczegółowo określa, na co mogą liczyć użytkownicy darmowej wersji Gemini, a co otrzymują subskrybenci płatnych planów Google AI Pro oraz Google AI Ultra. To koniec z niejasnymi określeniami i początek jasnych zasad.

    Google Gemini for Home startuje 1 października

    Co dostajemy za darmo?

    Użytkownicy, którzy korzystają z Gemini bez dodatkowych opłat, mają do dyspozycji model 2.5 Pro z pewnymi ograniczeniami. Dzienny limit promptów (poleceń) wynosi 5. W ciągu doby można wygenerować lub edytować do 100 obrazów.

    Funkcja pogłębionej analizy, Deep Research, jest limitowana do 5 raportów na miesiąc, przy czym korzysta z modelu 2.5 Flash, a nie Pro (to znaczne ograniczenie możliwości tego narzędzia). Wszyscy użytkownicy, niezależnie od planu, mogą wygenerować do 20 podsumowań audio dziennie. Okno kontekstowe w darmowej wersji wynosi 32 tysiące tokenów.

    Plan Google AI Pro dla bardziej wymagających

    Pierwszy próg płatny, Google AI Pro kosztujący w Polsce 97,99 zł miesięcznie (1 miesiąc gratis), znacząco zwiększa możliwości. Limit promptów dla modelu 2.5 Pro wzrasta do 100 dziennie. Możliwości graficzne również rosną – do 1000 generowanych lub edytowanych obrazów na dobę.

    Znacznie potężniejsza staje się funkcja Deep Research, z której można korzystać do 20 razy dziennie w oparciu o model 2.5 Pro. Subskrybenci otrzymują także dostęp do generowania wideo – do 3 klipów dziennie za pomocą Veo 3 Fast (w wersji zapoznawczej). Ogromnym przeskokiem jest również okno kontekstowe, które rośnie z 32 tysięcy do 1 miliona tokenów.

    Google AI Ultra dla profesjonalistów

    Najwyższy i najdroższy plan, Google AI Ultra (1229,99 miesięcznie, ale przez pierwsze trzy miesiące płacisz 609,99 zł miesięcznie), jest skierowany do najbardziej zaawansowanych użytkowników. Limit promptów dla 2.5 Pro to aż 500 dziennie. Limit generowania obrazów pozostaje taki sam jak w planie Pro (1000 na dobę). Drastycznie wzrasta za to limit dla Deep Research – do 200 raportów dziennie. Możliwości wideo to 5 klipów na dobę z użyciem Veo 3. W tym planie pojawiają się także zupełnie nowe, ekskluzywne funkcje: Deep Think (do 10 promptów dziennie) oraz Scheduled actions (do 10 aktywnych akcji jednocześnie). Poniżej jeszcze zrzut tabeli od Google’a z aktualnymi ograniczeniami Gemini zależnie od posiadanego planu:

    Zainteresowanych odsyłam również do odpowiedniego miejsca na witrynie wsparcia Google.

    Google Gemini staje się osobistym nauczycielem. Startuje „Nauka ze wskazówkami”

    #AI #cennikGemini #DeepResearch #DeepThink #Gemini25Pro #GeminiAIPro #GeminiAIUltra #generowanieObrazów #GoogleGemini #limityGemini #modelJęzykowy #news #sztucznaInteligencja #Veo3

  3. Google ulepsza edycję zdjęć w Gemini. AI ma teraz zachowywać tożsamość osób

    Google ogłosiło wprowadzenie znaczącej aktualizacji funkcji edycji obrazów w aplikacji Gemini. Nowy model, opracowany przez laboratorium DeepMind, ma rozwiązać jeden z największych problemów generatorów AI – zachowanie spójnego wyglądu postaci na modyfikowanych i nowo tworzonych (generowanych przez AI) zdjęciach.

    Jednym z największych wyzwań dla narzędzi opartych na sztucznej inteligencji było do tej pory wierne odwzorowanie konkretnych osób. Często po edycji, np. zmianie tła lub ubrania, twarz na zdjęciu była „podobna, ale nie identyczna”. Najnowsza aktualizacja Gemini ma to zmienić. Jak informuje Google, algorytmy zostały udoskonalone, aby precyzyjnie zachowywać rysy twarzy i wygląd osób, a nawet zwierząt, niezależnie od wprowadzanych zmian.

    Apple rozmawia z Google o wsparciu Siri przez Gemini AI

    Zaktualizowane narzędzie wprowadza kilka nowych, praktycznych funkcji. Użytkownicy mogą teraz przesłać zdjęcie i za pomocą poleceń tekstowych zmieniać strój czy scenerię, w której znajduje się dana osoba. Możliwe stało się także łączenie kilku fotografii w jedną spójną scenę, na przykład umieszczenie portretu swojego i swojego psa na zupełnie nowym, wygenerowanym tle. Gemini pozwala również na edycję wieloetapową, czyli stopniowe dodawanie lub zmienianie elementów na obrazie.

    Wśród ciekawszych nowości znalazła się funkcja „miksowania stylów”. Pozwala ona na przeniesienie wzoru lub tekstury z jednego obrazu na obiekt znajdujący się na drugim. W materiałach Google jako przykład podano możliwość zaprojektowania sukienki z wzorem skrzydeł motyla lub stworzenie kaloszy, których faktura imituje płatki kwiatów. Wszystkie te operacje mają odbywać się z zachowaniem oryginalnego wyglądu kluczowych obiektów.

    Google podkreśla również dbałość o transparentność. Firma zapewnia, że wszystkie obrazy, które zostały stworzone lub zmodyfikowane w aplikacji Gemini, będą oznaczane. Na każdej grafice umieszczony zostanie widoczny znak wodny, a dodatkowo w pliku zaszyty będzie niewidoczny cyfrowy znacznik SynthID, który pozwoli jednoznacznie zidentyfikować materiał jako wygenerowany przez AI. Zaktualizowane funkcje są dostępne dla użytkowników od dziś.

    #AI #aktualizacja #Aplikacje #edycjaZdjęć #Gemini #generowanieObrazów #Google #GoogleDeepMind #news #SynthID #sztucznaInteligencja #technologia

  4. Elon Musk ogłasza nową wersję Grok Imagine. Ulepszone AI do generowania obrazów jest już dostępne

    Elon Musk za pośrednictwem swojego konta na platformie X ogłosił udostępnienie nowej, ulepszonej wersji Grok Imagine.

    Jest to moduł odpowiedzialny za generowanie obrazów w ramach jego projektu sztucznej inteligencji Grok, rozwijanego przez firmę xAI. Wiadomość pojawiła się zaledwie kilka minut po północy polskiego czasu w nocy z niedzieli na poniedziałek (10/11 sierpnia), wzbudzając natychmiastowe zainteresowanie w świecie technologii.

    xAI rzuca wyzwanie OpenAI i udostępnia za darmo generator wideo

    Ogłoszenie Muska jest bezpośrednim nawiązaniem do wpisu innego użytkownika, „DogeDesigner”, który poinformował o pojawieniu się w App Store nowej aktualizacji aplikacji Grok do wersji 1.1.43. Główną nowością w tej wersji mają być właśnie „ulepszone funkcje Imagine”. Choć na razie nie podano szczegółów technicznych dotyczących wprowadzonych zmian, można się spodziewać poprawy jakości, szybkości lub zrozumienia promptów przez model.

    Improved version of Grok Imagine now available https://t.co/TGtH6EGWe7

    — Elon Musk (@elonmusk) August 10, 2025

    Krok ten jest kolejnym elementem zaciętej rywalizacji na rynku generatywnej sztucznej inteligencji. Grok Imagine, jako konkurent dla takich narzędzi jak DALL-E od OpenAI czy Midjourney, jest stale rozwijany, a każda aktualizacja ma na celu zmniejszenie dystansu do liderów lub zaoferowanie unikalnych możliwości. Błyskawiczne tempo wdrażania poprawek i ogłaszanie ich bezpośrednio przez Elona Muska stało się już cechą charakterystyczną strategii firmy xAI.

    #AI #AppStore #ElonMusk #generowanieObrazów #Grok #GrokImagine #news #sztucznaInteligencja #Twitter #X #xAI

  5. Apple odkrywa na nowo zapomnianą technikę AI do generowania obrazów – Normalizing Flows

    Apple zaprezentowało dwa badania, w których reaktywuje mało znaną technikę AI – Normalizing Flows (NF), mogącą konkurować z popularnymi dziś modelami dyfuzyjnymi (np. Stable Diffusion) i autoregresyjnymi (np. GPT-4o).

    Czym są Normalizing Flows? To modele, które uczą się przekształcać dane rzeczywiste (np. obrazy) w szum i odwrotnie, z możliwością dokładnego obliczania prawdopodobieństwa wygenerowanego obrazu – coś, czego nie potrafią modele dyfuzyjne.

    Pierwsze badanie TarFlow łączy Normalizing Flows z architekturą Transformerów. Generuje obraz bez tokenizacji, operując bezpośrednio na wartościach pikseli. To redukuje utratę jakości typową dla modeli przekształcających obrazy w symbole tekstowe.

    Obrazy o różnych rozdzielczościach wygenerowane przez modele TarFlow. Od lewej do prawej, od góry do dołu: obrazy 256×256 w AFHQ, obrazy 128×128 i 64×64 w ImageNet.

    2 badanie STARFlow działa w przestrzeni latentnej – generuje uproszczony obraz, który dekoder przekształca w wysoką rozdzielczość. Model może być zasilany zewnętrznymi LLM-ami (np. Gemma), które interpretują polecenia tekstowe użytkownika, a STARFlow skupia się na szczegółach wizualnych.

    Losowe próbki STARFlow na ImageNet 256 × 256 i 512 × 512.

    Jak wygląda porównanie Apple z OpenAI?

    GPT-4o generuje obrazy jako sekwencje tokenów (jak tekst), co daje uniwersalność, ale jest wolne i zasobożerne – wymaga pracy w chmurze.

    STARFlow jest zoptymalizowany pod pracę lokalną (on-device) – szybszy i bardziej energooszczędny.

    Apple stawia na wydajne, lokalne generowanie obrazów, idealne dla urządzeń mobilnych.

    #AI #aiapple #AppleAI #appleai #appleml #applevsopenai #generatywnaSztucznaInteligencja #generowanieobrazów #gpt4o #normalizingflows #OpenAI #starflow #sztucznaInteligencja #sztucznainteligencja #tarflow #technologia #transformerai