home.social

#generatywna-sztuczna-inteligencja — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #generatywna-sztuczna-inteligencja, aggregated by home.social.

fetched live
  1. Wielkie wdrożenie AI w branży IT. 130 tysięcy pracowników DXC dostanie asystenta Amazon Q

    DXC Technology, globalny integrator usług IT, poinformował o rozpoczęciu masowego wdrożenia sztucznej inteligencji w swoich strukturach.

    Aż 130 tysięcy pracowników firmy na całym świecie otrzyma dostęp do asystentów Amazon Q Business oraz Amazon Q Developer. Ruch ten ma na celu nie tylko optymalizację wewnętrznych procesów, ale też stworzenie wzorca implementacyjnego, który DXC zamierza następnie oferować swoim klientom.

    Decyzja o tak szerokim wdrożeniu jest efektem strategicznego partnerstwa między DXC a Amazon Web Services (AWS). Firma chce wykorzystać generatywną sztuczną inteligencję do usprawnienia przepływu pracy i zwiększenia produktywności na niespotykaną dotąd skalę wewnątrz własnej organizacji.

    Amazon stawia sprawę jasno: AI to nie tylko czat, to redukcja etatów i „autonomiczni agenci”. Przyszłość według AWS

    AI na biurku programisty

    Kluczowym elementem tej operacji jest udostępnienie narzędzi AI zespołom technicznym. Asystent Amazon Q Developer ma wspierać inżynierów DXC na każdym etapie cyklu życia oprogramowania (SDLC).

    W praktyce oznacza to wykorzystanie AI do zadań, które dotychczas pochłaniały mnóstwo czasu: analizy i zrozumienia istniejącej bazy kodu (często zastanego, tzw. legacy), przyspieszenia pisania nowych funkcji, aktualizacji języków programowania, a także testowania i dbania o bezpieczeństwo tworzonych aplikacji. Firma liczy, że automatyzacja rutynowych zadań deweloperskich znacząco zwiększy efektywność dostarczania oprogramowania.

    Własne doświadczenie jako produkt

    Równolegle z wewnętrznym wdrożeniem, DXC uruchamia program wsparcia dla swoich klientów. Firma zamierza monetyzować własne, świeżo zdobyte doświadczenie w implementacji narzędzi Amazon Q na olbrzymią skalę, oferując je jako gotowy plan transformacji dla innych przedsiębiorstw korzystających z chmury AWS.

    W ramach nowych Centrów Doskonałości (Centers of Excellence), DXC będzie oferować klientom szkolenia i certyfikacje – m.in. w zakresie coraz bardziej pożądanej inżynierii promptów (prompt engineering). Cel jest prosty: pomóc organizacjom w szybszym i bezpieczniejszym przejściu przez proces adopcji generatywnej AI, korzystając ze sprawdzonego na żywym organizmie wzorca.

    #AmazonQ #AmazonQDeveloper #AmazonWebServices #aws #dlaProgramistów #DXCTechnology #generatywnaSztucznaInteligencja #promptEngineering #wdrożenieAI
  2. 9 godzin dziennie przed generatorem obrazów. Pracownica startupu o załamaniu nerwowym i „cyfrowym uzależnieniu”

    Czy młotek jest winny, gdy uderzysz się nim w palec? Caitlin Ner, była szefowa UX w startupie technologicznym, opisała historię swojego załamania nerwowego po wielogodzinnych sesjach z generatywnym AI. Choć media chętnie chwytają hasło „psychoza AI”, kluczowy w tej historii wydaje się inny wątek: wcześniejsza diagnoza choroby dwubiegunowej i brak cyfrowej higieny.

    Historia opisana przez serwis Futurism to studium przypadku, jak nowe technologie mogą wchodzić w reakcję z ludzką psychiką – zwłaszcza tą, która już wcześniej była obciążona.

    Narzędzie, dopamina i choroba dwubiegunowa

    Caitlin Ner w swojej pracy spędzała nawet dziewięć godzin dziennie na generowaniu grafik AI. Początkowa fascynacja technologią szybko zamieniła się w kompulsywne zachowanie. Jak sama przyznaje, każdy wygenerowany obraz dawał jej „mały strzał dopaminy”, co mechanizmem przypomina uzależnienie od hazardu czy mediów społecznościowych.

    Problem w tym, że Ner leczyła się wcześniej na chorobę afektywną dwubiegunową. Choć przed podjęciem pracy jej stan był stabilny, specyfika zadania – ciągłe generowanie wyidealizowanych wersji samej siebie („gdybym tylko wyglądała jak moja wersja AI”) – zadziałała jak zapalnik. Intensywna stymulacja mózgu i brak snu wywołały epizod maniakalny.

    Od obrazka na ekranie do halucynacji

    W trakcie manii Ner straciła kontakt z rzeczywistością. Gdy wygenerowała obraz samej siebie na latającym koniu, jej umysł w stanie psychozy zinterpretował to dosłownie – zaczęła wierzyć, że potrafi latać. Doprowadziło to do niebezpiecznej sytuacji, w której „głosy” sugerowały jej skok z balkonu.

    Wnioski? To nie wina technologii, a sposobu użycia

    Ner odeszła z pracy w startupie, a terapia pomogła jej zrozumieć, że wpadła w spiralę cyfrowego uzależnienia. Co istotne – i co przeczy tezie o „złym AI” – bohaterka tej historii nie porzuciła technologii. Obecnie pracuje w funduszu PsyMed Ventures inwestującym w zdrowie psychiczne i… nadal korzysta z narzędzi AI. Różnica polega na tym, że teraz traktuje je z dystansem, jako narzędzie pracy, a nie lustro, w którym szuka potwierdzenia własnej wartości.

    Psychoza chatbotowa: czy AI zagraża zdrowiu psychicznemu? Dane studzą alarmistyczne nastroje

    #AI #chorobaDwubiegunowa #generatywnaSztucznaInteligencja #psychologiaTechnologii #uzależnienieCyfrowe #zdrowiePsychiczne
  3. Koniec renderowania w nieskończoność. TurboDiffusion skraca czas generowania wideo o… 200 razy

    Jeśli generowanie klipów wideo przez AI kojarzyło wam się z długim oczekiwaniem na wynik, chińskie ShengShu Technology właśnie zmienia zasady gry.

    Nowy framework TurboDiffusion pozwala generować wideo w czasie zbliżonym do rzeczywistego, osiągając wyniki nawet 200 razy szybciej niż dotychczasowe modele.

    ShengShu Technology we współpracy z laboratorium TSAIL Uniwersytetu Tsinghua udostępniło kod źródłowy rozwiązania o nazwie TurboDiffusion. Twórcy określają to wydarzenie mianem „momentu DeepSeek” dla modeli wideo – czyli punktem zwrotnym, który pozwala na masowe i tanie wdrażanie technologii, która dotąd była droga i powolna.

    Z 15 minut do 8 sekund

    Największe wrażenie robią twarde dane z testów. Zastosowanie TurboDiffusion do autorskiego modelu Vidu pozwoliło na wygenerowanie 8-sekundowego klipu w jakości 1080p w zaledwie 8 sekund. Dla porównania – wcześniej ten sam proces zajmował około 900 sekund (15 minut). Oznacza to przejście z mozolnego renderowania do generowania treści niemal w czasie rzeczywistym.

    Co istotne dla entuzjastów sprzętu, tak drastyczny skok wydajności (od 100 do 200 razy szybciej) osiągnięto na pojedynczej karcie graficznej RTX 5090. Owszem, to bardzo drogi sprzęt (ok. 15 000 zł), ale tańszy niż… centrum danych.

    Jak oni to zrobili? Cztery filary przyspieszenia

    ShengShu i Tsinghua twierdzą, że nie jest to wynik jednej sztuczki, ale połączenia czterech zaawansowanych technik optymalizacji, które nie degradują jakości obrazu:

    • SageAttention: przeniesienie obliczeń atencji na niskobitowe rdzenie Tensor Core (rozwiązanie to jest już wdrażane m.in. przez NVIDIA, Google i ByteDance).
    • Sparse-Linear Attention (SLA): trenowalna, rzadka atencja, która dokłada kolejne 17-20x przyspieszenia do powyższego.
    • Destylacja kroków (rCM): redukcja liczby kroków potrzebnych do wygenerowania wideo do zaledwie 3–4, przy zachowaniu wysokiej jakości.
    • Akceleracja warstw liniowych: kwantyzacja wag i aktywacji do 8 bitów (W8A8), co drastycznie zmniejsza zapotrzebowanie na pamięć VRAM.

    Kod TurboDiffusion został udostępniony jako open-source, co oznacza, że wkrótce rozwiązania te mogą trafić do szerokiego grona twórców i innych modeli AI.

    Google Photos trafi natywnie na telewizory Samsunga. W pakiecie edycja AI i Nano Banana

    #AIWideo #generatywnaSztucznaInteligencja #openSource #RTX5090 #ShengShuTechnology #TurboDiffusion #Vidu
  4. Warner Music Group i Stability AI łączą siły. Powstanie „etyczne” narzędzie do generowania muzyki

    Jeden z trzech największych koncernów muzycznych na świecie – Warner Music Group (WMG) – ogłosił nawiązanie strategicznej współpracy z firmą Stability AI. To bezprecedensowa zmiana podejścia na linii wielkie wytwórnie – firmy AI.

    Celem partnerstwa jest stworzenie nowej generacji narzędzi opartych na sztucznej inteligencji, które będą służyć artystom, szanując jednocześnie prawa autorskie twórców.

    To istotny zwrot w relacjach między branżą fonograficzną a sektorem technologicznym. W czasie gdy wiele wytwórni toczy batalie prawne z twórcami generatorów muzyki, zarzucając im nielegalne wykorzystywanie utworów do treningu modeli, WMG decyduje się na model kooperacyjny. Inicjatywa ma skupić się na opracowaniu „profesjonalnych narzędzi”, które pozwolą kompozytorom i producentom na eksperymentowanie z AI przy użyciu modeli trenowanych w sposób etyczny i transparentny.

    Ochrona praw i nowe przychody

    Wspólny projekt zakłada wykorzystanie technologii Stability AI (znanej m.in. z modelu Stable Audio) w taki sposób, aby była ona bezpieczna komercyjnie. Oznacza to, że generowane dźwięki i kompozycje nie będą naruszać praw autorskich stron trzecich, co jest obecnie największą bolączką narzędzi takich jak Suno czy Udio. Firmy deklarują, że nowe rozwiązania otworzą przed artystami kolejne ścieżki monetyzacji, choć szczegóły modelu biznesowego nie zostały jeszcze ujawnione.

    Artyści w centrum procesu

    Zarówno Carletta Higginson (Executive Vice President i Chief Digital Officer w WMG), jak i Prem Akkaraju (CEO Stability AI), podkreślają, że technologia ma pełnić rolę wspierającą, a nie zastępczą.

    Nowe narzędzia mają być konsultowane bezpośrednio z artystami, aby upewnić się, że realnie usprawniają proces twórczy, nie obniżając przy tym jakości i nie odbierając kontroli człowiekowi.

    Stability AI stawia na licencje

    Dla Stability AI partnerstwo z gigantem takim jak Warner Music Group jest potwierdzeniem słuszności ich strategii. Firma od dłuższego czasu pozycjonuje się jako dostawca „bezpiecznego AI” dla biznesu, trenując swoje modele (np. z rodziny Stable Audio) wyłącznie na licencjonowanych danych. Współpraca z WMG daje im dostęp do ogromnych zasobów i wiedzy, co może dać im przewagę nad konkurencją, która wciąż boryka się z problemami prawnymi dotyczącymi źródeł danych treningowych.

    Warto też zauważyć, że to nie pierwsza współpraca Stability AI z uznanymi podmiotami w branży kreatywnej. Już wcześniej informowaliśmy was o nawiązaniu partnerstwa Stability AI z Universal Music oraz EA.

    Stability AI wchodzi do gier i muzyki. Ogłasza partnerstwo z EA i Universal Music

    #aiWMuzyce #generatywnaSztucznaInteligencja #news #prawaAutorskieWMuzyce #stabilityAi #stableAudio #warnerMusicGroup

  5. Apple odkrywa na nowo zapomnianą technikę AI do generowania obrazów – Normalizing Flows

    Apple zaprezentowało dwa badania, w których reaktywuje mało znaną technikę AI – Normalizing Flows (NF), mogącą konkurować z popularnymi dziś modelami dyfuzyjnymi (np. Stable Diffusion) i autoregresyjnymi (np. GPT-4o).

    Czym są Normalizing Flows? To modele, które uczą się przekształcać dane rzeczywiste (np. obrazy) w szum i odwrotnie, z możliwością dokładnego obliczania prawdopodobieństwa wygenerowanego obrazu – coś, czego nie potrafią modele dyfuzyjne.

    Pierwsze badanie TarFlow łączy Normalizing Flows z architekturą Transformerów. Generuje obraz bez tokenizacji, operując bezpośrednio na wartościach pikseli. To redukuje utratę jakości typową dla modeli przekształcających obrazy w symbole tekstowe.

    Obrazy o różnych rozdzielczościach wygenerowane przez modele TarFlow. Od lewej do prawej, od góry do dołu: obrazy 256×256 w AFHQ, obrazy 128×128 i 64×64 w ImageNet.

    2 badanie STARFlow działa w przestrzeni latentnej – generuje uproszczony obraz, który dekoder przekształca w wysoką rozdzielczość. Model może być zasilany zewnętrznymi LLM-ami (np. Gemma), które interpretują polecenia tekstowe użytkownika, a STARFlow skupia się na szczegółach wizualnych.

    Losowe próbki STARFlow na ImageNet 256 × 256 i 512 × 512.

    Jak wygląda porównanie Apple z OpenAI?

    GPT-4o generuje obrazy jako sekwencje tokenów (jak tekst), co daje uniwersalność, ale jest wolne i zasobożerne – wymaga pracy w chmurze.

    STARFlow jest zoptymalizowany pod pracę lokalną (on-device) – szybszy i bardziej energooszczędny.

    Apple stawia na wydajne, lokalne generowanie obrazów, idealne dla urządzeń mobilnych.

    #AI #aiapple #AppleAI #appleai #appleml #applevsopenai #generatywnaSztucznaInteligencja #generowanieobrazów #gpt4o #normalizingflows #OpenAI #starflow #sztucznaInteligencja #sztucznainteligencja #tarflow #technologia #transformerai

  6. Przewaga Apple opiera się na trzech nieudostępnionych jeszcze funkcjach

    Przewaga Apple w dziedzinie AI opiera się na trzech nieudostępnionych jeszcze funkcjach Siri.

    Najbardziej widoczną zmianą w Siri na iOS 18 jest nowy design – tęczowa poświata wokół ekranu zamiast pływającej kuli. Siri wykorzystuje teraz Apple Intelligence, jednak najważniejsze funkcje AI dopiero nadejdą w kolejnych aktualizacjach iOS 18.

    Apple wprowadził 13 nowych funkcji Siri, ale największe zmiany jeszcze nie nadeszły. Dotychczas Siri może m.in. lepiej rozumieć niepełne komendy, zapamiętywać kontekst rozmowy, mieć bardziej naturalny głos, oferować sugestie na klawiaturze oraz integrować się z ChatGPT.

    Najważniejsze aktualizacje Siri w iOS 18.4 (lub późniejszym), które dopiero się pojawią to:

    1. Zrozumienie kontekstu osobistego – Siri odczyta dane z e-maili, wiadomości, zdjęć czy kalendarza, by udzielać spersonalizowanych odpowiedzi.
    2. Świadomość ekranu – Siri zrozumie treści wyświetlane na ekranie i zareaguje na nie.
    3. Działania w aplikacjach – Siri będzie wykonywać polecenia w różnych aplikacjach, np. edytować zdjęcia lub dodawać je do notatek.

    Te funkcje mogą zadecydować o przyszłości Siri i pozycji Apple w świecie AI.

    #AI #AppleIntelligence #generatywnaSztucznaInteligencja #iOS18 #iOS184 #nowaSiri

  7. Apple powołuje nowego lidera, by ulepszyć Siri i rozwój sztucznej inteligencji

    Siri i Apple Intelligence wciąż pozostają w tyle za konkurencją, taką jak OpenAI czy Anthropic. W odpowiedzi Apple wyznaczyło Kim Vorrath, doświadczoną weterankę firmy, do poprawy działania AI.

    Vorrath, dotychczas zajmująca się zarządzaniem projektami, teraz będzie wspierać szefa AI, Johna Giannandrea, w reorganizacji i rozwoju sztucznej inteligencji.

    Nowa Siri z ulepszoną Apple Intelligence ma pojawić się w kolejnych wersjach iOS 18, z funkcjami, które pozwolą na bardziej inteligentne interakcje, np. dodawanie adresów z wiadomości do kontaktów czy wyszukiwanie treści w aplikacjach Apple i zewnętrznych.

    Pomimo postępów, Apple wciąż zmaga się z wyzwaniami, np. niedokładnymi podsumowaniami powiadomień w iOS 18.3, co zmusiło firmę do ich ograniczenia. Nowe funkcje Siri są oczekiwane w nadchodzących aktualizacjach, które mają poprawić jej użyteczność i dopasowanie do użytkownika.

    Wersje RC – iOS 18.3, iPadOS 18.3, tvOS 18.3, watchOS 11.3, visionOS 2.3 oraz macOS Sequoia 15.3

    #AI #AppleIntelligence #generatywnaSztucznaInteligencja #sztucznaInteligencja

  8. Apple One może zyskać nową usługę jeszcze w tym roku

    Apple planuje wprowadzenie nowej usługi, opartej na sztucznej inteligencji, która ma wspierać zdrowie użytkowników.

    AI Health Coaching

    Nowa aplikacja, nazywana przez Marka Gurmana „AI coaching service”, ma oferować:

    • Osobną miesięczną subskrypcję.
    • Analizować dane z Apple Watch, aby udostępniać spersonalizowane sugestie dotyczące aktywności fizycznej, diety i snu.
    • Możliwie używać kamery urządzeń do monitorowania i poprawiania formy podczas ćwiczeń.

    Usługa będzie bardziej kompleksowa niż Apple Fitness+, koncentrując się na całościowym podejściu do zdrowia.

    Możliwość integracji z Apple One

    Nowa usługa, potencjalnie nazwana „Apple Coach”, może zostać włączona do Apple One Premier, co zwiększy atrakcyjność subskrypcji.

    Apple pracuje nad nowymi funkcjami zdrowotnymi, takimi jak monitorowanie ciśnienia krwi w Apple Watch Ultra 3 i Series 11 oraz detekcja tętna w AirPods Pro 3. Wszystko wskazuje na to, że Apple Coach zostanie uruchomiony jesienią 2025 roku, jako osobna usługa i część Apple One.

    #AI #AirPods #AppleCoach #AppleIntelligence #AppleWatch #fitness #generatywnaSztucznaInteligencja

  9. Apple jednak chce zarabiać na Apple Intelligence

    Apple zamierza zarabiać na Apple Intelligence bez bezpośrednich opłat, wprowadzając opcje subskrypcji od partnerów, takich jak ChatGPT Plus, w wersji beta iOS 18.2.

    W ten sposób użytkownicy mają dostęp do darmowych funkcji, a jednocześnie Apple otrzymuje prowizję z płatnych subskrypcji partnerów.

    To pozwoli Apple zarabiać na AI, jednocześnie utrzymując darmowe opcje dla klientów, a przyszłe aktualizacje mogą wprowadzić kolejne płatne integracje, jak Google Gemini.

    Pierwotnie firma deklarowała, że nie zamierza wprowadzać podobnych rozwiązać i już wtedy pisałem, że wydaje mi się to niemożliwe. Nie myliłem się.

    Apple Intelligence dostępny w UE? Tak, wiemy kiedy

    #AI #AppleIntelligence #ChatGPT #generatywnaSztucznaInteligencja #sztucznaInteligencja

  10. Zespół badawczy Apple ujawnił poważne braki w zdolnościach rozumowania modeli językowych AI, zgodnie z nowym badaniem opublikowanym na arXiv.

    Apple oceniło wiodące modele, w tym te od OpenAI i Meta, pod kątem zadań matematycznego rozumowania. Okazało się, że nawet niewielkie zmiany w sformułowaniu pytań mogą prowadzić do znacznych różnic w wynikach, podważając ich niezawodność.

    Nie znaleźliśmy żadnych dowodów na formalne rozumowanie w modelach językowych. Ich zachowanie jest lepiej wyjaśnione przez wyrafinowane dopasowywanie wzorców – tak delikatne, że zmiana nazw może zmienić wyniki o ~10%.

    – to podsumowuje częste stosowanie nad wyraz rzeczownika „inteligencja”.

    Badanie pokazuje, że modele AI bardziej polegają na dopasowywaniu wzorców niż na prawdziwym rozumowaniu logicznym. Na przykład dodanie nieistotnych szczegółów do prostego zadania matematycznego wpłynęło na wyniki modeli, mimo że te informacje nie miały związku z rozwiązaniem.

    Apple sugeruje, że przyszłe modele AI mogą wymagać połączenia sieci neuronowych z tradycyjnym, symbolicznym rozumowaniem, aby poprawić precyzję i niezawodność w zadaniach wymagających logicznego myślenia.

    W badaniu nie ma ani słowa o Apple Intelligence.

    Z pełnym raportem z badania możecie zapoznać się tutaj.

    https://imagazine.pl/2024/10/15/apple-ujawnia-braki-w-modelach-ai/

    #AI #AppleIntelligence #badanie #generatywnaSztucznaInteligencja #sztucznaInteligencja

  11. Według Marka Gurmana z Bloomberga, Apple jest gotowe do zaprezentowania szeregu funkcji wykorzystujących generatywną sztuczną inteligencję.

    Gurman przedstawia więcej szczegółów na temat tego, czego można się spodziewać po nacisku Apple na AI podczas nadchodzącego WWDC 2024, które rozpocznie się już 10 czerwca.

    W ramach zmian firma poprawi możliwości głosowe Siri, nadając jej bardziej konwersacyjny charakter i doda funkcje, które pomogą użytkownikom w codziennym życiu – podejście to Apple ma nazwać „proaktywną inteligencją”.

    Obejmie to usługi takie jak automatyczne podsumowywanie powiadomień z iPhone’a, szybkie streszczanie artykułów z wiadomościami i transkrypcję notatek głosowych, a także ulepszanie istniejących funkcji, które automatycznie wypełniają kalendarz i zasugerują aplikacje, których powinniśmy użyć. Pojawią się również pewne ulepszenia w Zdjęciach w postaci edycji opartej na sztucznej inteligencji, ale żadna z tych funkcji nie zrobi wrażenia na osobach, które korzystały ze sztucznej inteligencji w aplikacjach Adobe Inc. przez ostatnie kilka miesięcy.

    Gurman dodał, że podczas gdy Apple będzie polegać głównie na przetwarzaniu AI na urządzeniu, firma będzie je również dostarczać za pośrednictwem chmury w centrach danych, które zawierają wysokiej klasy procesory Apple Silicon zaprojektowane dla komputerów Mac (flota Apple M4). Zauważył również, że chatbot podobny do ChatGPT będzie zauważalnie nieobecny w nadchodzących funkcjach AI od Apple.

    Mówi się, że kierownictwo Apple przyznało wewnętrznie, że czas „nadrabić zaległości”. To jednak potrwa.

    WWDC 2024 wystartuje 10 czerwca – nie tylko iOS 18

    https://imagazine.pl/2024/05/20/bloomberg-apple-jest-gotowe-aby-wejsc-w-swiat-ai-na-powaznie/

    #AI #generatywnaSztucznaInteligencja #plotka #Plotki #sztucznaInteligencja #WWDC2204

  12. CEO OpenAI Sam Altman oraz Jony Ive oficjalnie połączyli siły, aby zaprojektować urządzenie oparte na sztucznej inteligencji i szukają finansowania, podaje The Information.

    W tej chwili niewiele wiadomo na temat urządzenia AI, ale nie będzie ono wyglądać jak smartfon. Altman jest głównym inwestorem w Humane AI pin, a urządzenie wearable oparte o AI, które nie będzie miało ekranu ma zaprojektować Ive.

    Wiadomości o możliwym partnerstwie między Ive i Altmanem pojawiły się po raz pierwszy jesienią ubiegłego roku, ale rozmowy były na wczesnym etapie i nic nie było wtedy oficjalne. Nienazwany startup Ive’a i Altmana pozyskuje obecnie fundusze od głównych inwestorów venture capital, a Ive zamierza zebrać do 1 mld USD finansowania. Potencjalni inwestorzy to Thrive Capital, obecny inwestor OpenAI, oraz Emerson Collective, firma venture capital i organizacja filantropijna założona przez Laurene Powell Jobs.

    https://imagazine.pl/2024/04/08/jony-ive-i-sam-altman-szukaja-finansowania/

    #Altman #generatywnaSztucznaInteligencja #JonyIve #OpenAI #sztucznaInteligencja

  13. W niedawno opublikowanym artykule badawczym, guru projektu AI w Apple opisują system, w którym Siri może zrobić znacznie więcej niż tylko próbować rozpoznać, co znajduje się na obrazie. Uważają, że jeden z ich modeli do wykonywania tych testów porównawczych jest lepszy niż ChatGPT 4.0.

    artykule (ReALM: Reference Resolution As Language Modeling) Apple opisuje coś, co może zwiększyć użyteczność asystenta głosowego z dużymi modelami językowymi. ReALM bierze pod uwagę zarówno to, co znajduje się na ekranie, jak i aktywne zadania.

    Oto fragment artykułu, który opisuje zadanie, o którym mowa:

    • Podmioty na ekranie: Są to jednostki, które są aktualnie wyświetlane na ekranie użytkownika.
    • Podmioty konwersacyjne: Są to jednostki istotne dla konwersacji. Podmioty te mogą pochodzić z poprzedniego zwrotu użytkownika (na przykład, gdy użytkownik mówi „Zadzwoń do mamy, kontakt do mamy byłby odpowiednim podmiotem) lub od wirtualnego asystenta (na przykład, gdy agent dostarcza użytkownikowi listę miejsc lub alarmów do wyboru).
    • Podmioty w tle: Są to odpowiednie jednostki, które pochodzą z procesów w tle, które niekoniecznie muszą być bezpośrednią częścią tego, co użytkownik widzi na ekranie lub interakcji z wirtualnym agentem; na przykład alarm, który zaczyna dzwonić lub muzyka, która gra w tle.

    Jeśli to działa dobrze, brzmi to jak przepis na inteligentniejszą i bardziej użyteczną Siri. Apple jest również przekonane o swojej zdolności do wykonania takiego zadania z imponującą szybkością.

    Jako kolejny punkt odniesienia uruchamiamy warianty GPT-3.5 (Brown i in., 2020; Ouyang i in., 2022) i GPT-4 (Achiam i in., 2023) ChatGPT, dostępne 24 stycznia 2024 r., zdolne uczyć się na bazie zadanych kontekstów. Podobnie jak w naszej konfiguracji, staramy się, aby oba warianty przewidywały listę podmiotów z dostępnego zestawu.

    W przypadku GPT-3.5, który akceptuje tylko tekst, nasze dane wejściowe składają się z samego monitu; jednak w przypadku GPT-4, który ma również możliwość kontekstualizacji na obrazach, dostarczamy systemowi zrzut ekranu do zadania rozdzielczości odniesienia na ekranie, co naszym zdaniem znacznie poprawia wydajność.

    Jak więc radzi sobie model Apple?

    Wykazujemy dużą poprawę w stosunku do istniejącego systemu o podobnej funkcjonalności w różnych typach odniesień, przy czym nasz najmniejszy model uzyskuje bezwzględny wzrost o ponad 5% w przypadku odniesień ekranowych. Przeprowadzamy również testy porównawcze z GPT-3.5 i GPT-4, przy czym nasz najmniejszy model osiąga wydajność porównywalną z GPT-4, a nasze większe modele znacznie go przewyższają.

    Artykuł kończy się częściowo w następujący sposób:

    Pokazujemy, że ReaLM przewyższa poprzednie podejścia i działa mniej więcej tak dobrze, jak najnowocześniejszy obecnie LLM, GPT-4, mimo że składa się ze znacznie mniejszej liczby parametrów, nawet w przypadku odniesień ekranowych, mimo że dotyczy wyłącznie domeny tekstowej. Przewyższa również GPT-4 dla specyficznych dla domeny wypowiedzi użytkownika, dzięki czemu ReaLM jest idealnym wyborem dla praktycznego systemu rozwiązywania referencji, który może istnieć na urządzeniu bez uszczerbku dla wydajności.

    Co ciekawe model Apple ma być wykonywany w całości na urządzeniu, bez uszczerbku dla wydajności, co jest kluczowe dla Apple.

    https://imagazine.pl/2024/04/02/ai-od-apple-ma-znacznie-przewyzszac-mozliwosci-chatgpt-4/

    #AI #Apple #ChatGPT #generatywnaSztucznaInteligencja

  14. W zeszłym tygodniu pisałem o tym, że Apple prowadzi intensywne rozmowy na temat partnerstwa z GoogleOpenAI. Mark Gurman z Bloomberga wyjaśnia ich możliwe powody.

    Na łamach ostatniego wydania swojego newslettera, Gurman pisze, że Apple tak bardzo zależy na nawiązaniu partnerstwa z jedną z wymienionych wyżej firm, ponieważ:

    • Firma prawdopodobnie zdoła nakłonić Google lub kogoś innego do zapłacenia jej absurdalnych sum za status bycia partnerem premium w ich systemach operacyjnych. Jeśli będzie to Google, gigant wyszukiwania może stać się preferowaną usługą generatywnej sztucznej inteligencji na telefonach Apple i Android.
    • Apple nie ma przekonania do chatbotów AI, ale wie, że konsumenci i tak będą za nimi tęsknić. Partnerstwo by to zapewniło – a wszystko to przy jednoczesnym potencjalnym zarobieniu przez Apple dodatkowych pieniędzy.
    • W świecie generatywnej sztucznej inteligencji istnieje mnóstwo problemów etycznych i związanych z prywatnością. Przekazując tę technologię osobie trzeciej, Apple może ją o wszystko obwiniać i ponosić znacznie mniejszą odpowiedzialność.
    • Uruchamianie generatywnej sztucznej inteligencji opartej na chmurze jest niezwykle kosztowne i wymaga dużej mocy obliczeniowej. Korzystając z partnera, ktoś inny płaci te ogromne rachunki.
    • Partnerstwo może pomóc Apple szybciej zintegrować sztuczną inteligencję. Na przykład firma może skorzystać z usług lokalnych dostawców w Chinach, takich jak Baidu Corp., zamiast kontaktować się z organami regulacyjnymi i lokalizować własną technologię.

    Podsumowując, w stylu Apple: kilka pieczeni na jednym ogniu.

    https://imagazine.pl/2024/03/25/gurman-apple-na-partnerstwie-z-google-lub-openai-zarobi-podwojnie/

    #AI #Apple #Gemini #generatywnaSztucznaInteligencja #Google #iOS18 #OpenAI #partnerstwo #plotka #Plotki #sztucznaInteligencja

  15. O tym, ze Apple prowadzi rozmowy z Google pisałem na początku tego tygodnia. Tymczasem okazuje się, że firma rozmawia także z OpenAI na temat wykorzystania ich AI jako szkieletu nowych funkcji dla iOS.

    Dyrektor generalny Apple, Tim Cook, obiecał, że w tym roku firma „wprowadzi nowe możliwości” w dziedzinie sztucznej inteligencji i oczekuje się, że iOS 18 odegra dużą rolę. Mówi się jednak, że wewnętrzne prace Apple koncentrują się na funkcjach sztucznej inteligencji na mniejszą skalę, które działają na urządzeniu i nie wymagają połączenia z internetem.

    Aby zapewnić wydajniejsze funkcje generatywnej sztucznej inteligencji oparte na chmurze, takie jak możliwość tworzenia obrazów i pisania esejów na podstawie pojedynczych podpowiedzi, Apple poszukuje partnera, który posiada już niezbędną infrastrukturę sprzętową na dużą skalę i możliwości obliczeniowe.

    Mark Gurman z Bloomberga twierdzi, że jedną ze specyficznych funkcji opracowywanych przez Apple jest ulepszona interakcja między Siri a aplikacją Wiadomości, która umożliwi Siri skuteczniejsze automatyczne uzupełnianie zdań i odpowiadanie na złożone pytania.

    Apple rozmawia z Google w sprawie wprowadzenia AI Gemini do iOS

    https://imagazine.pl/2024/03/22/apple-prowadzi-rozmowy-nie-tylko-z-google-ale-takze-openai/

    #generatywnaSztucznaInteligencja #Google #OpenAI #sztucznaInteligencja