#modele-jezykowe — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #modele-jezykowe, aggregated by home.social.
-
ChatGPT z nowym modelem za darmo. GPT-5.4 mini trafia do wszystkich użytkowników
OpenAI udostępniło nowy model GPT-5.4 mini w darmowej wersji ChatGPT.
To istotna zmiana, ponieważ dotychczas najnowsze modele trafiały przede wszystkim do płatnych planów. Teraz część ich możliwości schodzi poziom niżej – do użytkowników bez subskrypcji.
Nowy wariant jest lżejszą i szybszą wersją GPT-5.4, zaprojektowaną z myślą o codziennym użyciu. Według OpenAI model działa ponad dwukrotnie szybciej niż jego poprzednik (GPT-5 mini), a jednocześnie zbliża się wydajnością do pełnej wersji w wybranych testach.
Szybciej i lepiej w kodzie
Największe zmiany dotyczą pracy z kodem. GPT-5.4 mini lepiej radzi sobie z:
- edycją istniejącego kodu
- poruszaniem się po większych projektach
- generowaniem interfejsów (front-end)
- debugowaniem
To odpowiedź na rosnącą popularność tzw. „vibe codingu”, gdzie AI pełni rolę aktywnego współtwórcy aplikacji, a nie tylko narzędzia do generowania pojedynczych fragmentów.
AI, które nadąża za użytkownikiem
Nowy model został zaprojektowany z naciskiem na niskie opóźnienia. W praktyce oznacza to szybsze odpowiedzi w sytuacjach, gdzie liczy się płynność działania – na przykład przy:
- asystentach programistycznych
- automatycznych agentach wykonujących zadania
- analizie obrazów i pracy multimodalnej
OpenAI podkreśla, że w wielu zastosowaniach to właśnie szybkość reakcji, a nie maksymalna „moc” modelu, decyduje o jakości doświadczenia.
Co jeszcze się zmienia
GPT-5.4 mini trafił nie tylko do darmowego ChatGPT, ale także do API oraz narzędzi deweloperskich, takich jak Codex. Równolegle udostępniono jeszcze lżejszy wariant – GPT-5.4 nano – przeznaczony głównie do zastosowań backendowych i automatyzacji.
To kolejny krok w strategii OpenAI: stopniowego przenoszenia zaawansowanych możliwości AI do darmowych planów. Różnice między wersją bezpłatną a płatną nadal istnieją, ale się zmniejszają – szczególnie w obszarze codziennych zastosowań, takich jak programowanie czy praca z multimediami.
#AI #aktualizacjaChatGPT #ChatGPT #Codex #GPT5 #GPT54Mini #modeleJęzykowe #OpenAI #programowanie #sztucznaInteligencja #technologia #vibeCodingTrzęsienie ziemi w Dolinie Krzemowej? Według ekspertów Microsoft stawia na Claude AI kosztem OpenAI
-
Apple opracowuje model językowy, który generuje długie teksty nawet 128 razy szybciej
Naukowcy Apple i Ohio State University przedstawili nowy model językowy FS-DFM (Few-Step Discrete Flow-Matching), zdolny do generowania pełnych fragmentów tekstu w zaledwie 8 szybkich krokach, osiągając jakość porównywalną z tradycyjnymi modelami dyfuzyjnymi wymagającymi ponad tysiąca iteracji.
Kluczowe różnice:
- Autoregresywne modele LLM (np. ChatGPT) generują tekst sekwencyjnie, token po tokenie.
- Modele dyfuzyjne wytwarzają wiele tokenów jednocześnie, udoskonalając je w wielu krokach.
- Flow-matching pozwala uzyskać końcowy wynik w jednym przebiegu, pomijając wieloetapowe iteracje.
FS-DFM korzysta z trzystopniowej metody: dostosowuje się do różnych liczby iteracji, wspiera go model „nauczycielski” dla większej precyzji oraz optymalizuje każdy krok, aby przyspieszyć generowanie tekstu.
W testach model osiągnął niższą perplexity (dokładniejszy, naturalniejszy tekst) i stabilniejszą entropię (bardziej spójny dobór słów) w porównaniu z większymi modelami dyfuzyjnymi, nawet przy mniejszej liczbie parametrów (1,7 – 0,17 mld).
Apple planuje udostępnić kod i checkpointy FS-DFM, aby umożliwić dalsze badania i reprodukcję wyników.
#AI #AIresearch #Apple #arXiv #badaniaApple #dyfuzja #flowmatching #FSDFM #generowanietekstu #innowacjeAI #LLM #modelejęzykowe #NLP #sztucznainteligencja #szybkiegenerowanietekstu #technologia
-
Naukowcy z MIT otwierają czarną skrzynkę AI. Przełom w projektowaniu leków i szczepionek
Modele sztucznej inteligencji, które potrafią przewidywać strukturę i funkcję białek, zrewolucjonizowały w ostatnich latach biotechnologię, stając się kluczowym narzędziem w poszukiwaniu nowych leków czy projektowaniu szczepionek. Był z nimi jednak pewien problem.
Mimo ich niezwykłej skuteczności, do tej pory działały one jak „czarne skrzynki” – naukowcy nie byli w stanie stwierdzić, na podstawie jakich cech białek AI dokonuje swoich trafnych prognoz. Teraz badacze z MIT opracowali nowatorską metodę, która pozwala zajrzeć do wnętrza tych systemów i zrozumieć ich proces „myślowy”.
Problem z modelami językowymi białek (Protein Language Models) polegał na tym, że choć dostarczały one cennych wyników – na przykład wskazując, które fragmenty białek wirusowych najrzadziej mutują, co czyni je idealnymi celami dla szczepionek – sam proces decyzyjny AI pozostawał tajemnicą. „Na końcu otrzymywaliśmy jakąś prognozę, ale nie mieliśmy absolutnie żadnego pojęcia, co działo się w poszczególnych komponentach tej czarnej skrzynki” – wyjaśnia prof. Bonnie Berger, starsza autorka badania opublikowanego w „Proceedings of the National Academy of Sciences”.
Aby rozwiązać ten problem, zespół z MIT jako pierwszy zastosował w badaniach nad białkami algorytm znany jako „rzadki autoenkoder” (sparse autoencoder). W uproszczeniu, technika ta działa poprzez radykalne rozszerzenie wewnętrznej „przestrzeni” w sieci neuronowej, w której reprezentowane jest białko – na przykład z 480 do 20 000 „węzłów”.
W tak powiększonej przestrzeni, informacje mogą się „rozprzestrzenić”, dzięki czemu pojedyncza cecha białka, która wcześniej była zakodowana w sposób złożony przez wiele węzłów, teraz może zająć jeden, konkretny węzeł. To sprawia, że wewnętrzne działanie modelu staje się znacznie bardziej czytelne i interpretowalne.
W kolejnym kroku naukowcy wykorzystali innego asystenta AI, Claude (tego od Anthropic), do analizy tych nowych, czytelnych reprezentacji. Claude porównał aktywność poszczególnych węzłów sieci ze znanymi cechami tysięcy białek, a następnie opisał w prostym języku, za co dany węzeł odpowiada. Przykładowy opis mógłby brzmieć: „Ten neuron wydaje się wykrywać białka zaangażowane w transport jonów przez błonę komórkową”. Dzięki temu badacze po raz pierwszy mogli zrozumieć, jakie cechy białek są dla modelu kluczowe.
Claude z nową funkcją pamięci. AI od Anthropic uczy się sztuczki od ChatGPT
Odkrycie to ma ogromne znaczenie praktyczne. Zrozumienie, jak działają modele AI, pozwoli naukowcom lepiej dobierać narzędzia do konkretnych zadań, co znacznie usprawni proces identyfikacji nowych celów dla leków i szczepionek. W przyszłości, gdy modele staną się jeszcze potężniejsze, zaglądanie do ich wnętrza może prowadzić do odkrywania zupełnie nowych, nieznanych dotąd mechanizmów biologicznych.
#AI #białka #biotechnologia #medycyna #MIT #modeleJęzykowe #Nauka #news #projektowanieLeków #szczepionki #sztucznaInteligencja
-
Apple przyspiesza działanie modeli AI nawet 5 razy
Apple opublikowało badania opisujące nową technikę, która pozwala modelom językowym (LLM) generować odpowiedzi nawet pięć razy szybciej, bez utraty jakości.
Tradycyjnie modele LLM tworzą tekst token po tokenie (autoregresja), co spowalnia proces. Apple odkryło, że modele – mimo trenowania na przewidywanie jednego tokena – mają wiedzę o kilku kolejnych. Na tej podstawie powstał framework Multi-Token Prediction (MTP), w którym model przewiduje naraz kilka tokenów.
Badacze wprowadzili specjalne tokeny maskujące w treści promptów (np. „Kot jest ”), które model wypełnia w jednym kroku („bardzo puszysty”). Jeśli przewidywanie nie jest zgodne z klasycznym trybem, system wraca do standardowej metody. Dzięki temu zachowana jest wysoka dokładność.
Testy z modelem open-source Tulu3-8B pokazały:
- 2–3 razy szybsze działanie w typowych zadaniach (Q&A, czat)
- do 5 razy szybsze w przewidywalnych domenach, takich jak programowanie i matematyka
- brak utraty jakości dzięki technice gated LoRA adaptation
Pełny artykuł naukowy dostępny jest na stronach arXiv.
#aiApple #Apple #AppleIntelligence #badaniaApple #gatedLoRAAdaptation #generowanieTekstu #LLM #modeleJęzykowe #MTP #MultiTokenPrediction #optymalizacjaAI #przyspieszenieAI #sztucznaInteligencja #szybkieAI #Tulu38B
-
Chiński Z.ai rzuca rękawicę gigantom. Nowy model AI GLM-4.5 ma być otwarty, tani i rekordowo wydajny
I lepszy od modelu DeepSeek. Startup Z.ai zaprezentował nowe rozwiązanie – GLM-4.5. Jest to model AI udostępniony w formule open source, który ma być jeszcze tańszy, wydajniejszy i „bystrzejszy” od swojego głośnego, chińskiego poprzednika.
Nowy model, GLM-4.5, wyróżnia się tak zwaną „agentową” architekturą, co oznacza, że potrafi automatycznie dzielić złożone zadania na mniejsze etapy, by wykonać je precyzyjniej. Co więcej, jest o połowę mniejszy od DeepSeeka i do działania potrzebuje podobno zaledwie ośmiu specjalistycznych chipów Nvidia H20, stworzonych na potrzeby chińskiego rynku z uwzględnieniem amerykańskich restrykcji eksportowych.
Nowy model GLM-4.5 to dziś najbardziej zaawansowana (publicznie znana) chińska konstrukcja oparta na architekturze MoE (Mixture of Experts), dostępna w dwóch wariantach: flagowym z 355 miliardami parametrów oraz lżejszej wersji Air ze 106 miliardami parametrów. Architektura „agentowa” pozwala mu na autonomiczne planowanie i wykonywanie złożonych, wieloetapowych zadań. Według testów producenta, model Z.ai osiągnął trzeci wynik na świecie w branżowych benchmarkach, plasując się jednocześnie na pierwszym miejscu wśród wszystkich modeli typu open-source. Co niezwykle istotne, jego wysoka wydajność została osiągnięta przy relatywnie niskich wymaganiach sprzętowych.
Z.ai pozycjonuje swój produkt jako „prawdziwie otwartą alternatywę” dla zamkniętych, autorskich systemów, które dominują na rynku. Model jest dostępny na otwartej licencji, co daje firmom większą kontrolę i transparentność. Jednak to właśnie koszty stanowią jego największą przewagę. Według oficjalnego cennika, koszt przetwarzania miliona tokenów (fragmentów słów) to zaledwie 11 centów za dane wejściowe i 28 centów za dane wyjściowe. Dla porównania, w przypadku konkurencyjnego modelu DeepSeek R1 koszt tokenów wyjściowych to 2,19 dolara, co pokazuje ogromny (wręcz niewiarygodny) skok w optymalizacji kosztowej.
Dynamiczny rozwój chińskich firm AI ma coraz większe znaczenie geopolityczne. Gdy na początku roku DeepSeek zaprezentował swoją wydajność, wywołało to chwilowe załamanie kursów akcji amerykańskich gigantów technologicznych. Sukcesy Z.ai, firmy założonej w 2019 roku, która zebrała już ponad 1,5 mld dolarów od inwestorów takich jak Alibaba i Tencent, również nie pozostały niezauważone. Firma została wymieniona przez OpenAI jako jeden z nielicznych na świecie konkurentów zdolnych do budowy rywalizujących modeli, a także trafiła do prestiżowego raportu Stanford University „AI Index Report 2025”. Jednocześnie ten szybki postęp wzbudził niepokój w Waszyngtonie – startup Z.ai został wpisany na listę podmiotów objętych amerykańskimi restrykcjami handlowymi.
Trening modelu DeepSeek nie kosztował 6 mln dolarów, lecz 1,3 miliarda dolarów – raport SemiAnalysis
#AI #chiny #DeepSeek #geopolityka #GLM45 #MixtureOfExperts #modelJęzykowy #modeleJęzykowe #news #openSource #sztucznaInteligencja #technologia #usa #ZAi #Zhipu
-
Anthropic publikuje poradnik: traktuj AI jak genialnego pracownika z… amnezją
Firma Anthropic, twórca chatbota Claude, opublikowała poradnik dotyczący skutecznego tworzenia poleceń dla sztucznej inteligencji.
W dobie rosnącej popularności chatbotów, umiejętność precyzyjnego formułowania zapytań, ma coraz większe znaczenie. Jak zatem pytać mądrze sztuczną inteligencję? Anthropic proponuje, by myśleć o AI w specyficzny sposób: jak o „genialnym, ale zupełnie nowym pracowniku, który cierpi na amnezję” i potrzebuje bardzo dokładnych instrukcji.
Pierwszą i najważniejszą zasadą, według poradnika, jest precyzja. Chatboty nie znają naszych oczekiwań, stylu pracy ani kontekstu zadania. Dlatego firma zaleca, aby w poleceniu jasno określić, dla jakiej publiczności przeznaczona jest odpowiedź, jaki jest jej cel końcowy, a także jak ma być sformatowana – na przykład w formie listy punktowanej. Równie istotne jest dostarczanie konkretnych przykładów. Technika ta, nazywana „multi-shot prompting”, pozwala znacząco poprawić jakość i spójność odpowiedzi, pokazując AI dokładnie, jakiego rezultatu oczekujemy.
Kolejna wskazówka to danie sztucznej inteligencji „przestrzeni do myślenia”. Chodzi o stosowanie tzw. techniki łańcucha myślowego (chain-of-thought), która polega na instruowaniu chatbota, aby rozłożył złożony problem na mniejsze kroki i przeanalizował je po kolei, zanim udzieli ostatecznej odpowiedzi. Takie podejście prowadzi do bardziej przemyślanych i trafnych rezultatów.
Niezwykle skuteczną strategią, którą podkreśla Anthropic, jest przypisywanie chatbotowi konkretnej roli, na przykład „redaktora wiadomości” lub „analityka finansowego”. Dzięki temu AI dostosowuje swój ton, styl i zakres wiedzy do powierzonej mu funkcji, co jest szczególnie przydatne w skomplikowanych zadaniach, wymagających specjalistycznej perspektywy. Taka technika pozwala precyzyjnie kontrolować charakter generowanych treści.
Poradnik odnosi się również do problemu tzw. halucynacji, czyli zmyślania informacji przez AI. Aby je ograniczyć, Anthropic sugeruje dwie proste metody. Po pierwsze, należy dać chatbotowi wyraźne pozwolenie na przyznanie się do niewiedzy, używając sformułowania „jeśli nie znasz odpowiedzi, powiedz, że nie wiesz”. Po drugie, można zobowiązać go do cytowania źródeł lub weryfikowania swoich twierdzeń poprzez znalezienie potwierdzającego je cytatu.
Zainteresowanym podrzucam link do rzeczonego poradnika od Anthropic (to żywy, tj. stale edytowany i rozwijany dokument).
#AI #Anthropic #chatbot #Claude #halucynacjeAI #inżynieriaPromptów #modeleJęzykowe #news #poradnik #promptEngineering #sztucznaInteligencja