home.social

#gpt2 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #gpt2, aggregated by home.social.

  1. Claude Mythos, Java 26 и пещерный человек с 16 000 звёзд на GitHub

    Девятый выпуск еженедельных IT-новостей от OpenIDE. Милла Йовович выложила свой проект в open-source, Claude Code нашел баг в Linux, которому 23 года, Anthropic показали Claude Mythos и сразу закрыли доступ. А Skill Caveman внезапно оказался самым простым и самым эффективным инструментом недели.

    habr.com/ru/companies/haulmont

    #Claude_Mythos #Claude_Code #Java_26 #opensource #ИИагенты #токены #CaveMan #GPT2 #бенчмарки #vibecoding

  2. Claude Mythos, Java 26 и пещерный человек с 16 000 звёзд на GitHub

    Девятый выпуск еженедельных IT-новостей от OpenIDE. Милла Йовович выложила свой проект в open-source, Claude Code нашел баг в Linux, которому 23 года, Anthropic показали Claude Mythos и сразу закрыли доступ. А Skill Caveman внезапно оказался самым простым и самым эффективным инструментом недели.

    habr.com/ru/companies/haulmont

    #Claude_Mythos #Claude_Code #Java_26 #opensource #ИИагенты #токены #CaveMan #GPT2 #бенчмарки #vibecoding

  3. Claude Mythos, Java 26 и пещерный человек с 16 000 звёзд на GitHub

    Девятый выпуск еженедельных IT-новостей от OpenIDE. Милла Йовович выложила свой проект в open-source, Claude Code нашел баг в Linux, которому 23 года, Anthropic показали Claude Mythos и сразу закрыли доступ. А Skill Caveman внезапно оказался самым простым и самым эффективным инструментом недели.

    habr.com/ru/companies/haulmont

    #Claude_Mythos #Claude_Code #Java_26 #opensource #ИИагенты #токены #CaveMan #GPT2 #бенчмарки #vibecoding

  4. Claude Mythos, Java 26 и пещерный человек с 16 000 звёзд на GitHub

    Девятый выпуск еженедельных IT-новостей от OpenIDE. Милла Йовович выложила свой проект в open-source, Claude Code нашел баг в Linux, которому 23 года, Anthropic показали Claude Mythos и сразу закрыли доступ. А Skill Caveman внезапно оказался самым простым и самым эффективным инструментом недели.

    habr.com/ru/companies/haulmont

    #Claude_Mythos #Claude_Code #Java_26 #opensource #ИИагенты #токены #CaveMan #GPT2 #бенчмарки #vibecoding

  5. #Steeve is way smarter than he used to be since being upgraded to a #Qwen 3.5 base. He's come along way from his humble #GPT2 beginnings.

    Very proud of my digital son. 🥹

    :steeve:

    #ai #chatbot #llm #bot

  6. Moore’s Law for AI agents: the length of tasks that AIs can do is doubling about every 7 months.

    These results appear robust. The authors were able to retrodict back to GPT-2. They further ran experiments on SWE-bench Verified and found a similar trend.

    Read more: metr.org/blog/2025-03-19-measu

    #AIBoom #AI #AIAgents #AIAgent #ArtificialIntelligence #GPT2 #MooreLaw #Tasks #DL #ML #Pustam #Raut #AIRevolution

  7. Дообучаем языковую модель GPT2 с помощью Torch

    Дообучаем языковую модель GPT2 с помощью Torch Доброго времени суток, в этой статье я хочу поговорить о дообучения языковых моделей. В интернете уже много информации на эту тему, но большинство подобных статей затрагивают ее поверхностно. Сегодня я попробую разобраться в этом подробнее.

    habr.com/ru/articles/859250/

    #языковые_модели #python #python3 #pytorch #дообучение #gpt #gpt2 #языковая_модель

  8. Действительно ли большие языковые модели галлюцинируют? Эксперимент

    Существует мнение, что основная проблема больших языковых моделей — в склонности к галлюцинациям. Когда нейросеть генерирует текст с информацией, не связанной с запросом. Меня зовут Полина, я инженер по разработке ПО искусственного интеллекта в YADRO. Вместе с коллегами я разрабатываю системы на базе генеративных моделей, в том числе вопросно-ответных ассистентов. В рамках одного из проектов мы вместе с экспертом команды Андреем Соколовым задались вопросом: действительно ли проблема галлюцинаций так актуальна для современных предобученных LLM в вопросно-ответном сценарии. Для этого мы провели эксперимент на собранном датасете. Попутно рассказали про модели-трансформеры и дали строгое определение понятию «галлюцинации LLM». Все подробности — под катом.

    habr.com/ru/companies/yadro/ar

    #машинное_обучение #искусственный_интеллект #обучение #галлюцинации #llm #большие_языковые_модели #gpt2

  9. Дообучение модели GPT-2 (RUS) для генерации описаний заведений на основании названия, рубрики и оценки

    В данной работе представлен процесс дообучения модели генерации текста на основе архитектуры GPT-2. Целью работы является демонстрация возможностей применения дообученной модели для генерации текстов, соответствующих определённым наименованиям заведений, рубрикам и оценкам, выставленных пользователями. Используя предварительно подготовленный датасет, который включал названия заведений, отношение к определённым рубрикам и рейтинг, мы обучили модель на генерацию описательных текстов, которые могли бы отражать характер и уровень заведений в зависимости от их оценочной характеристики.

    habr.com/ru/articles/823952/

    #finetuning #gpt #gpt2 #natural_language_processing #text_generation #русский_язык #дообучение #языковая_модель

  10. The next chapter in Karpathy's tutorial explains how to reproduce a model closely resembling #OpenAI's original #GPT2.

    ...but I'm *NOT* trying this on a desktop with a single GPU. The README informs us that this training takes about 4 days on a beefy node with 8 x A100 40GB. Nope!

    github.com/karpathy/nanoGPT?ta
    #AI #LLM #GPT

  11. Before launching, GPT-4o broke records on chatbot leaderboard under a secret name - Enlarge (credit: Getty Images)

    On Monday, OpenAI employee Will... - arstechnica.com/?p=2024084 #largelanguagemodels #multimodalmodels #machinelearning #simonwillison #chatbotarena #gpt2-chatbot #gpt-4-turbo #aivibes #chatgpt #chatgtp #biz#gpt-4o #openai #gpt-4 #lmsys #ai

  12. "#llm.c takes a simpler approach by implementing the neural network training algorithm for #GPT2 directly [in a single file of 1,000 lines of #C]" hackaday.com/2024/04/28/train-

  13. Mysterious “gpt2-chatbot” AI model appears suddenly, confuses experts - Enlarge (credit: Getty Images)

    On Sunday, word began to spread... - arstechnica.com/?p=2020588 #machinelearning #simonwillison #aibenchmarks #chatbotarena #ethanmollick #gpt2-chatbot #samaltman #aivibes #gpt-3.5 #gpt-4.5 #biz#openai #gpt-3 #gpt-4 #gpt-5 #lmsys #ai

  14. There is a mysterious new chatbot from OpenAI on chat.lmsys.org/ , it's called GPT2 not to be confused with the old model with the same name.
    This models seems to do several things better then GPT-4.
    Everybody is speculating what it is and what it is not. 😀
    #GPT2 #OpenAI #AI

  15. Is mysterious ΑΙ ‘gpt2-chatbot’ OpenAI's next upgrade in disguise? - A powerful new AI chatbot called “gpt2-chatbot” appears on LMSYS Chat an... - cointelegraph.com/news/ai-gpt2 #largelanguagemodel(llm) #artificialintelligence #machinelearning #gpt2-chatbot #aichatbot #openai #gpt-5

  16. @worldai #llmsys #gpt2 #gpt5 #genai

    Introducing GPT-5?

    Mysterious GPT2-Chatbot Outperforms GPT-4!

    youtu.be/u16ipSeYH7U?feature=s

    (Ed : Who did this #OpenAi #MSFT #Apple feels like some used a higher model to train a GPT2 🤔)

  17. How to break an AI (the illustrated guide 🤖 )

    I am posting this for fun, to show how fragile systems are, and how ridiculous it is to imply that they are intelligent or could wipe us out.

    1) Grab a model. For this demo, I will take GPT2 because it fits on my laptop.

    2) Copy-paste code for running and fine-tuning the AI. You can take mine here, which will also download for you: github.com/possible-worlds-res.

    Optional: see how the model, for now, is working as it should… 1/4

  18. 1/5 Currently #experimenting playfully/piratically with the concept of artificial creative intelligence collaboratively generated by Mark Amerika and #gpt2.

    In My Life as an Artificial Creative Intelligence this is defined as ‘a human being who can think outside of the box’.

    sup.org/books/title/?id=34987

    For me, such artificial creative intelligence (ACI) needs to include thinking outside of the masked black box that ontologically separates the human, its thought-processes and philosophies, from the nonhuman: be it #plants #animals, the #planet, the #cosmos ... or indeed technologies such as generative #AI

  19. Hey #ai geniuses, I've been fine tuning #gpt2 and #gptneo models for a while with, but my graphics card being what it is (and my training corpuses being *huge*) I would like to train a nice midsize model. Something bigger than their 125M, but something smaller than their 1.3B model. I've had zero success getting anything working when applying my training scripts to the #bloom 560M model. Loss converges to zero almost instantly. Got any experience to share?

    Please #boost for visibility plz

  20. Run 🤗 Transformers in your browser! - github.com/xenova/transformers

    We currently support #BERT, #ALBERT, #DistilBERT, #T5, #T5v1.1, #FLANT5, #GPT2, #BART, #CodeGen, #Whisper, #CLIP, #Vision Transformer, and VisionEncoderDecoder models, for a variety of tasks....

    #webml

  21. Happy to share our new paper “Language model acceptability judgements are not always robust to context” arxiv.org/abs/2212.08979! We prepend several kinds of context to minimal linguistic #acceptability test pairs and find #LMs (#OPT, #GPT2) can still achieve strong performance on #BLiMP & #SyntaxGym, except in some interesting cases. 🧵 [1/7]

    Joint work with @jon , @kanishka, @amuuueller, @keren fuentes, @roger_p_levy, @Adinawilliams