home.social

#lmsys — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #lmsys, aggregated by home.social.

  1. [Перевод] Как оценить качество LLM модели

    Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

    habr.com/ru/articles/846748/

    #Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard

  2. Before launching, GPT-4o broke records on chatbot leaderboard under a secret name - Enlarge (credit: Getty Images)

    On Monday, OpenAI employee Will... - arstechnica.com/?p=2024084 #largelanguagemodels #multimodalmodels #machinelearning #simonwillison #chatbotarena #gpt2-chatbot #gpt-4-turbo #aivibes #chatgpt #chatgtp #biz#gpt-4o #openai #gpt-4 #lmsys #ai

  3. Before launching, GPT-4o broke records on chatbot leaderboard under a secret name - Enlarge (credit: Getty Images)

    On Monday, OpenAI employee Will... - arstechnica.com/?p=2024084 #largelanguagemodels #multimodalmodels #machinelearning #simonwillison #chatbotarena #gpt2-chatbot #gpt-4-turbo #aivibes #chatgpt #chatgtp #biz#gpt-4o #openai #gpt-4 #lmsys #ai

  4. Before launching, GPT-4o broke records on chatbot leaderboard under a secret name - Enlarge (credit: Getty Images)

    On Monday, OpenAI employee Will... - arstechnica.com/?p=2024084 #largelanguagemodels #multimodalmodels #machinelearning #simonwillison #chatbotarena #gpt2-chatbot #gpt-4-turbo #aivibes #chatgpt #chatgtp #biz#gpt-4o #openai #gpt-4 #lmsys #ai

  5. Before launching, GPT-4o broke records on chatbot leaderboard under a secret name - Enlarge (credit: Getty Images)

    On Monday, OpenAI employee Will... - arstechnica.com/?p=2024084 #largelanguagemodels #multimodalmodels #machinelearning #simonwillison #chatbotarena #gpt2-chatbot #gpt-4-turbo #aivibes #chatgpt #chatgtp #biz#gpt-4o #openai #gpt-4 #lmsys #ai

  6. Mysterious “gpt2-chatbot” AI model appears suddenly, confuses experts - Enlarge (credit: Getty Images)

    On Sunday, word began to spread... - arstechnica.com/?p=2020588 #machinelearning #simonwillison #aibenchmarks #chatbotarena #ethanmollick #gpt2-chatbot #samaltman #aivibes #gpt-3.5 #gpt-4.5 #biz#openai #gpt-3 #gpt-4 #gpt-5 #lmsys #ai

  7. Появилась идея, как использовать возможность закреплять посты.
    Буду раз в неделю или две собирать #дайджест всего более-менее интересного, выходящего, так сказать, за рамки лытдыбра.

    #Music #ElectronicMusic
    Igor Silovoy / Дискография (2010-2020)
    qoto.org/@johan/11036999152663

    #Youtube #creepy #horror #ShortFilm
    Cam Closer - Horror Short
    Cam Closer II - Horror Short
    qoto.org/@johan/11040797415209

    #Youtube #CG #Movie #Warhammer40K
    Helsreach The Movie (2019) (RBoylan Film) (1080p) IMDB 9.1/10
    qoto.org/@johan/11038167132902

    #ахахаха #КарательнаяКулинария #neuralnetwork
    Рецепт «невкусной пиццы» от #LMSYS (#claude-v1)
    qoto.org/@johan/11038229413632

    #NeuralNetwork
    qoto.org/@johan/11038232811494
    #LMSYS (#claude-v1) демонстрирует способность рассуждать и полное незнание русскоязычных загадок :-)

    #neuralnetwork
    Платформа для разговоров с кастомизированными чат-ботами. Неограниченное бесплатное общение с #ChatGPT 3.5 и #Claude, а также «специализированными» собеседниками, которые могут притворяться «психологами» и лайф-коучами, исправлять стилистику ваших текстов, писать посты в стиле LinkedIN, писать код на Python или JavaScript, подготавливать доклады или методички на заданную тему… Ну или просто подбирать эмодзи под ваш текст. Многие (не все) соглашаются общаться по-русски. Бесплатно и без ограничений (пока что)
    qoto.org/@johan/11038299642411

    #AlternativeRock / #PostGrunge / #PostPunk
    Дискография основанной Игорем Васильевым (Ваганыч) группы «ЖЩ»
    qoto.org/@johan/11039029303261

    #фото #фототехника #СССР #история
    «Зенит-Д» — первый в мире зеркальный фотоаппарат с автоматическим управлением экспозицией в режиме приоритета диафрагмы. Сделано в СССР.
    qoto.org/@johan/11039371812096

    #photo #DTP #kb
    Простая и очень приблизитльная формула расчета нобходимого для печати разрешения картинки.
    qoto.org/@johan/11039886313629

    #MelodicDeath #Metal
    The Halo Effect — 2022 — Days of the Lost
    qoto.org/@johan/11039943378086

    #Ктулху
    Мимимишные монстры #Лавкрафт​а
    qoto.org/@johan/11040261844403

    #вело #maps #GPS #навигация
    Карты и навигация: сервис для построения велосипедных маршрутов под разные виды покатушек.
    qoto.org/@johan/11040291729246

    #NeuralNetwork #test
    Еще одна нейросеть, умеющая искать в интернете, на Википедии и пользоваться Вольфрам Альфа.
    qoto.org/@johan/11040302611855

    #NeuralNetwork #test #лирика
    Оказалось, что нейросеть может переводить не только тексты, но и стихи. Причем, перефразируя их, чтобы добиться минимальной рифмы. Более того — может написать целое стихотворение на основе пары строчек, смысл которых она попыталась «понять» и развернуть. Удивительно.
    qoto.org/@johan/11040415650272
    qoto.org/@johan/11040669004010
    qoto.org/@johan/11040676310400

    …И идея делать из этого загадки: по вольному переводу угадать, из какой песни взяты исходные строки.
    qoto.org/@johan/11040426903305
    qoto.org/@johan/11040563924033
    qoto.org/@johan/11040653163832
    qoto.org/@johan/11040655176661

    #NeuralNetwork
    Очень интересно, как текстовая нейросеть рассуждает о форме, симметрии и движении, пытаяь отгадать загадку.
    qoto.org/@johan/11040818844010

  8. #ахахаха #КарательнаяКулинария #neuralnetwork

    — Как приготовить невкусную пиццу?

    #LMSYS (#claude-v1)
    Если вы действительно хотите приготовить невкусную пиццу, вот несколько советов:

    Используйте дешевую пиццу замороженную или готовую основу вместо свежих ингредиентов. Замороженная основа не имеет ни вкуса, ни текстуры.

    Не добавляйте соус для пиццы или используйте очень мало соуса. Без соуса пицца получится сухой и невкусной.

    Используйте минимум сыра или вообще не добавляйте его. Сыр придает пицце сливочный вкус и расплавленную текстуру.

    Не добавляйте никаких дополнительных ингредиентов, кроме теста и соуса. Никаких овощей, мяса, специй. Только тесто и соус.

    Готовьте пиццу в духовке на максимальной температуре. Это быстро испортит тесто и соус, придав пицце неприятный вкус подгорелости.

    Не следите за пиццей во время выпекания. Перепеките ее до состояния угольков. Это сделает пиццу абсолютно несъедобной.

    Не режьте пиццу на кусочки после выпекания. Подавайте целиком, чтобы она была трудной для еды.

    Используйте дешевые и некачественные ингредиенты, предназначенные не для пиццы. Например, используйте подсолнечное масло вместо оливкового, столовую соль вместо морской, дешевую пшеничную муку вместо муки для пиццы.

    Не делайте никаких усилий для придания пицце привлекательного вида. Не украшайте ее, не выкладывайте ингредиенты равномерно. Просто соберите все в кучу.

    Подавайте пиццу холодной или комнатной температуры. Холодная пицца гораздо менее вкусная.

    Не предлагайте к пицце никаких дополнений, вроде салата, соусов, специй. Подавайте только саму пиццу.

    Не приглашайте друзей или членов семьи разделить с вами эту пиццу. Она предназначена только для вас!

    Следуя этим советам, вы с легкостью сможете приготовить действительно невкусную пиццу, которая не доставит удовольствия ни вам, ни вашим гостям. Приятного аппетита!