“lma” — Fediverse search results on home.social

Winbuzzer @[email protected] · 2025-05-21 · 16:59 UTC

LMArena Gets $100M at $600M Valuation for AI Model Testing

#AI #LMArena #AIFunding #ChatbotArena #AIBenchmarks #UCBerkeley

https://winbuzzer.com/2025/05/21/lmarena-gets-100m-at-600m-valuation-for-ai-model-testing-xcxwbn/

#ai #lmarena #aifunding #chatbotarena #aibenchmarks #ucberkeley

Winbuzzer @[email protected] · 2025-05-21 · 16:59 UTC

LMArena Gets $100M at $600M Valuation for AI Model Testing

#AI #LMArena #AIFunding #ChatbotArena #AIBenchmarks #UCBerkeley

https://winbuzzer.com/2025/05/21/lmarena-gets-100m-at-600m-valuation-for-ai-model-testing-xcxwbn/

#ai #lmarena #aifunding #chatbotarena #aibenchmarks #ucberkeley

theNameless @[email protected] · 2025-05-16 · 06:16 UTC

lmao...

your "#pope" has #testicles.

...what could i possibly learn from him i cant learn for myself?

*can his testicles produce an entire thriving planet on command of his #american voice alone?*

#american #pope #testicles

your auntifa liza 🇵🇷 🦛 🦦 @[email protected] · 2025-05-09 · 00:30 UTC

LMAO
THING1 just walked in:

ME: did you hear?

T1: and he went to #Villanova

ME: …

T1: 🗣 #Knicks IN FOUR!

ME: AAAAAAAAAAH! fuck, yeah!

#PopeLeoXIV #NBA #basketball

#villanova #knicks #popeleoxiv #nba #basketball

nathans :ms_weed: @[email protected] · 2025-05-05 · 15:38 UTC

Lmao

#Meme #UnixEpoch #Unix #Y2k38 #Tech

#meme #unixepoch #unix #y2k38 #tech

Alessio Pomaro @[email protected] · 2025-05-05 · 06:09 UTC

🧠 Il paper “The Leaderboard Illusion” (MIT e Stanford) mette in luce alcune distorsioni nella piattaforma #LMArena.
👉 I dettagli e la risposta di LMArena: https://www.linkedin.com/posts/alessiopomaro_lmarena-ai-ai-activity-7325037650006949888-lZ2i

___

✉️ 𝗦𝗲 𝘃𝘂𝗼𝗶 𝗿𝗶𝗺𝗮𝗻𝗲𝗿𝗲 𝗮𝗴𝗴𝗶𝗼𝗿𝗻𝗮𝘁𝗼/𝗮 𝘀𝘂 𝗾𝘂𝗲𝘀𝘁𝗲 𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲, 𝗶𝘀𝗰𝗿𝗶𝘃𝗶𝘁𝗶 𝗮𝗹𝗹𝗮 𝗺𝗶𝗮 𝗻𝗲𝘄𝘀𝗹𝗲𝘁𝘁𝗲𝗿: https://bit.ly/newsletter-alessiopomaro

#AI #GenAI #GenerativeAI #IntelligenzaArtificiale #LLM

#lmarena #ai #genai #generativeai #intelligenzaartificiale #llm

Habr @[email protected] · 2025-04-24 · 17:22 UTC

От улыбки рейтинг наш светлей: Как фильтры стиля и настроения меняют рейтинг LLM

Как фильтры стиля и настроения меняют рейтинг LM Arena Привет, Хабр! Я Сергей, в Битрикс24 отвечаю за то, чтобы под капотом Copilot крутилась правильная LLM — та, что действительно помогает пользователю, а не просто разбрасывается смайликами. Выбирая лучшие языковые модели, люди далеко не всегда руководствуются точностью ответов. Иногда внимание пользователей привлекает красивое оформление или эмоциональный стиль, а не фактическая польза. На LM Arena это стало особенно заметно в последнее время и заставило команду платформы изучить, как именно эмоции и оформление влияют на рейтинг моделей. Команда площадки решила отделить форму от содержания и запустила фильтр Sentiment Control , который «вычитает» эмоции и украшательства из итогового балла. Ниже — коротко о том, как они вычислили этот «эмо-чит» и почему это важно всем, кто выбирает модель для продукта, клиентской поддержки или внутреннего ассистента. Что такое LM Arena и зачем она нужна Сейчас существует много способов измерить качество языковых моделей. Есть метрики, которые оценивают знание фактов (MMLU), способность к обобщённому рассуждению (ARC‑AGI), умение решать задачи в игровой среде (VideoGameBench) и даже подсчитывают, сколько долларов модель могла бы заработать на реальных биржах фриланса (GigBench). На этом фоне появилась LM Arena — платформа, где пользователи вслепую сравнивают ответы разных моделей и выбирают лучший. Чем больше побед у модели, тем выше её рейтинг. Это похоже на шахматы или киберспорт, где тоже используется рейтинговая система Elo.

https://habr.com/ru/companies/bitrix/articles/904092/

#lmarena #нейросети #openai #языковые_модели #chatgpt #внедрение_ai #ds #выбор_модели

#lmarena #нейросети #openai #языковые_модели #chatgpt #внедрение_ai

Habr @[email protected] · 2025-04-24 · 17:22 UTC

От улыбки рейтинг наш светлей: Как фильтры стиля и настроения меняют рейтинг LLM

Как фильтры стиля и настроения меняют рейтинг LM Arena Привет, Хабр! Я Сергей, в Битрикс24 отвечаю за то, чтобы под капотом Copilot крутилась правильная LLM — та, что действительно помогает пользователю, а не просто разбрасывается смайликами. Выбирая лучшие языковые модели, люди далеко не всегда руководствуются точностью ответов. Иногда внимание пользователей привлекает красивое оформление или эмоциональный стиль, а не фактическая польза. На LM Arena это стало особенно заметно в последнее время и заставило команду платформы изучить, как именно эмоции и оформление влияют на рейтинг моделей. Команда площадки решила отделить форму от содержания и запустила фильтр Sentiment Control , который «вычитает» эмоции и украшательства из итогового балла. Ниже — коротко о том, как они вычислили этот «эмо-чит» и почему это важно всем, кто выбирает модель для продукта, клиентской поддержки или внутреннего ассистента. Что такое LM Arena и зачем она нужна Сейчас существует много способов измерить качество языковых моделей. Есть метрики, которые оценивают знание фактов (MMLU), способность к обобщённому рассуждению (ARC‑AGI), умение решать задачи в игровой среде (VideoGameBench) и даже подсчитывают, сколько долларов модель могла бы заработать на реальных биржах фриланса (GigBench). На этом фоне появилась LM Arena — платформа, где пользователи вслепую сравнивают ответы разных моделей и выбирают лучший. Чем больше побед у модели, тем выше её рейтинг. Это похоже на шахматы или киберспорт, где тоже используется рейтинговая система Elo.

https://habr.com/ru/companies/bitrix/articles/904092/

#lmarena #нейросети #openai #языковые_модели #chatgpt #внедрение_ai #ds #выбор_модели

#lmarena #нейросети #openai #языковые_модели #chatgpt #внедрение_ai

Habr @[email protected] · 2025-04-24 · 17:22 UTC

От улыбки рейтинг наш светлей: Как фильтры стиля и настроения меняют рейтинг LLM

Как фильтры стиля и настроения меняют рейтинг LM Arena Привет, Хабр! Я Сергей, в Битрикс24 отвечаю за то, чтобы под капотом Copilot крутилась правильная LLM — та, что действительно помогает пользователю, а не просто разбрасывается смайликами. Выбирая лучшие языковые модели, люди далеко не всегда руководствуются точностью ответов. Иногда внимание пользователей привлекает красивое оформление или эмоциональный стиль, а не фактическая польза. На LM Arena это стало особенно заметно в последнее время и заставило команду платформы изучить, как именно эмоции и оформление влияют на рейтинг моделей. Команда площадки решила отделить форму от содержания и запустила фильтр Sentiment Control , который «вычитает» эмоции и украшательства из итогового балла. Ниже — коротко о том, как они вычислили этот «эмо-чит» и почему это важно всем, кто выбирает модель для продукта, клиентской поддержки или внутреннего ассистента. Что такое LM Arena и зачем она нужна Сейчас существует много способов измерить качество языковых моделей. Есть метрики, которые оценивают знание фактов (MMLU), способность к обобщённому рассуждению (ARC‑AGI), умение решать задачи в игровой среде (VideoGameBench) и даже подсчитывают, сколько долларов модель могла бы заработать на реальных биржах фриланса (GigBench). На этом фоне появилась LM Arena — платформа, где пользователи вслепую сравнивают ответы разных моделей и выбирают лучший. Чем больше побед у модели, тем выше её рейтинг. Это похоже на шахматы или киберспорт, где тоже используется рейтинговая система Elo.

https://habr.com/ru/companies/bitrix/articles/904092/

#lmarena #нейросети #openai #языковые_модели #chatgpt #внедрение_ai #ds #выбор_модели

#lmarena #нейросети #openai #языковые_модели #chatgpt #внедрение_ai