home.social

#benchmark — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #benchmark, aggregated by home.social.

  1. RT @wccftech: Intels 12 P-Core Bartlett Lake Flagship-Modell kann in Gaming-Benchmarks den vier Jahre alten Core i9-13900K nicht schlagen.

    mehr auf Arint.info

    #BartlettLake #Benchmark #Corei9 #CPU #Gaming #Intel #arint_info

    https://x.com/wccftech/status/2058953514978525498#m

  2. RT @wccftech: Intels 12 P-Core Bartlett Lake Flagship-Modell kann in Gaming-Benchmarks den vier Jahre alten Core i9-13900K nicht schlagen.

    mehr auf Arint.info

    #BartlettLake #Benchmark #Corei9 #CPU #Gaming #Intel #arint_info

    https://x.com/wccftech/status/2058953514978525498#m

  3. RT @wccftech: Intels 12 P-Core Bartlett Lake Flagship-Modell kann in Gaming-Benchmarks den vier Jahre alten Core i9-13900K nicht schlagen.

    mehr auf Arint.info

    #BartlettLake #Benchmark #Corei9 #CPU #Gaming #Intel #arint_info

    https://x.com/wccftech/status/2058953514978525498#m

  4. RT @wccftech: Intels 12 P-Core Bartlett Lake Flagship-Modell kann in Gaming-Benchmarks den vier Jahre alten Core i9-13900K nicht schlagen.

    mehr auf Arint.info

    #BartlettLake #Benchmark #Corei9 #CPU #Gaming #Intel #arint_info

    https://x.com/wccftech/status/2058953514978525498#m

  5. RT @wccftech: Intels 12 P-Core Bartlett Lake Flagship-Modell kann in Gaming-Benchmarks den vier Jahre alten Core i9-13900K nicht schlagen.

    mehr auf Arint.info

    #BartlettLake #Benchmark #Corei9 #CPU #Gaming #Intel #arint_info

    https://x.com/wccftech/status/2058953514978525498#m

  6. RT @witcheer: Hier ist die Rangliste meiner Benchmarks. Modelle, die ich auf meinem kleinen 8GB-RTX getestet habe. Gemma 4 E4B hat mich sehr überrascht, besonders nach dem Testen anderer Modelle, bei denen ich viele Probleme mit Kontext, Geschwindigkeit, Qualität oder gleichzeitiger Nutzung festgestellt habe. Es ist sehr anständig in Kombination mit Pi.

    mehr auf Arint.info

    #Benchmark #Gemma4 #Hardware #KI #Pi #RTX8GB #arint_info

    https://x.com/witcheer/status/2058459544242565375#m

  7. RT @davideciffa: Wenn du eine Nvidia RTX 4090 besitzt, ist --ddtree-budget 36 die beste Konfiguration, die dir eine 2,5-fache Beschleunigung während der Dekodierung für Qwen3.627B bringt. Danke für den Benchmark github.com/1TommyCheung 🙌

    mehr auf Arint.info

    #Benchmark #DDTreeBudget #NvidiaRTX4090 #Qwen3 #arint_info

    https://x.com/davideciffa/status/2058498608270303325#m

  8. Do current LLMs know when to say "I don't know"? AbstentionBench (NeurIPS '25) tests 20 frontier models across 20 unanswerable-question datasets. Reasoning fine-tuning degrades abstention recall by ~24% — RLVR has no "abstain" action, so there's no gradient toward "I don't know." Models hedge in CoT and commit anyway in the final answer.

    benjaminhan.net/posts/20260523

    #Paper #AI #LLMs #Metacognition #Benchmark #Reasoning #NeurIPS

  9. Do current LLMs know when to say "I don't know"? AbstentionBench (NeurIPS '25) tests 20 frontier models across 20 unanswerable-question datasets. Reasoning fine-tuning degrades abstention recall by ~24% — RLVR has no "abstain" action, so there's no gradient toward "I don't know." Models hedge in CoT and commit anyway in the final answer.

    benjaminhan.net/posts/20260523

    #Paper #AI #LLMs #Metacognition #Benchmark #Reasoning #NeurIPS

  10. Do current LLMs know when to say "I don't know"? AbstentionBench (NeurIPS '25) tests 20 frontier models across 20 unanswerable-question datasets. Reasoning fine-tuning degrades abstention recall by ~24% — RLVR has no "abstain" action, so there's no gradient toward "I don't know." Models hedge in CoT and commit anyway in the final answer.

    benjaminhan.net/posts/20260523

    #Paper #AI #LLMs #Metacognition #Benchmark #Reasoning #NeurIPS

  11. Do current LLMs know when to say "I don't know"? AbstentionBench (NeurIPS '25) tests 20 frontier models across 20 unanswerable-question datasets. Reasoning fine-tuning degrades abstention recall by ~24% — RLVR has no "abstain" action, so there's no gradient toward "I don't know." Models hedge in CoT and commit anyway in the final answer.

    benjaminhan.net/posts/20260523

    #Paper #AI #LLMs #Metacognition #Benchmark #Reasoning #NeurIPS

  12. Do current LLMs know when to say "I don't know"? AbstentionBench (NeurIPS '25) tests 20 frontier models across 20 unanswerable-question datasets. Reasoning fine-tuning degrades abstention recall by ~24% — RLVR has no "abstain" action, so there's no gradient toward "I don't know." Models hedge in CoT and commit anyway in the final answer.

    benjaminhan.net/posts/20260523

    #Paper #AI #LLMs #Metacognition #Benchmark #Reasoning #NeurIPS

  13. #Benchmark is not always the only one or best measurement because it's not all about iops/tps/qps or other metrics per seconds. For me, the more important things are responsiveness. Includes responsiveness for user request (lagging responses) and available responsiveness for other workloads on that machine.

    When we tune our system parameters, sometimes limitting by downing some values will give you better results.

    Remember, anything you read on the web is just a clue and recommendation for base value. There is no single best value for any case. If it exists, why does dev give you ability to change it.

    #sysadmin #optimations #devops

  14. Nuclear Energy Agency (NEA) – Benchmarking modelling and simulation capabilities for reactor systems

    The 2026 edition of the NEA Working Party on Scientific Issues and Uncertainty Analysis of Reactor Systems (WPRS)…
    #Nuclear #artificialintelligence #Benchmark #MachineLearning #Multiphysics #Newsandevents #Newsbrief #nuclear #Nuclearscience #Reactorphysics #WPRS
    europesays.com/3009113/

  15. AI-агент действительно ловит баги? Пусть докажет на бенчмарке

    Привет! Это снова Михаил Федоров. В первой статье — архитектура QA Assist: 11 AI-агентов от декомпозиции требований до готовых автотестов. Во второй — как «4 часа подключения» превращаются в неделю корпоративной реальности. В третьей — почему пирамида тестирования ломается, когда тест-дизайнером работает LLM. Сегодня — про то, как я решил наконец-то перестать оценивать агента «на глаз» и собрал отдельный проект-бенчмарк, на котором можно честно сравнивать прогоны: версии агента, отдельные «улучшалки», даже эксперименты с моделями. В качестве бонуса покажу все артефакты, которые агент готовит за один прогон пайплайна. И бенчмарк, и артефакты — в публичном доступе, ссылки в конце статьи. Обсудить всё это можно в Telegram-группе .

    habr.com/ru/articles/1036136/

    #ai #ассистент #qa #автоматизация #llmагент #claude #benchmark

  16. AI-агент действительно ловит баги? Пусть докажет на бенчмарке

    Привет! Это снова Михаил Федоров. В первой статье — архитектура QA Assist: 11 AI-агентов от декомпозиции требований до готовых автотестов. Во второй — как «4 часа подключения» превращаются в неделю корпоративной реальности. В третьей — почему пирамида тестирования ломается, когда тест-дизайнером работает LLM. Сегодня — про то, как я решил наконец-то перестать оценивать агента «на глаз» и собрал отдельный проект-бенчмарк, на котором можно честно сравнивать прогоны: версии агента, отдельные «улучшалки», даже эксперименты с моделями. В качестве бонуса покажу все артефакты, которые агент готовит за один прогон пайплайна. И бенчмарк, и артефакты — в публичном доступе, ссылки в конце статьи. Обсудить всё это можно в Telegram-группе .

    habr.com/ru/articles/1036136/

    #ai #ассистент #qa #автоматизация #llmагент #claude #benchmark

  17. AI-агент действительно ловит баги? Пусть докажет на бенчмарке

    Привет! Это снова Михаил Федоров. В первой статье — архитектура QA Assist: 11 AI-агентов от декомпозиции требований до готовых автотестов. Во второй — как «4 часа подключения» превращаются в неделю корпоративной реальности. В третьей — почему пирамида тестирования ломается, когда тест-дизайнером работает LLM. Сегодня — про то, как я решил наконец-то перестать оценивать агента «на глаз» и собрал отдельный проект-бенчмарк, на котором можно честно сравнивать прогоны: версии агента, отдельные «улучшалки», даже эксперименты с моделями. В качестве бонуса покажу все артефакты, которые агент готовит за один прогон пайплайна. И бенчмарк, и артефакты — в публичном доступе, ссылки в конце статьи. Обсудить всё это можно в Telegram-группе .

    habr.com/ru/articles/1036136/

    #ai #ассистент #qa #автоматизация #llmагент #claude #benchmark

  18. AI-агент действительно ловит баги? Пусть докажет на бенчмарке

    Привет! Это снова Михаил Федоров. В первой статье — архитектура QA Assist: 11 AI-агентов от декомпозиции требований до готовых автотестов. Во второй — как «4 часа подключения» превращаются в неделю корпоративной реальности. В третьей — почему пирамида тестирования ломается, когда тест-дизайнером работает LLM. Сегодня — про то, как я решил наконец-то перестать оценивать агента «на глаз» и собрал отдельный проект-бенчмарк, на котором можно честно сравнивать прогоны: версии агента, отдельные «улучшалки», даже эксперименты с моделями. В качестве бонуса покажу все артефакты, которые агент готовит за один прогон пайплайна. И бенчмарк, и артефакты — в публичном доступе, ссылки в конце статьи. Обсудить всё это можно в Telegram-группе .

    habr.com/ru/articles/1036136/

    #ai #ассистент #qa #автоматизация #llmагент #claude #benchmark

  19. AVeriTeC (NeurIPS 2023): 4,568 real-world fact-checked claims, web-retrieved evidence, four-way labels, temporal-leak-free split.

    Two structural gaps: gold answers are frozen but the retrieval surface isn't (two systems a year apart hit different Google), and the not-enough-evidence class rewards weak retrievers — predicting NEI when retrieval fails matches gold by coincidence.

    benjaminhan.net/posts/20260507

    #Paper #Benchmark #FactVerification #NeurIPS #AI

  20. AVeriTeC (NeurIPS 2023): 4,568 real-world fact-checked claims, web-retrieved evidence, four-way labels, temporal-leak-free split.

    Two structural gaps: gold answers are frozen but the retrieval surface isn't (two systems a year apart hit different Google), and the not-enough-evidence class rewards weak retrievers — predicting NEI when retrieval fails matches gold by coincidence.

    benjaminhan.net/posts/20260507

    #Paper #Benchmark #FactVerification #NeurIPS #AI

  21. AVeriTeC (NeurIPS 2023): 4,568 real-world fact-checked claims, web-retrieved evidence, four-way labels, temporal-leak-free split.

    Two structural gaps: gold answers are frozen but the retrieval surface isn't (two systems a year apart hit different Google), and the not-enough-evidence class rewards weak retrievers — predicting NEI when retrieval fails matches gold by coincidence.

    benjaminhan.net/posts/20260507

    #Paper #Benchmark #FactVerification #NeurIPS #AI

  22. #PhotoOfTheDay is an aisle of the old Map Room at the USGS West Coast Headquarters in Menlo Park, California. This place was like a temple to topographic maps, with some very old handmade benchmark disks on display too.

    Sadly, it's been gone for a while now. We did an interview with the head of mapping there (I was helping to make a benchmarking video) and he explained that he had none of his people left that did actual field work. :(

    #photo #photography #maps #usgs #benchmark #explore

  23. #PhotoOfTheDay is an aisle of the old Map Room at the USGS West Coast Headquarters in Menlo Park, California. This place was like a temple to topographic maps, with some very old handmade benchmark disks on display too.

    Sadly, it's been gone for a while now. We did an interview with the head of mapping there (I was helping to make a benchmarking video) and he explained that he had none of his people left that did actual field work. :(

    #photo #photography #maps #usgs #benchmark #explore

  24. #PhotoOfTheDay is an aisle of the old Map Room at the USGS West Coast Headquarters in Menlo Park, California. This place was like a temple to topographic maps, with some very old handmade benchmark disks on display too.

    Sadly, it's been gone for a while now. We did an interview with the head of mapping there (I was helping to make a benchmarking video) and he explained that he had none of his people left that did actual field work. :(

    #photo #photography #maps #usgs #benchmark #explore

  25. #PhotoOfTheDay is an aisle of the old Map Room at the USGS West Coast Headquarters in Menlo Park, California. This place was like a temple to topographic maps, with some very old handmade benchmark disks on display too.

    Sadly, it's been gone for a while now. We did an interview with the head of mapping there (I was helping to make a benchmarking video) and he explained that he had none of his people left that did actual field work. :(

    #photo #photography #maps #usgs #benchmark #explore

  26. Oh, well… PRAGMATA pushes my poor, little AM4 system quite a bit. But, luckily, it still reaches a reasonable framerate.

    #PCGaming #PRAGMATA #AM4 #Gaming #Framerate #Benchmark

  27. Oh, well… PRAGMATA pushes my poor, little AM4 system quite a bit. But, luckily, it still reaches a reasonable framerate.

    #PCGaming #PRAGMATA #AM4 #Gaming #Framerate #Benchmark

  28. Oh, well… PRAGMATA pushes my poor, little AM4 system quite a bit. But, luckily, it still reaches a reasonable framerate.

    #PCGaming #PRAGMATA #AM4 #Gaming #Framerate #Benchmark

  29. Do LLMs understand coordinates?: ’A new #benchmark called #GPSBench evaluates 14 #LLM-s across 17 coordinate manipulation and reasoning tasks and finds that models handle real-world geographic reasoning better than raw geometric computations, with country-level knowledge stronger...
    spatialists.ch/posts/2026/05/0 #GIS #GISchat #geospatial #SwissGIS