#benchmark — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #benchmark, aggregated by home.social.
-
RT @wccftech: Intels 12 P-Core Bartlett Lake Flagship-Modell kann in Gaming-Benchmarks den vier Jahre alten Core i9-13900K nicht schlagen.
mehr auf Arint.info
#BartlettLake #Benchmark #Corei9 #CPU #Gaming #Intel #arint_info
-
RT @wccftech: Intels 12 P-Core Bartlett Lake Flagship-Modell kann in Gaming-Benchmarks den vier Jahre alten Core i9-13900K nicht schlagen.
mehr auf Arint.info
#BartlettLake #Benchmark #Corei9 #CPU #Gaming #Intel #arint_info
-
RT @wccftech: Intels 12 P-Core Bartlett Lake Flagship-Modell kann in Gaming-Benchmarks den vier Jahre alten Core i9-13900K nicht schlagen.
mehr auf Arint.info
#BartlettLake #Benchmark #Corei9 #CPU #Gaming #Intel #arint_info
-
RT @wccftech: Intels 12 P-Core Bartlett Lake Flagship-Modell kann in Gaming-Benchmarks den vier Jahre alten Core i9-13900K nicht schlagen.
mehr auf Arint.info
#BartlettLake #Benchmark #Corei9 #CPU #Gaming #Intel #arint_info
-
RT @wccftech: Intels 12 P-Core Bartlett Lake Flagship-Modell kann in Gaming-Benchmarks den vier Jahre alten Core i9-13900K nicht schlagen.
mehr auf Arint.info
#BartlettLake #Benchmark #Corei9 #CPU #Gaming #Intel #arint_info
-
RT @witcheer: Hier ist die Rangliste meiner Benchmarks. Modelle, die ich auf meinem kleinen 8GB-RTX getestet habe. Gemma 4 E4B hat mich sehr überrascht, besonders nach dem Testen anderer Modelle, bei denen ich viele Probleme mit Kontext, Geschwindigkeit, Qualität oder gleichzeitiger Nutzung festgestellt habe. Es ist sehr anständig in Kombination mit Pi.
mehr auf Arint.info
-
RT @davideciffa: Wenn du eine Nvidia RTX 4090 besitzt, ist --ddtree-budget 36 die beste Konfiguration, die dir eine 2,5-fache Beschleunigung während der Dekodierung für Qwen3.627B bringt. Danke für den Benchmark https://github.com/1TommyCheung 🙌
mehr auf Arint.info
-
Do current LLMs know when to say "I don't know"? AbstentionBench (NeurIPS '25) tests 20 frontier models across 20 unanswerable-question datasets. Reasoning fine-tuning degrades abstention recall by ~24% — RLVR has no "abstain" action, so there's no gradient toward "I don't know." Models hedge in CoT and commit anyway in the final answer.
#Paper #AI #LLMs #Metacognition #Benchmark #Reasoning #NeurIPS
-
Do current LLMs know when to say "I don't know"? AbstentionBench (NeurIPS '25) tests 20 frontier models across 20 unanswerable-question datasets. Reasoning fine-tuning degrades abstention recall by ~24% — RLVR has no "abstain" action, so there's no gradient toward "I don't know." Models hedge in CoT and commit anyway in the final answer.
#Paper #AI #LLMs #Metacognition #Benchmark #Reasoning #NeurIPS
-
Do current LLMs know when to say "I don't know"? AbstentionBench (NeurIPS '25) tests 20 frontier models across 20 unanswerable-question datasets. Reasoning fine-tuning degrades abstention recall by ~24% — RLVR has no "abstain" action, so there's no gradient toward "I don't know." Models hedge in CoT and commit anyway in the final answer.
#Paper #AI #LLMs #Metacognition #Benchmark #Reasoning #NeurIPS
-
Do current LLMs know when to say "I don't know"? AbstentionBench (NeurIPS '25) tests 20 frontier models across 20 unanswerable-question datasets. Reasoning fine-tuning degrades abstention recall by ~24% — RLVR has no "abstain" action, so there's no gradient toward "I don't know." Models hedge in CoT and commit anyway in the final answer.
#Paper #AI #LLMs #Metacognition #Benchmark #Reasoning #NeurIPS
-
Do current LLMs know when to say "I don't know"? AbstentionBench (NeurIPS '25) tests 20 frontier models across 20 unanswerable-question datasets. Reasoning fine-tuning degrades abstention recall by ~24% — RLVR has no "abstain" action, so there's no gradient toward "I don't know." Models hedge in CoT and commit anyway in the final answer.
#Paper #AI #LLMs #Metacognition #Benchmark #Reasoning #NeurIPS
-
#Benchmark is not always the only one or best measurement because it's not all about iops/tps/qps or other metrics per seconds. For me, the more important things are responsiveness. Includes responsiveness for user request (lagging responses) and available responsiveness for other workloads on that machine.
When we tune our system parameters, sometimes limitting by downing some values will give you better results.
Remember, anything you read on the web is just a clue and recommendation for base value. There is no single best value for any case. If it exists, why does dev give you ability to change it.
-
Nuclear Energy Agency (NEA) – Benchmarking modelling and simulation capabilities for reactor systems
The 2026 edition of the NEA Working Party on Scientific Issues and Uncertainty Analysis of Reactor Systems (WPRS)…
#Nuclear #artificialintelligence #Benchmark #MachineLearning #Multiphysics #Newsandevents #Newsbrief #nuclear #Nuclearscience #Reactorphysics #WPRS
https://www.europesays.com/3009113/ -
Nuclear Energy Agency (NEA) – Benchmarking modelling and simulation capabilities for reactor systems https://www.byteseu.com/2042877/ #ArtificialIntelligence #Benchmark #MachineLearning #Multiphysics #NewsAndEvents #NewsBrief #Nuclear #NuclearScience #ReactorPhysics #WPRS
-
#SUPERPOSITION #BENCHMARK aepiot.ro?q=SUPERPOSIT... #DWIZ AM allgraph.ro?q=DWIZ%20AM Semantic BACKLINKS: The Bridge between Humans and AI. NOSTR.com - Snort: snort.social/nprofile1qqs...
MultiSearch Tag Explorer -
#SUPERPOSITION #BENCHMARK aepiot.ro?q=SUPERPOSIT... #DWIZ AM allgraph.ro?q=DWIZ%20AM Semantic BACKLINKS: The Bridge between Humans and AI. NOSTR.com - Snort: snort.social/nprofile1qqs...
MultiSearch Tag Explorer -
#SUPERPOSITION #BENCHMARK aepiot.com?q=SUPERPOSIT... Semantic SEO: The Bridge between Humans and AI. Do you like AÉPIOT ( #aePiot ) semantics? Donate to the aéPiot semantic platform: www.paypal.com/donate?busin...
MultiSearch Tag Explorer -
#SUPERPOSITION #BENCHMARK aepiot.com?q=SUPERPOSIT... Semantic SEO: The Bridge between Humans and AI. Do you like AÉPIOT ( #aePiot ) semantics? Donate to the aéPiot semantic platform: www.paypal.com/donate?busin...
MultiSearch Tag Explorer -
AI-агент действительно ловит баги? Пусть докажет на бенчмарке
Привет! Это снова Михаил Федоров. В первой статье — архитектура QA Assist: 11 AI-агентов от декомпозиции требований до готовых автотестов. Во второй — как «4 часа подключения» превращаются в неделю корпоративной реальности. В третьей — почему пирамида тестирования ломается, когда тест-дизайнером работает LLM. Сегодня — про то, как я решил наконец-то перестать оценивать агента «на глаз» и собрал отдельный проект-бенчмарк, на котором можно честно сравнивать прогоны: версии агента, отдельные «улучшалки», даже эксперименты с моделями. В качестве бонуса покажу все артефакты, которые агент готовит за один прогон пайплайна. И бенчмарк, и артефакты — в публичном доступе, ссылки в конце статьи. Обсудить всё это можно в Telegram-группе .
https://habr.com/ru/articles/1036136/
#ai #ассистент #qa #автоматизация #llmагент #claude #benchmark
-
AI-агент действительно ловит баги? Пусть докажет на бенчмарке
Привет! Это снова Михаил Федоров. В первой статье — архитектура QA Assist: 11 AI-агентов от декомпозиции требований до готовых автотестов. Во второй — как «4 часа подключения» превращаются в неделю корпоративной реальности. В третьей — почему пирамида тестирования ломается, когда тест-дизайнером работает LLM. Сегодня — про то, как я решил наконец-то перестать оценивать агента «на глаз» и собрал отдельный проект-бенчмарк, на котором можно честно сравнивать прогоны: версии агента, отдельные «улучшалки», даже эксперименты с моделями. В качестве бонуса покажу все артефакты, которые агент готовит за один прогон пайплайна. И бенчмарк, и артефакты — в публичном доступе, ссылки в конце статьи. Обсудить всё это можно в Telegram-группе .
https://habr.com/ru/articles/1036136/
#ai #ассистент #qa #автоматизация #llmагент #claude #benchmark
-
AI-агент действительно ловит баги? Пусть докажет на бенчмарке
Привет! Это снова Михаил Федоров. В первой статье — архитектура QA Assist: 11 AI-агентов от декомпозиции требований до готовых автотестов. Во второй — как «4 часа подключения» превращаются в неделю корпоративной реальности. В третьей — почему пирамида тестирования ломается, когда тест-дизайнером работает LLM. Сегодня — про то, как я решил наконец-то перестать оценивать агента «на глаз» и собрал отдельный проект-бенчмарк, на котором можно честно сравнивать прогоны: версии агента, отдельные «улучшалки», даже эксперименты с моделями. В качестве бонуса покажу все артефакты, которые агент готовит за один прогон пайплайна. И бенчмарк, и артефакты — в публичном доступе, ссылки в конце статьи. Обсудить всё это можно в Telegram-группе .
https://habr.com/ru/articles/1036136/
#ai #ассистент #qa #автоматизация #llmагент #claude #benchmark
-
AI-агент действительно ловит баги? Пусть докажет на бенчмарке
Привет! Это снова Михаил Федоров. В первой статье — архитектура QA Assist: 11 AI-агентов от декомпозиции требований до готовых автотестов. Во второй — как «4 часа подключения» превращаются в неделю корпоративной реальности. В третьей — почему пирамида тестирования ломается, когда тест-дизайнером работает LLM. Сегодня — про то, как я решил наконец-то перестать оценивать агента «на глаз» и собрал отдельный проект-бенчмарк, на котором можно честно сравнивать прогоны: версии агента, отдельные «улучшалки», даже эксперименты с моделями. В качестве бонуса покажу все артефакты, которые агент готовит за один прогон пайплайна. И бенчмарк, и артефакты — в публичном доступе, ссылки в конце статьи. Обсудить всё это можно в Telegram-группе .
https://habr.com/ru/articles/1036136/
#ai #ассистент #qa #автоматизация #llmагент #claude #benchmark
-
https://www.europesays.com/iran/111840/ Iran War Tests Turkish Central Bank’s Ambitious Inflation Target #benchmark #Business #Economics #EmergingMarkets #ExchangeRate #Generic1st'CL'Future #GoldReserves #Inflation #Iran #Markets #MiddleEast #TradeBalance #Turkey #War
-
https://www.europesays.com/ch-fr/128354/ Vivo X300 Ultra : De sérieux problèmes d’efficacité ou des débuts difficiles pour le téléphone phare ? #Android #autonomie #avis #benchmark #BugLogiciel #consommation #efficacité #InformationsSurDesOrdinateursPortatifs #nouvelles #Performance #rapport #revues #Science #ScienceAndTechnology #Sciences #SciencesEtTechnologies #smartphone #Suisse #Technologies #Technology #test #ultra #vivo #X300
-
AVeriTeC (NeurIPS 2023): 4,568 real-world fact-checked claims, web-retrieved evidence, four-way labels, temporal-leak-free split.
Two structural gaps: gold answers are frozen but the retrieval surface isn't (two systems a year apart hit different Google), and the not-enough-evidence class rewards weak retrievers — predicting NEI when retrieval fails matches gold by coincidence.
https://benjaminhan.net/posts/20260507-averitec/?utm_source=mastodon&utm_medium=social
-
AVeriTeC (NeurIPS 2023): 4,568 real-world fact-checked claims, web-retrieved evidence, four-way labels, temporal-leak-free split.
Two structural gaps: gold answers are frozen but the retrieval surface isn't (two systems a year apart hit different Google), and the not-enough-evidence class rewards weak retrievers — predicting NEI when retrieval fails matches gold by coincidence.
https://benjaminhan.net/posts/20260507-averitec/?utm_source=mastodon&utm_medium=social
-
AVeriTeC (NeurIPS 2023): 4,568 real-world fact-checked claims, web-retrieved evidence, four-way labels, temporal-leak-free split.
Two structural gaps: gold answers are frozen but the retrieval surface isn't (two systems a year apart hit different Google), and the not-enough-evidence class rewards weak retrievers — predicting NEI when retrieval fails matches gold by coincidence.
https://benjaminhan.net/posts/20260507-averitec/?utm_source=mastodon&utm_medium=social
-
Most important server CPU benchmark gets an update after 9 years
CPU designers are switching to the SPEC CPU 2026 benchmark. The new version even runs on a Raspberry Pi.
-
Most important server CPU benchmark gets an update after 9 years
CPU designers are switching to the SPEC CPU 2026 benchmark. The new version even runs on a Raspberry Pi.
-
#PhotoOfTheDay is an aisle of the old Map Room at the USGS West Coast Headquarters in Menlo Park, California. This place was like a temple to topographic maps, with some very old handmade benchmark disks on display too.
Sadly, it's been gone for a while now. We did an interview with the head of mapping there (I was helping to make a benchmarking video) and he explained that he had none of his people left that did actual field work. :(
-
#PhotoOfTheDay is an aisle of the old Map Room at the USGS West Coast Headquarters in Menlo Park, California. This place was like a temple to topographic maps, with some very old handmade benchmark disks on display too.
Sadly, it's been gone for a while now. We did an interview with the head of mapping there (I was helping to make a benchmarking video) and he explained that he had none of his people left that did actual field work. :(
-
#PhotoOfTheDay is an aisle of the old Map Room at the USGS West Coast Headquarters in Menlo Park, California. This place was like a temple to topographic maps, with some very old handmade benchmark disks on display too.
Sadly, it's been gone for a while now. We did an interview with the head of mapping there (I was helping to make a benchmarking video) and he explained that he had none of his people left that did actual field work. :(
-
#PhotoOfTheDay is an aisle of the old Map Room at the USGS West Coast Headquarters in Menlo Park, California. This place was like a temple to topographic maps, with some very old handmade benchmark disks on display too.
Sadly, it's been gone for a while now. We did an interview with the head of mapping there (I was helping to make a benchmarking video) and he explained that he had none of his people left that did actual field work. :(
-
Wichtigster Server-CPU-Benchmark bekommt ein Update nach 9 Jahren
CPU-Designer satteln auf den Benchmark SPEC CPU 2026 um. Die neue Version läuft sogar auf einem Raspberry Pi.
-
SPEC CPU 2026: Moderner CPU-Benchmark bleibt der Kommandozeile treu https://www.computerbase.de/news/prozessoren/spec-cpu-2026-moderner-cpu-benchmark-bleibt-der-kommandozeile-treu.97111/ #SPEC #Benchmark
-
SPEC CPU 2026: Moderner CPU-Benchmark bleibt der Kommandozeile treu https://www.computerbase.de/news/prozessoren/spec-cpu-2026-moderner-cpu-benchmark-bleibt-der-kommandozeile-treu.97111/ #SPEC #Benchmark
-
SPEC CPU 2026: Moderner CPU-Benchmark bleibt der Kommandozeile treu https://www.computerbase.de/news/prozessoren/spec-cpu-2026-moderner-cpu-benchmark-bleibt-der-kommandozeile-treu.97111/ #SPEC #Benchmark
-
SPEC CPU 2026: Moderner CPU-Benchmark bleibt der Kommandozeile treu https://www.computerbase.de/news/prozessoren/spec-cpu-2026-moderner-cpu-benchmark-bleibt-der-kommandozeile-treu.97111/ #SPEC #Benchmark
-
SPEC CPU 2026: Moderner CPU-Benchmark bleibt der Kommandozeile treu https://www.computerbase.de/news/prozessoren/spec-cpu-2026-moderner-cpu-benchmark-bleibt-der-kommandozeile-treu.97111/ #SPEC #Benchmark
-
https://www.europesays.com/hu/87993/ Csúcsidőben nyög a magyar mobilhálózat (is) #benchmark #csucsido #hours #HU #Hungarian #Hungary #Magyar #Magyarország #mobilinternet #mobilnet #ookla #peak #Science #Science&Technology #speedtest #Technológia #Technology #Tudomány #TudományésTechnológia
-
Oh, well… PRAGMATA pushes my poor, little AM4 system quite a bit. But, luckily, it still reaches a reasonable framerate.
-
Oh, well… PRAGMATA pushes my poor, little AM4 system quite a bit. But, luckily, it still reaches a reasonable framerate.
-
Oh, well… PRAGMATA pushes my poor, little AM4 system quite a bit. But, luckily, it still reaches a reasonable framerate.
-
https://www.europesays.com/ch-fr/116409/ La dernière tablette de jeu Lenovo impressionne dans le nouveau classement AnTuTu des performances des produits phares #Android #AnTuTu #benchmark #classements #Dimensity #flagship #InformationsSurDesOrdinateursPortatifs #jeu #Legion #Lenovo #nouvelles #Performance #rapport #revues #Science #ScienceAndTechnology #Sciences #SciencesEtTechnologies #snapdragon #Suisse #TabGen5 #tablette #Technologies #Technology #test #vivo #Xiaomi #Y700
-
https://www.europesays.com/be-fr/95625/ La dernière tablette de jeu Lenovo impressionne dans le nouveau classement AnTuTu des performances des produits phares #Android #AnTuTu #BE #BEFr #Belgique #Belgium #benchmark #classements #Dimensity #flagship #InformationsSurDesOrdinateursPortatifs #jeu #Legion #Lenovo #nouvelles #performance #rapport #revues #Science #ScienceAndTechnology #Sciences #SciencesEtTechnologies #snapdragon #TabGen5 #tablette #Technologies #Technology #test #vivo #Xiaomi #Y700
-
https://www.europesays.com/be-nl/55907/ Lenovo’s Legion 7a 16 is met $2049 te duur, terwijl de Legion 5 15 dezelfde gamingprestaties biedt voor $1350 #BE #België #Belgium #Benchmark #draagbaarheid #gaming #GSync #informations #laptop #Legion #Lenovo #Nieuws #oled #Optimus #overzichten #prestaties #prijs #RTX5060 #Science #ScienceAndTechnology #ScienceAndTechnology #Technologie #Technology #testrapporten #TGP #VRR #Wetenschap #WetenschapEnTechnologie #WetenschapTechnologie #Zen4 #Zen5
-
https://www.europesays.com/ch-fr/115863/ Le Legion 7a 16 de Lenovo est trop cher à 2049 $, alors que le Legion 5 15 offre les mêmes performances de jeu pour 1350 $ #benchmark #Gaming #GSync #InformationsSurDesOrdinateursPortatifs #Legion #Lenovo #nouvelles #OLED #Optimus #OrdinateurPortable #performances #portabilité #prix #rapport #revues #RTX5060 #Science #ScienceAndTechnology #Sciences #SciencesEtTechnologies #Suisse #Technologies #Technology #test #TGP #VRR #Zen4 #Zen5
-
https://www.europesays.com/be-fr/95211/ Le Legion 7a 16 de Lenovo est trop cher à 2049 $, alors que le Legion 5 15 offre les mêmes performances de jeu pour 1350 $ #BE #BEFr #Belgique #Belgium #benchmark #Gaming #GSync #InformationsSurDesOrdinateursPortatifs #Legion #Lenovo #nouvelles #OLED #Optimus #OrdinateurPortable #performances #portabilité #prix #rapport #revues #RTX5060 #Science #ScienceAndTechnology #Sciences #SciencesEtTechnologies #Technologies #Technology #test #TGP #VRR #Zen4 #Zen5
-
Do LLMs understand coordinates?: ’A new #benchmark called #GPSBench evaluates 14 #LLM-s across 17 coordinate manipulation and reasoning tasks and finds that models handle real-world geographic reasoning better than raw geometric computations, with country-level knowledge stronger...
https://spatialists.ch/posts/2026/05/03-do-llms-understand-coordinates/ #GIS #GISchat #geospatial #SwissGIS