#datensaetze — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #datensaetze, aggregated by home.social.
-
Google Research belegt mathematische Schwächen in der aktuellen Evaluierung von KI-Modellen.
Die Forscher kritisieren, dass einfache Mehrheitsentscheide bei der Bewertung subjektiver Aufgaben die statistische Signifikanz verfehlen. Künftige Benchmarks erfordern größere Prüfergruppen und Wahrscheinlichkeitsverteilungen anstelle absoluter Labels, um verlässliche Leistungsdaten zu liefern.
#GoogleResearch #AIBenchmarks #LLM #Datensaetze #News
https://www.all-ai.de/news/news26/google-research-ki-benchmarks