home.social

#datensaetze — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #datensaetze, aggregated by home.social.

  1. Google Research belegt mathematische Schwächen in der aktuellen Evaluierung von KI-Modellen.

    Die Forscher kritisieren, dass einfache Mehrheitsentscheide bei der Bewertung subjektiver Aufgaben die statistische Signifikanz verfehlen. Künftige Benchmarks erfordern größere Prüfergruppen und Wahrscheinlichkeitsverteilungen anstelle absoluter Labels, um verlässliche Leistungsdaten zu liefern.

    #GoogleResearch #AIBenchmarks #LLM #Datensaetze #News
    all-ai.de/news/news26/google-r