#danhgiaai — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #danhgiaai, aggregated by home.social.
-
Một nhà phát triển vừa tạo công cụ đánh giá mã nguồn mở (SanityHarness) và kiểm tra 49 cặp mô hình/đại lý lập trình, bao gồm Kimi K2.5. Bảng xếp hạng SanityBoard chấm điểm hiệu năng, chi phí và so sánh các mô hình hỗ trợ BYOK. Phát hiện: Codebuff mắc nhưng hiệu suất kém, Droid và Minimax vượt trội. Mời cộng đồng tham gia thử nghiệm qua Discord. #AI #LậpTrình #ĐánhGiáAI #MãNguồnMở #Coding #AIEvaluation
https://www.reddit.com/r/LocalLLaMA/comments/1qp4ftj/i_made_a_coding_eval_and_ran_it_against_4
-
Tôi đã phát triển bộ đánh giá mã nguồn "SanityHarness" và thử nghiệm trên 49 mô hình/agent AI (bao gồm Kimi K2.5). Kết quả chi tiết được công bố trên bảng xếp hạng "SanityBoard" với 6 ngôn ngữ lập trình. Đáng chú ý: nhiều dịch vụ AI tính phí quá đắt như Codebuff ($7.5 cho 9 task), trong khi các nền tảng như Kimi CLI rẻ hơn đáng kể. #AI #CodingBenchmark #VietnameseAI #LậpTrình #MôHìnhAI #KimiK25 #ĐánhGiáAI
https://www.reddit.com/r/LocalLLaMA/comments/1qp4ftj/i_made_a_coding_eval_and_ran_it_again
-
TrustifAI – Khung đánh giá độ tin cậy cho hệ thống AI/RAG với điểm số đa chiều: Độ bao phủ bằng chứng, Độ ổn định luận lý, Độ lệch ngữ nghĩa, Đa dạng nguồn, Độ tự tin sinh nội dung. Tạo đồ thị lý lẽ & trực quan hóa Mermaid để truy xuất nguyên nhân. Giải pháp cho môi trường doanh nghiệp, quản trị & tuân thủ. #TrustifAI #RAG #AIEvaluation #AIinVietnam #ĐánhGiáAI #HệThốngThôngMinh
-
Công cụ Serno giúp so sánh đồng thời các mô hình AI (Anthropic, Google, OpenAI) qua chế độ “council” tổng hợp câu trả lời, tạo persona tranh luận, và chuyển đổi model giữa chừng khi cần. Miễn phí giai đoạn beta, mời các nhà phát triển đóng góp ý tưởng UX để tránh quá tải khi xem nhiều phản hồi. #AI #MachineLearning #CôngNghệ #TríTuệNhânTạo #Serno #ĐánhGiáAI
https://www.reddit.com/r/SideProject/comments/1ql25uy/built_a_multi_model_ai_workspace_because_i/
-
Hàng ngày, 10 AI được đánh giá chéo: cùng xử lý 1 tác vụ rồi chấm điểm lẫn nhau (100 đánh giá). Ở thử thách "Tìm lỗi Async Python", Claude Opus 4.5 dẫn đầu (9.49/10), GPT-4o xếp 9 (8.79). Opus không chỉ sửa lỗi cụ thể mà còn là giám khảo khắt khe nhất. Thử thách hôm nay: Nghịch lý Hai Phong Bì. Phương pháp đánh giá chéo có giảm thiên vị? #AI #LLM #Claude #GPT4o #Mistral #TríTuệNhânTạo #ĐánhGiáAI #LậpTrình #Python
https://www.reddit.com/r/LocalLLaMA/comments/1qcxib4/i_made_10_frontier_llms_judge
-
Artificial Analysis vừa cập nhật chỉ số mô hình AI toàn cầu, có thể là phiên bản 4.0 với điều chỉnh điểm số – một số nhận xét cho rằng thay đổi có lợi cho OpenAI hơn Google. Một số mô hình như Kimi K2 bị giảm hạng, trong khi các model khác đang dần cập nhật. Cập nhật dường như được thực hiện âm thầm trước thông báo chính thức. #AI #LLM #ArtificialAnalysis #ĐánhGiáAI #CậpNhậtAI #AIModels #OpenAI #GoogleGemini
https://www.reddit.com/r/LocalLLaMA/comments/1q5fs95/artificial_analysis_just_refreshed
-
Gemini 3 Flash dẫn đầu bảng xếp hạng "Misguided Attention" với 68.5%, vượt mặt GPT-5.2 và Opus 4.5. Bài kiểm tra đánh giá khả năng hiểu hướng dẫn và suy luận theo nghĩa đen, không dựa trên mẫu ghi nhớ. Dù điểm cao, các mô hình vẫn còn yếu trong suy luận cơ bản, cho thấy khoảng cách giữa ghi nhớ mẫu và tư duy logic. Điều này đặt ra câu hỏi về độ tin cậy của AI tự động hoàn toàn. #AI #Gemini3Flash #GPT5 #Reasoning #ArtificialIntelligence #TríTuệNhânTạo #LậpLuận #ĐánhGiáAI
-
Các mô hình LLM nguồn mở (Llama-3.1, Mistral,...) đang được đưa vào trình mô phỏng trò chơi theo lượt ("The Spire") để thi đấu. Đây là hướng đánh giá mới dựa trên mô phỏng, giúp kiểm tra khả năng lập kế hoạch dài hạn của AI. Phương pháp này là công cụ bổ sung hữu ích để hiểu hành vi thực tế của mô hình, dù không nghiêm ngặt như các benchmark học thuật.
#LLMs #OpenSource #AI #ĐánhGiáAI #MôPhỏng #Evaluation #Simulation #Llama3
https://www.reddit.com/r/LocalLLaMA/comments/1q0p1zp/saw_this_post_ab
-
Có mô hình AI được tinh chỉnh cho SQL? Một số mô hình như SQL-GPT đã được huấn luyện chuyên sâu cho PostgreSQL và MySQL, nhưng vẫn chưa phổ biến. Các mô hình lớn như GPT hoặc Gemini có thể hỗ trợ nhưng dễ nhầm lẫn cú pháp đa nền tảng. Cần đánh giá chi tiết để nâng cao độ chính xác. #AI #SQL #MachineLearning #PostgreSQL #MySQL #ĐánhGiáAI #CôngNghệThôngTin
https://www.reddit.com/r/programming/comments/1pvwf1u/are_there_ai_models_finetuned_for_sql/
-
Stanford nhận định 2026 là năm AI bước vào kỷ nguyên "đánh giá" thay vì "rêu rao". Nghiên cứu chỉ ra AI sẽ được đo lường hiệu quả rõ ràng, từ năng suất lao động đến tác động xã hội. #AI #Stanford #ĐánhGiáAI #AIRealityCheck #KỷNguyênAI
(NONE - nội dung không mang tính tin tức mới)
-
METR phát hiện Opus 4.5 có 50% xác suất hoàn thành trong 4 giờ 49 phút. Đánh giá kỹ thuật mới về mô hình AI. #Opus45 #METR #AILab #ThờiGianXửLý #ĐánhGiáAI
https://www.reddit.com/r/singularity/comments/1pr39qf/metr_finds_opus_45_has_a_50_time_horizon_of_4/
-
Gemini 3 Pro tăng mức tin cậy lên 69% trong thử nghiệm mù (tăng từ 16% so với phiên bản trước), dẫn đầu 3/4 hạng mục: hiệu suất, tương tác và an toàn. Dù bị DeepSeek V3 vượt về phong cách giao tiếp, nó vẫn giành 5 lần lựa chọn ưu tiên của người dùng. Đánh giá HUMAINE nhấn mạnh tính nhất quán qua 22 nhóm nhân khẩu học, cảnh báo doanh nghiệp nên ưu tiên mô hình phù hợp nhu cầu và đối tượng cụ thể.
#AI #GeminiPro #ĐánhGiáAI #CôngNghệ #TrustworthyAI
#ThửNghiệmMù #ĐaDạngNgườiDùng #TriTueNhanTao -
Sử dụng mô hình **Ollama địa phương** (ví dụ: *llama3.2*) để kiểm tra AI agents thay vì API đám mây. Ưu điểm: tiết kiệm chi phí, bảo mật dữ liệu và hoạt động ngoại tuyến. Cài đặt đơn giản qua **EvalView**: `pip install evalview`, kết nối Ollama với cú pháp YAML để đánh giá phản hồi AI. Dự án mở nguồn tại GitHub. Gợi ý thử nghiệm mô hình Ollama nào khác?
#AItesting #Ollama #AIBots #Llama3 #ĐánhGIáAI #CơChếTesting #PythonTools #AIĐịaPhương #MastodonAI #TechNewsVN
-
Các mô hình Qwen3 4b/a3b có vượt trội hơn GPT 4 đầu tiên (2023)? Benchmark cho thấy a3b 30b và 4b đánh bại GPT-4, nhưng tổng thể bạn nghĩ sao? Liệu mô hình mã nguồn mở nhỏ có thể thay thế GPT-4 truyền thống? #AI #MachineLearning #Qwen3 #GPT4 #MáyHọc #MãNguồnMở #ModMở #ClosedSource #Benchmarks #ĐánhGiáAI
-
livebench.ai là nền tảng mới chuyên đánh giá và so sánh các mô hình AI mã nguồn mở. Cộng đồng đang bàn luận sôi nổi về bảng xếp hạng này, đặc biệt là so sánh Qwen 3 Next với GPT-OSS. Bạn nghĩ sao về thứ tự các mô hình này?
#AI #OpenSource #Livebench #LLM #Qwen #GPTOSS #Benchmark #TríTuệNhânTạo #MãNguồnMở #ĐánhGiáAI #MôHìnhNgônNgữhttps://www.reddit.com/r/LocalLLaMA/comments/1peuh30/httpslivebenchai_open_weight_models_only/
-
Một nền tảng đánh giá AI giọng nói mã nguồn mở vừa ra mắt, tác giả kêu gọi cộng đồng đóng góp ý kiến. Việc đánh giá này có thực sự quan trọng? Những vấn đề thường gặp khi dùng AI giọng nói là gì (độ trễ, gián đoạn, giọng điệu)? Và cần bổ sung tính năng gì để nền tảng này hữu ích hơn?
#VoiceAI #OSS #AItools #Evaluation #AIgiọngnói #MãNguồnMở #ĐánhGiáAIhttps://www.reddit.com/r/LocalLLaMA/comments/1peo7ov/built_an_oss_eval_platform_for_voice_ai_agents/
-
Cộng đồng đang tìm kiếm công cụ benchmark tốt nhất cho các cổng AI LiteLLM và mô hình. Các tiêu chí quan trọng bao gồm TTFT, tốc độ xuất token, độ chính xác, và kiểm tra dưới áp lực. Bạn có biết công cụ "plug and play" nào không?
#AI #Benchmarking #LiteLLM #LLM #Tools #ArtificialIntelligence #ĐánhGiáAI #CôngCụAI #HọcMáy
https://www.reddit.com/r/LocalLLaMA/comments/1pduptm/best_current_benchmarking_tool/
-
Cộng đồng AI đang thảo luận về cách đánh giá và đo lường hiệu suất (benchmarks và evals) cho các mô hình ngôn ngữ lớn (LLM). Nhiều người gặp khó khăn khi tổ chức dữ liệu và quy trình đánh giá. Mọi người quan tâm đến việc tạo bộ kiểm tra tùy chỉnh và kinh nghiệm thực tế để tránh thông tin cường điệu.
#LLM #AI #Benchmarks #Evaluations #LocalLLaMA #MôHìnhNgônNgữ #ĐánhGiáAIhttps://www.reddit.com/r/LocalLLaMA/comments/1p9pweg/benchmarks_and_evals/
-
Gemini 3 được so sánh với các mô hình khác trên ARC-AGI 1 & 2 qua bảng xếp hạng của ARC Prize. Thẻ #Gemini3 #AIComparison #ARCAGI và #SoSanhMomo #CongNgheAI #DanhGiaAI.
*Thẻ hashtag:* #Gemini3 #ARCAGI #AIComparison #SoSanhAI #CongNgheAI
-
Sự phát triển nhanh chóng của các mô hình AI hiện đại đòi hỏi bộ tiêu chuẩn đánh giá sâu rộng năng lực phức tạp, nhằm thúc đẩy hoàn thiện các mô hình ngôn ngữ lớn (LLM) tiên tiến. Các chuyên gia nhấn mạnh, AI càng thông minh, việc đánh giá càng phải toàn diện hơn để đảm bảo an toàn và hiệu quả.
#AI #TríTuệNhânTạo #AIModels #MôHìnhAI #AIEvaluation #ĐánhGiáAI #CôngNghe #Tech