home.social

#aitesting — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #aitesting, aggregated by home.social.

  1. PsyPost: Researchers are using Dungeons & Dragons to find the breaking points of major AI models. “A new study presented at the NeurIPS 2025 conference suggests that the tabletop game Dungeons & Dragons can serve as a tool for testing the intelligence of artificial intelligence agents. Researchers found that while current models can handle simple questions, they struggle to manage the multiple […]

    https://rbfirehose.com/2026/01/26/psypost-researchers-are-using-dungeons-dragons-to-find-the-breaking-points-of-major-ai-models/
  2. Sử dụng mô hình **Ollama địa phương** (ví dụ: *llama3.2*) để kiểm tra AI agents thay vì API đám mây. Ưu điểm: tiết kiệm chi phí, bảo mật dữ liệu và hoạt động ngoại tuyến. Cài đặt đơn giản qua **EvalView**: `pip install evalview`, kết nối Ollama với cú pháp YAML để đánh giá phản hồi AI. Dự án mở nguồn tại GitHub. Gợi ý thử nghiệm mô hình Ollama nào khác?

    #AItesting #Ollama #AIBots #Llama3 #ĐánhGIáAI #CơChếTesting #PythonTools #AIĐịaPhương #MastodonAI #TechNewsVN

    reddit.com/r/ollam

  3. Tương lai của kiểm thử phần mềm (QA) đã đến! Các công cụ AI đang thay đổi cuộc chơi bằng cách tự động tạo test case. Chúng sử dụng AI/ML để phân tích code và hành vi người dùng, giúp tiết kiệm thời gian, tăng độ chính xác và bao phủ cả những trường hợp đặc biệt.

    Một số cái tên nổi bật trong năm 2025: Keploy, Testim, Testsigma.

    #KiemThuPhanMem #AI #TuDongHoa #CongNghe #QA
    #SoftwareTesting #AITesting #TestAutomation #Tech

    dev.to/alexai/top-ai-test-case

  4. Our CEO Alex Combessie will give a Masterclass: "Securing AI agents through continuous Red Teaming: Prevent hallucinations and vulnerabilities in LLM agents".

    🗺️ The Ritz-Carlton, Berlin
    🗓️ March 31 - April 1

    Book a demo with us here: gisk.ar/3FsJaav

  5. Is AI the future of test automation? Alex Rodionov introduces Alumnium, an open-source AI-powered framework that overcomes the challenges of automated testing.
    👉 seleniumconf.com/register/

  6. 🎉 Recognized in Gartner's latest research "Emerging Tech: Techscape for Early-Stage Startups in GenAI TRiSM"!

    The report examines key early-stage startups addressing the critical challenges of Generative AI security, trust and risk management. Giskard was highlighted for our AI testing platform that helps enterprises manage and control risks in AI implementations.

    Download the document: lnkd.in/ehwS73Ne