home.social

#llmasjudge — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #llmasjudge, aggregated by home.social.

  1. Как Gemini CLI поймал у моего Claude Code критическую дыру в paywall за 30 секунд

    Solo-фаундер. Делаю всё через Claude Code. На прошлой неделе он спроектировал мне систему loyalty-кредитов, я перечитал четыре раза, собрался релизить. Сказал Claude: «обсуди это с Gemini». Через 30 секунд получил verdict: «You are literally paying users to NOT subscribe». Я забыл daily refill в своей формуле. Free tier выходил выгоднее платного на 38%. Я бы катил это в прод. Один запрос — два critical bug’а до релиза. 30 секунд. $0.

    habr.com/ru/articles/1028104/

    #Claude_Code #Gemini_CLI #LLMasjudge #AIревью #crossmodel_critique #prompt_engineering #AIагенты #solo_founder

  2. Как Gemini CLI поймал у моего Claude Code критическую дыру в paywall за 30 секунд

    Solo-фаундер. Делаю всё через Claude Code. На прошлой неделе он спроектировал мне систему loyalty-кредитов, я перечитал четыре раза, собрался релизить. Сказал Claude: «обсуди это с Gemini». Через 30 секунд получил verdict: «You are literally paying users to NOT subscribe». Я забыл daily refill в своей формуле. Free tier выходил выгоднее платного на 38%. Я бы катил это в прод. Один запрос — два critical bug’а до релиза. 30 секунд. $0.

    habr.com/ru/articles/1028104/

    #Claude_Code #Gemini_CLI #LLMasjudge #AIревью #crossmodel_critique #prompt_engineering #AIагенты #solo_founder

  3. Как Gemini CLI поймал у моего Claude Code критическую дыру в paywall за 30 секунд

    Solo-фаундер. Делаю всё через Claude Code. На прошлой неделе он спроектировал мне систему loyalty-кредитов, я перечитал четыре раза, собрался релизить. Сказал Claude: «обсуди это с Gemini». Через 30 секунд получил verdict: «You are literally paying users to NOT subscribe». Я забыл daily refill в своей формуле. Free tier выходил выгоднее платного на 38%. Я бы катил это в прод. Один запрос — два critical bug’а до релиза. 30 секунд. $0.

    habr.com/ru/articles/1028104/

    #Claude_Code #Gemini_CLI #LLMasjudge #AIревью #crossmodel_critique #prompt_engineering #AIагенты #solo_founder

  4. Как Gemini CLI поймал у моего Claude Code критическую дыру в paywall за 30 секунд

    Solo-фаундер. Делаю всё через Claude Code. На прошлой неделе он спроектировал мне систему loyalty-кредитов, я перечитал четыре раза, собрался релизить. Сказал Claude: «обсуди это с Gemini». Через 30 секунд получил verdict: «You are literally paying users to NOT subscribe». Я забыл daily refill в своей формуле. Free tier выходил выгоднее платного на 38%. Я бы катил это в прод. Один запрос — два critical bug’а до релиза. 30 секунд. $0.

    habr.com/ru/articles/1028104/

    #Claude_Code #Gemini_CLI #LLMasjudge #AIревью #crossmodel_critique #prompt_engineering #AIагенты #solo_founder

  5. Google Stax just turned its LLM into a judge, automatically scoring model outputs against your own criteria. This opens up open‑source benchmarking, letting developers run fast, reproducible evaluations without hand‑crafting metrics. Curious how it works and what it means for AI research? Dive in for the details. #LLMasJudge #AIevaluation #GoogleStax #PromptBenchmarking

    🔗 aidailypost.com/news/google-st