#llmasjudge — Public Fediverse posts on home.social

Habr @[email protected] · 2026-04-26 · 12:42 UTC

Как Gemini CLI поймал у моего Claude Code критическую дыру в paywall за 30 секунд

Solo-фаундер. Делаю всё через Claude Code. На прошлой неделе он спроектировал мне систему loyalty-кредитов, я перечитал четыре раза, собрался релизить. Сказал Claude: «обсуди это с Gemini». Через 30 секунд получил verdict: «You are literally paying users to NOT subscribe». Я забыл daily refill в своей формуле. Free tier выходил выгоднее платного на 38%. Я бы катил это в прод. Один запрос — два critical bug’а до релиза. 30 секунд. $0.

https://habr.com/ru/articles/1028104/

#Claude_Code #Gemini_CLI #LLMasjudge #AIревью #crossmodel_critique #prompt_engineering #AIагенты #solo_founder

#solo_founder #aiагенты #prompt_engineering #crossmodel_critique #aiревью #llmasjudge

Habr @[email protected] · 2026-04-26 · 12:42 UTC

Как Gemini CLI поймал у моего Claude Code критическую дыру в paywall за 30 секунд

Solo-фаундер. Делаю всё через Claude Code. На прошлой неделе он спроектировал мне систему loyalty-кредитов, я перечитал четыре раза, собрался релизить. Сказал Claude: «обсуди это с Gemini». Через 30 секунд получил verdict: «You are literally paying users to NOT subscribe». Я забыл daily refill в своей формуле. Free tier выходил выгоднее платного на 38%. Я бы катил это в прод. Один запрос — два critical bug’а до релиза. 30 секунд. $0.

https://habr.com/ru/articles/1028104/

#Claude_Code #Gemini_CLI #LLMasjudge #AIревью #crossmodel_critique #prompt_engineering #AIагенты #solo_founder

#solo_founder #aiагенты #prompt_engineering #crossmodel_critique #aiревью #llmasjudge

Habr @[email protected] · 2026-04-26 · 12:42 UTC

Как Gemini CLI поймал у моего Claude Code критическую дыру в paywall за 30 секунд

Solo-фаундер. Делаю всё через Claude Code. На прошлой неделе он спроектировал мне систему loyalty-кредитов, я перечитал четыре раза, собрался релизить. Сказал Claude: «обсуди это с Gemini». Через 30 секунд получил verdict: «You are literally paying users to NOT subscribe». Я забыл daily refill в своей формуле. Free tier выходил выгоднее платного на 38%. Я бы катил это в прод. Один запрос — два critical bug’а до релиза. 30 секунд. $0.

https://habr.com/ru/articles/1028104/

#Claude_Code #Gemini_CLI #LLMasjudge #AIревью #crossmodel_critique #prompt_engineering #AIагенты #solo_founder

#solo_founder #aiагенты #prompt_engineering #crossmodel_critique #aiревью #llmasjudge

Habr @[email protected] · 2026-04-26 · 12:42 UTC

Как Gemini CLI поймал у моего Claude Code критическую дыру в paywall за 30 секунд

Solo-фаундер. Делаю всё через Claude Code. На прошлой неделе он спроектировал мне систему loyalty-кредитов, я перечитал четыре раза, собрался релизить. Сказал Claude: «обсуди это с Gemini». Через 30 секунд получил verdict: «You are literally paying users to NOT subscribe». Я забыл daily refill в своей формуле. Free tier выходил выгоднее платного на 38%. Я бы катил это в прод. Один запрос — два critical bug’а до релиза. 30 секунд. $0.

https://habr.com/ru/articles/1028104/

#Claude_Code #Gemini_CLI #LLMasjudge #AIревью #crossmodel_critique #prompt_engineering #AIагенты #solo_founder

#claude_code #gemini_cli #llmasjudge #aiревью #crossmodel_critique #prompt_engineering

AI Daily Post @[email protected] · 2026-03-09 · 16:43 UTC

Google Stax just turned its LLM into a judge, automatically scoring model outputs against your own criteria. This opens up open‑source benchmarking, letting developers run fast, reproducible evaluations without hand‑crafting metrics. Curious how it works and what it means for AI research? Dive in for the details. #LLMasJudge #AIevaluation #GoogleStax #PromptBenchmarking

🔗 https://aidailypost.com/news/google-stax-uses-llm-as-judge-autoevaluate-model-outputs-by-your

#llmasjudge #aievaluation #googlestax #promptbenchmarking