#openai_o3 — Public Fediverse posts on home.social

Habr @[email protected] · 2025-07-07 · 20:02 UTC

Как LLM решают вопросы в духе “Что? Где? Когда?” — эксперимент и выводы

Провёл эксперимент: дал современным языковым моделям логические вопросы в духе «Что? Где? Когда?». В статье — наблюдения, примеры ответов, сравнительный анализ и советы как использовать LLM при создании своих вопросов.

https://habr.com/ru/articles/925776/

#что_где_когда #llmмодели #gemini_pro #openai_o3 #логические_задачи #квизы

Habr @[email protected] · 2025-05-27 · 16:42 UTC

[Перевод] Как я нашёл уязвимость в ядре Linux при помощи модели o3

В этом посте я расскажу, как нашёл уязвимость нулевого дня в ядре Linux при помощи модели OpenAI o3. Уязвимость обнаружилась благодаря одному лишь API o3 — не потребовались никакая дополнительная настройка, агентские фреймворки и инструменты. Недавно я занимался аудитом уязвимостей ksmbd. ksmbd — это « сервер ядра Linux, реализующий в пространстве ядра протокол SMB3 для передачи файлов по сети ». Я приступил к этому проекту специально для того, чтобы взять отдых от разработки связанных с LLM инструментов, но после релиза o3 не мог избежать искушения и не использовать в качестве небольшого бенчмарка способностей o3 баги, найденные мной в ksmbd. В одном из следующих постов я расскажу о показателях o3 при обнаружении всех этих багов, а сегодня мы поговорим о том, как в процессе моего бенчмаркинга o3 обнаружила уязвимость нулевого дня. Найденной уязвимости присвоили обозначение CVE-2025-37899 (её патч выложен на Github ), это use-after-free в обработчике команды SMB logoff . Для понимания уязвимости необходимо знать о работе конкурентных подключений к серверу и о том, как они в определённых обстоятельствах могут обмениваться различными объектами. Модели o3 удалось разобраться в этом и найти место, где конкретный объект с автоматическим подсчётом ссылок освобождался, но продолжал оставаться доступным для другого потока. Насколько я понимаю, это будет первым публичным рассказом об уязвимости подобного типа, обнаруженной LLM.

https://habr.com/ru/articles/912916/

#openai_o3 #o3 #llm #уязвимости #useafterfree #large_language_models #большие_языковые_модели

#большие_языковые_модели #large_language_models #useafterfree #уязвимости #llm #o3

卡拉今天看了什麼 @[email protected] · 2025-04-27 · 02:41 UTC

Watching o3 guess a photo’s location is surreal, dystopian and wildly entertaining

Link

Watching o3 guess a photo’s location is surreal, dystopian and wildly entertaining
https://simonwillison.net/2025/Apr/26/o3-photo-location-guess/

📌 Summary:
本文介紹作者利用 OpenAI 最新的 o3 模型，透過輸入一張無明顯地標的照片，讓 AI 猜測拍攝地點的過程。雖然一開始模型表示無法「看見」圖片，但隨即啟動視覺分析功能，對照片中細節如房屋風格、植被種類、天氣與許多線索進行推理，甚至以 Python 程式碼裁切、放大車牌區域嘗試辨識。模型最終判斷地點為加州中部海岸區的 Cambria，但實際地點是約 200 英里北方的 El Granada，模型的第二猜測則完全正確。此過程彷彿科幻情節真實上演，過程既令人驚艷也帶有反烏託邦意味，提醒人們共享照片可能洩漏位置資訊，引發隱私疑慮。此外，作者也比較了其他模型如 Claude 3.7、Gemini 等的表現與功能差異，指出 o3 模型在「思考」階段持續調用工具（放大裁切、環境推理），展現人工智慧未來整合多模態工具的強大潛力。最後作者分享了自己在保證照片無 EXIF 資料後仍能順利猜出所在地的經驗，強調此技術的廣泛適用性與社會影響。

🎯 Key Points:
→ 模型操作流程：將照片上傳到 ChatGPT o3（收費 Plus 方案），初步分析圖像內容，繼續裁切、放大細節區域用以偵測線索（例如車牌）。
→ 線索分析依據：居民區建築風格、植被種類（橄欖樹、加州罌粟花）、天氣狀況、建築顏色和設計、海岸地形及丘陵背景，綜合推斷為加州中部海岸小鎮。
→ 精細推理過程：模型執行多次裁切放大操作，並用 Python 代碼輔助分析，類似專家對案件逐步排查，兼具娛樂與科幻色彩。
→ 結果反饋：最終猜測 Cambria 與正式地點 El Granada 相距約 200 英里，但第二個猜測（El Granada）完全命中，且推理過程沒有作弊使用 EXIF。
→ 其他模型比較：Claude 3.7 也能推測大致區域但無法像 o3 一樣細緻放大；Gemini 版本則有使用位置資訊作弊問題。
→ 技術與社會影響：技術成熟且公開易用，提醒使用者分享照片時要注意隱私安全，任何看似平凡的照片都可能被定位。
→ o3 模型具備粗略位置存取權限，但透過剝離 EXIF 仍能依據畫面內容推理出拍照地點，且多位用戶檢驗證實此功能準確。
→ 模型思考與工具整合示範：o3 在回答過程中持續使用外部工具，展現未來 AI 複合推理模式的重要樣板。

🔖 Keywords:
#OpenAI_o3 #地點推測 #多模態_人工智慧 #加州中部海岸 #隱私安全

#openai_o3 #地點推測 #多模態_人工智慧 #加州中部海岸 #隱私安全

Jukka Niiranen @[email protected] · 2025-04-17 · 10:51 UTC

Would you look at all those beautiful lies that o3 produced when tested for accuracy: https://transluce.org/investigating-o3-truthfulness

"We discovered 71 instances where o3 claims to have run code on an external laptop, including three cases where it claims to use its laptop to mine bitcoin." 🤪

So, OpenAI says o3 is their most powerful reasoning model. Powerful in bullshitting the user that asks how the model came up with the answer, that's for sure.

#openai_o3 #OpenAI

#openai_o3 #openai