home.social

#openai_o3 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #openai_o3, aggregated by home.social.

  1. Как LLM решают вопросы в духе “Что? Где? Когда?” — эксперимент и выводы

    Провёл эксперимент: дал современным языковым моделям логические вопросы в духе «Что? Где? Когда?». В статье — наблюдения, примеры ответов, сравнительный анализ и советы как использовать LLM при создании своих вопросов.

    habr.com/ru/articles/925776/

    #что_где_когда #llmмодели #gemini_pro #openai_o3 #логические_задачи #квизы

  2. [Перевод] Как я нашёл уязвимость в ядре Linux при помощи модели o3

    В этом посте я расскажу, как нашёл уязвимость нулевого дня в ядре Linux при помощи модели OpenAI o3. Уязвимость обнаружилась благодаря одному лишь API o3 — не потребовались никакая дополнительная настройка, агентские фреймворки и инструменты. Недавно я занимался аудитом уязвимостей ksmbd. ksmbd — это « сервер ядра Linux, реализующий в пространстве ядра протокол SMB3 для передачи файлов по сети ». Я приступил к этому проекту специально для того, чтобы взять отдых от разработки связанных с LLM инструментов, но после релиза o3 не мог избежать искушения и не использовать в качестве небольшого бенчмарка способностей o3 баги, найденные мной в ksmbd. В одном из следующих постов я расскажу о показателях o3 при обнаружении всех этих багов, а сегодня мы поговорим о том, как в процессе моего бенчмаркинга o3 обнаружила уязвимость нулевого дня. Найденной уязвимости присвоили обозначение CVE-2025-37899 (её патч выложен на Github ), это use-after-free в обработчике команды SMB logoff . Для понимания уязвимости необходимо знать о работе конкурентных подключений к серверу и о том, как они в определённых обстоятельствах могут обмениваться различными объектами. Модели o3 удалось разобраться в этом и найти место, где конкретный объект с автоматическим подсчётом ссылок освобождался, но продолжал оставаться доступным для другого потока. Насколько я понимаю, это будет первым публичным рассказом об уязвимости подобного типа, обнаруженной LLM.

    habr.com/ru/articles/912916/

    #openai_o3 #o3 #llm #уязвимости #useafterfree #large_language_models #большие_языковые_модели

  3. Watching o3 guess a photo’s location is surreal, dystopian and wildly entertaining

    Link
    Watching o3 guess a photo’s location is surreal, dystopian and wildly entertaining
    https://simonwillison.net/2025/Apr/26/o3-photo-location-guess/

    📌 Summary:
    本文介紹作者利用 OpenAI 最新的 o3 模型,透過輸入一張無明顯地標的照片,讓 AI 猜測拍攝地點的過程。雖然一開始模型表示無法「看見」圖片,但隨即啟動視覺分析功能,對照片中細節如房屋風格、植被種類、天氣與許多線索進行推理,甚至以 Python 程式碼裁切、放大車牌區域嘗試辨識。模型最終判斷地點為加州中部海岸區的 Cambria,但實際地點是約 200 英里北方的 El Granada,模型的第二猜測則完全正確。此過程彷彿科幻情節真實上演,過程既令人驚艷也帶有反烏託邦意味,提醒人們共享照片可能洩漏位置資訊,引發隱私疑慮。此外,作者也比較了其他模型如 Claude 3.7、Gemini 等的表現與功能差異,指出 o3 模型在「思考」階段持續調用工具(放大裁切、環境推理),展現人工智慧未來整合多模態工具的強大潛力。最後作者分享了自己在保證照片無 EXIF 資料後仍能順利猜出所在地的經驗,強調此技術的廣泛適用性與社會影響。

    🎯 Key Points:
    → 模型操作流程:將照片上傳到 ChatGPT o3(收費 Plus 方案),初步分析圖像內容,繼續裁切、放大細節區域用以偵測線索(例如車牌)。
    → 線索分析依據:居民區建築風格、植被種類(橄欖樹、加州罌粟花)、天氣狀況、建築顏色和設計、海岸地形及丘陵背景,綜合推斷為加州中部海岸小鎮。
    → 精細推理過程:模型執行多次裁切放大操作,並用 Python 代碼輔助分析,類似專家對案件逐步排查,兼具娛樂與科幻色彩。
    → 結果反饋:最終猜測 Cambria 與正式地點 El Granada 相距約 200 英里,但第二個猜測(El Granada)完全命中,且推理過程沒有作弊使用 EXIF。
    → 其他模型比較:Claude 3.7 也能推測大致區域但無法像 o3 一樣細緻放大;Gemini 版本則有使用位置資訊作弊問題。
    → 技術與社會影響:技術成熟且公開易用,提醒使用者分享照片時要注意隱私安全,任何看似平凡的照片都可能被定位。
    → o3 模型具備粗略位置存取權限,但透過剝離 EXIF 仍能依據畫面內容推理出拍照地點,且多位用戶檢驗證實此功能準確。
    → 模型思考與工具整合示範:o3 在回答過程中持續使用外部工具,展現未來 AI 複合推理模式的重要樣板。

    🔖 Keywords:
    #OpenAI_o3 #地點推測 #多模態_人工智慧 #加州中部海岸 #隱私安全

  4. Would you look at all those beautiful lies that o3 produced when tested for accuracy: transluce.org/investigating-o3

    "We discovered 71 instances where o3 claims to have run code on an external laptop, including three cases where it claims to use its laptop to mine bitcoin." 🤪

    So, OpenAI says o3 is their most powerful reasoning model. Powerful in bullshitting the user that asks how the model came up with the answer, that's for sure.

    #openai_o3 #OpenAI