#事物描述模型 — Public Fediverse posts on home.social

#開源分享英偉達新放出了一款事物描述多模態LLM：Describe Anything，你指定圖像或影片中某個特定區域，它能給你生成詳細的描述

可以使用點、框、塗鴉或掩碼來指定區域，能根據指令生成不同細節及風格的描述，可以進行零樣本區域問答

舉個例子，讓它描述照片裡的一隻狗，它可以告訴你：“這是一隻中等大小的紅棕色狗，有著白色的腹部和腿，尾巴濃密，耳朵尖尖，戴著帶有銀色標籤的紅色項圈……”

可以用來輔助視覺障礙人士、醫學影像分析、電商商品描述等等

除了識別目標對象，它還能描述其紋理、顏色、形狀、顯著部分等細節特徵。對於影片類輸入也一樣，除了描述單幀圖像中的對象，還能跟蹤對象在影片中的運動和變化，並描述變化

模型： huggingface.co/collections/nvidia/describe-anything-680825bb8f5e41ff0785834c
專案地址： github.com/NVlabs/describe-anything