#開源分享 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #開源分享, aggregated by home.social.
-
#開源分享 專用於做深度公司調研的一個多智慧體:company-research-agent,告訴它需要了解的公司,它會自動從各渠道收集資訊,並整理成詳細的分析報告
會從公司網站、新聞報導、財務報告以及結合行業分析等多個來源收集數據資訊
它用Tavily的相關性評分進行內容篩選,以確保資訊的準確性、有效性,並且即時展示研究進度和結果
最後把分析結果自動整理成結構化的報告
可以用來做企業調研或競品分析等,還比較實用方便的
專案地址: github.com/pogjester/company-research-agent
-
#開源分享 開源版本DeepWiki,代碼說明書自動生成器:deepwiki-open
給它一個GitHub/GitLab地址,它就能自動分析代碼結構和關係,自動生成該項目的詳細說明文件,還能畫出圖表來解釋代碼是怎麼運作的
支持自動生成Mermaid圖表展示架構和數據流
支持Docker或本地部署專案地址: github.com/AsyncFuncAI/deepwiki-open
-
#開源分享 一款程式設計師的工作協作AI神器:KoalaWiki,這是一個基於AI的代碼知識庫平台,可以自動解析你的Git代碼倉庫,生成比較詳細、結構化的代碼文件和項目見解
支持添加和管理多個Git代碼倉庫
倉庫分析完成後,可通過導航樹瀏覽代碼文件這個項目可以用於新開發人員快速上手、遺留項目的知識梳理、技術文件標準化等等
專案地址: github.com/AIDotNet/KoalaWiki
-
#開源分享 新出的一款輕量級音訊模型:Aero-1-Audio,1.5B參數,在一些基準上表現出了與Whisper、Qwen-2-Audio相當甚至更優的性能,尤其是在參數效率方面
它是基於Qwen-2.5-1.5B構建的,核心是能處理15分鐘的連續音訊,並且無需分割成小塊,這使它的整體理解的連貫性和穩定性比較好
支持語音識別、音訊理解、音訊指令遵循等任務
在語音識別任務中,其在AMI、LibriSpeech以及SPGISpeech等數據集的測試子集上取得了最低的詞錯誤率
適合在資源受限情況下部署高品質音訊處理功能的場景,比如手機語音助手、會議記錄和轉寫系統、或者課堂即時語音轉寫等等
模型: huggingface.co/lmms-lab/Aero-1-Audio
-
#開源分享 直接在代碼編輯器裡查看Deepwiki內容的MCP:deepwiki-mcp,相當於內建了個文件瀏覽器,非官方的但比較實用
它通過MCP獲取Deepwiki的URL,抓取相關頁面,轉換為Markdown格式,並把結果返回給代碼編輯器
那你就可以直接在Cursor等中查看,不用再打開瀏覽器,即可即時獲取最新文件了
它可以抓取單頁或整個文件,能保持文件結構,並去除廣告/導航欄等無關內容
不需要註冊帳號或者API金鑰即可使用
專案地址: github.com/regenrek/deepwiki-mcp
-
#開源分享 註冊新網站時,找個簡短好記的域名頗為頭疼,此時 Domain Scanner 這款域名掃描工具能派上用場。
它能幫助我們快速篩選真正可用的域名,不僅能同時檢查 DNS 記錄、WHOIS 資訊和 SSL 證書,還支持用正則表達式篩選、多執行緒並發掃描,甚至能直觀顯示已註冊域名的驗證簽名。
專案地址: github.com/xuemian168/domain-scanner
主要功能:
- 多種驗證方法綜合檢查,杜絕誤判
- 高並發多執行緒掃描,檢查速度提升數倍
- 靈活的正則表達式過濾,精準定位理想域名
- 智慧錯誤處理和重試機制,結果更可靠
- 即時進度跟蹤,直觀顯示掃描狀態
- 分類保存結果,方便後續篩選和使用工具基於 Go 開發,複製項目代碼到本地,並安裝依賴,就能開始使用這個強大的域名掃描工具。
-
#開源分享 想要讓玩具、公仔變得會說話、有情感,現有的方案要嘛太貴太複雜,要嘛就是需要一直連著手機,用起來特別不方便。
為了解決這些問題,GitHub 上開源項目 ElatoAI 給出了解決方案,基於 ESP32 微控制器和 OpenAI Realtime API 開發。
它能讓你的玩具變成真正的 AI 伙伴,支持超過 10 分鐘的連續自然對話,語音識別和回應都非常流暢。
專案地址: github.com/akdeb/ElatoAI
主要功能:
- 即時語音轉語音:基於 OpenAI 即時 API,對話極其自然流暢
- 自訂 AI 角色:可以設置不同的性格和聲音
- 簡單硬體設計:只需一塊 ESP32-S3 開發板即可實現
- 安全通信:使用加密 WebSocket 傳輸數據
- 全球低延遲:依靠 Deno Edge Functions 實現全球範圍內低於 1 秒的延遲該項目的前端、伺服器和韌體代碼已開源,對 AI 玩具或 AI 伴侶等產品感興趣的開發者可以看下。
-
#開源分享 英偉達新放出了一款事物描述多模態LLM:Describe Anything,你指定圖像或影片中某個特定區域,它能給你生成詳細的描述
可以使用點、框、塗鴉或掩碼來指定區域,能根據指令生成不同細節及風格的描述,可以進行零樣本區域問答
舉個例子,讓它描述照片裡的一隻狗,它可以告訴你:“這是一隻中等大小的紅棕色狗,有著白色的腹部和腿,尾巴濃密,耳朵尖尖,戴著帶有銀色標籤的紅色項圈……”
可以用來輔助視覺障礙人士、醫學影像分析、電商商品描述等等
除了識別目標對象,它還能描述其紋理、顏色、形狀、顯著部分等細節特徵。對於影片類輸入也一樣,除了描述單幀圖像中的對象,還能跟蹤對象在影片中的運動和變化,並描述變化
模型: huggingface.co/collections/nvidia/describe-anything-680825bb8f5e41ff0785834c
專案地址: github.com/NVlabs/describe-anything -
#開源分享 收集了包括Cursor、Manus、Devin、Windsurf等在內的AI工具系統提示詞庫
庫裡提供了6500+行、9個工具的系統提示詞參考,包括開源和閉源的,可以了解不同AI工具的設計思路,用來學習研究
v0、Manus、Cursor、Same、Lovable、Devin、Replit Agent、Windsurf Agent以及VSCode Agent 這9個
Cursor的提示詞強調了代碼修改的安全性、可用性以及工具使用規範,來約束AI減少幻覺;Manus也有200多行
專案地址: github.com/x1xhlol/system-prompts-and-models-of-ai-tools
-
#開源分享 一句話創建智慧體的工具:Cooragent,可與其他智慧體協作完成複雜的任務,支持MCP
有兩種工作模式:
1、Agent Factory:
只需描述,Cooragent就會根據需求生成一個智慧體,其自動分析需求,透過記憶和擴展深入理解用戶需求,挑選合適的工具自動打磨Prompt,逐步完成智慧體構建2、Agent Workflow:
只需描述目標任務,Cooragent會自動分析任務需求,挑選合適的智慧體進行協作提供CLI工具,可以快速創建,編輯,刪除智慧體
專案地址: github.com/LeapLabTHU/cooragent
-
#開源分享 微軟髮布了一個文件轉換MCP:markitdown-mcp,用於將網頁連結(http/https)、本地文件以及數據轉換為Markdown格式!
主要是調用MarkItDown進行格式轉換。可以通過Docker運行或直接安裝,也可以與Claude等AI工具集成使用
專案地址: github.com/microsoft/markitdown/tree/main/packages/markitdown-mcp
-
#開源分享 基於人類大腦工作原理設計的一款AI記憶系統:HawkinsDB,讓AI可以像人類一樣儲存和回憶資訊
它基於Jeff Hawkins的“千腦理論”,幫助AI模型以更強大且直觀的方式管理複雜資訊
想像一下我們的大腦,不僅僅是記住一堆零散的事實,而是將它們關聯起來形成一個複雜的知識網路,HawkinsDB就是想讓AI也能像人類大腦一樣記憶和理解資訊
HawkinsDB不依賴於模糊的相似性搜索,而是支持精確的,具備上下文感知的查詢,理解數據的實際含義和關係
它將語義記憶、情景記憶和程序記憶統一到一個框架中,使AI能像知識圖譜一樣,不僅儲存資訊,還記錄資訊之間的關係,從而理解和應用不同類型的知識
可作為LLM應用的記憶層,比較適用於RAG系統
專案地址: github.com/harishsg993010/HawkinsDB
-
#開源分享 一款用於構建、測試和最佳化智慧體工作流的開源工具:Sim Studio
提供可視化編輯環境,支持節點式工作流設計
支持本地AI模型可以用來開發聊天機器人、工作流自動化、設計智慧處理流程等
專案地址: github.com/simstudioai/sim
-
#開源分享 微軟開源了一個基於《當個創世神》的即時開源互動式世界模型:MineWorld,它可以根據玩家的動作預測遊戲世界接下來的變化,並即時生成新的遊戲畫面
它的核心是一個視覺動作自回歸Transformer模型,它接收遊戲場景和對應玩家動作的配對數據作為輸入,預測接下來的新場景
預測速度非常快,可以做到即時更新
它研發了一種新的並行解碼算法,可以同時預測每一幀中空間冗餘的 token,使不同規模的模型能夠達到每秒生成4到7幀的速度,實現與玩家的即時交互
專案地址: github.com/microsoft/MineWorld
-
#開源分享 把Claude的工具能力移植到本地模型的Ollama MCP工具:ollama-mcp-bridge
使本地AI助手具備文件操作、網路搜尋、郵件以及文件管理、代碼和GitHub交互、圖像生成以及持久記憶體等能力
支持多個MCP,具備動態工具路由功能,支持結構化的輸出驗證,可根據提示自動檢測工具
專案地址: github.com/patruff/ollama-mcp-bridge
-
#開源分享 具備記憶能力的一款審批自動化AI工具:LLManager,可以用它做智慧審批管理系統
比如人力資源審批,文字內容審批,或者貸款資質審批等核心特點是它可以透過反思和學習不斷改進自己的決策能力,從人工修正中學習,通過自我反思總結經驗
在決策時會參考歷史類似案例,可以解釋判斷理由,並基於LLM對上下文的分析進行更細緻的判斷,並非簡單的“是/否”判斷
設有人工干預機制,支持詳細的推理過程
專案地址: github.com/langchain-ai/llmanager
-
#開源分享 分享一款強大的可視化主題編輯工具:tweakcn。
它能幫助我們以可視化方式訂製 Tailwind CSS 和 shadcn/ui 組件,讓網站界面擺脫千篇一律的風格。
專案地址: github.com/jnsahaj/tweakcn
主要功能:
- 提供 300+ 種美觀的主題預設,快速應用個性化風格
- 可視化編輯 Tailwind CSS 主題配置
- 解決 shadcn/ui 組件千篇一律的視覺問題
- 即時預覽主題變化效果如果你正在開發一個網站,這個開源工具也許能幫助我們構建一個精美的網站。
-
#開源分享 程式設計師工具,一款開源的輔助代碼定位的工具:LocAgent,它通過圖結構引導LLM進行程式碼定位
就是把代碼庫解析為有向異構圖,讓LLM在圖上搜索和推理,利用圖結構和LLM的推理能力,準確定位代碼
支持 LLM 通過多跳推理進行程式碼定位
使用微調後的Qwen-2.5-Coder-Instruct-32B,LocAgent 在文件級定位上達到了92.7% 的準確率,相比現有的SOTA專有模型,成本降低了約86%
專案地址: github.com/gersteinlab/LocAgent
-
#開源分享 讓AI訪問微信聊天記錄的MCP:chatlog,支持Windows/macOS系統和微信3.x/4.0版本
可以從本地資料庫文件中提取微信聊天記錄,提供一個簡單的命令行界面,也能透過終端菜單操作
也可以通過API查詢聊天記錄、聯絡人、群聊和最近會話等
支持MCP SSE,對不支持MCP SSE協議的AI助手,可以使用mcp-proxy工具進行請求轉發
專案地址: github.com/sjzar/chatlog
-
#開源分享 基於MCP的技術文件處理神器:DevDocs,程式設計師搭檔
DevDocs自動抓取指定網站的技術文件,整理成清晰的結構化數據,通過內建的MCP伺服器供AI工具快速尋找資訊
支持智慧抓取,可配置抓取深度、自動發現連結、選擇性抓取和子URL檢測
支持平行處理,具有智慧快取功能,支持MD和JSON格式導出
可輕鬆集成到Cursor、Windsurf、Cline、Roo Code、Claude Desktop App等工具中
專案地址: github.com/cyberagiinc/DevDocs
-
#開源分享 端到端自動化科學發現系統:CodeScientist,可以幫助科學人員設計、運行以及分析代碼形式的科學實驗
CodeScientist從科學文章和代碼範例中生成新的實驗想法
它可以自動創建實驗代碼,並在安全的環境中運行和除錯實驗代碼,實驗完成後會生成詳細的實驗報告
可以手動,輸入實驗想法,選擇代碼片段並指導實驗運行;也可以自動,自主生成實驗想法並運行實驗
支持同時執行多個實驗,這使得可以高效進行大規模科學實驗
專案地址: github.com/allenai/codescientist
-
#開源分享 具備MCP能力的Neovim插件:mcphub.nvim,基於MCP,可以直在Neovim裡使用各種智慧工具
提供了一個直觀的用戶界面,來瀏覽、安裝測試工具及資源,支持多種原生MCP伺服器,自帶了一些常用的 MCP 伺服器
集成了Avante.nvim、Codecompanion 等Neovim 聊天插件,以及MCP市場,支持互動式測試
專案地址: github.com/ravitemer/mcphub.nvim
-
#開源分享 基於MCP構建的一個可處理複雜文件的RAG系統的用例
用Cursor作為MCP用戶端,GroundX來構建能處理複雜文件的MCP伺服器,用戶在Cursor中提問,系統通過 GroundX在文件庫中進行語義搜尋,並將相關資訊返回給 Cursor,Cursor生成並呈現最終答案
Cursor負責用戶交互,GroundX負責文件處理,形成完整的問答鏈路
工作流:
用戶通過 MCP 用戶端Cursor進行交互
用戶端連接到MCP伺服器並選擇工具
工具利用GroundX對文件進行高級搜尋
用戶端使用搜索結果生成響應可以用來做企業知識庫問答、科研文獻檢索、客戶支持或教育學習等等
專案地址: github.com/patchy631/ai-engineering-hub/tree/main/eyelevel-mcp-rag
-
#開源分享 一款10秒生成完整歌曲的端到端生成模型:DiffRhythm
給一個參考風格和歌詞,即可生成最長4分多鐘的完整歌曲可以同時生成人聲和伴奏,支持中英文歌曲生成
支持多種生成模式,使用音訊作為參考、使用文本描述風格,以及生成純音樂模型: huggingface.co/spaces/ASLP-lab/DiffRhythm
-
#開源分享 一款能從任何文件中提取文本的開源工具:Kreuzberg。
支持 PDF、圖像、Word 文件等各種檔案格式,自動化提取文本,以便用於檢索增強生成(RAG)。
專案地址: github.com/Goldziher/kreuzberg
使用簡單且,對 GPU 無要求,並提供了一個統一的非同步介面,更高效地提取。
-
#開源分享 一款用於從各種文件中提取文本的工具:Kreuzberg,支持從 PDF、圖像、辦公文件等多種文件中提取文本
智慧處理,可自動對掃描文件進行OCR,自動檢測文本文件的編碼
支持強制對包含嵌入圖像或掃描內容的PDF進行OCR
支持PDF、Word、PowerPoint、Excel、HTML、圖片等多種檔案格式
專案地址: github.com/Goldziher/kreuzberg
-
#開源分享 一個快速生成3D內容的AI工具:DiffSplat,可以根據文本或圖像1-2秒即可生成對應的3D模型
生成品質比較高,各個角度一致性比較好,可處理細節和複雜結構
支持ControlNet進行精細控制
非常適合需要快速疊代或即時生成的場景
專案地址: github.com/chenguolin/DiffSplat
-
#開源分享 一個可以讓LLM像人類一樣在網路上搜索資訊的多智慧體框架:WebWalker,它可以讓LLM能自動點擊連結、閱讀網頁、理解資訊、最終給出答案,解決傳統搜尋引擎只能淺層搜尋的問題
系統包含兩個智慧體,一個找資訊助手,負責點擊連結、瀏覽網頁內容; 一個判斷助手,判斷找到的資訊夠不夠, 是否需要繼續找,給出答案
垂直搜索能力強,能處理複雜問題,可以深入多個網頁,找到隱藏的資訊
它可以和現有的AI問答系統(比如RAG)結合,比如RAG系統以前只能找到一些簡單的答案,加上WebWalker後,可以增強處理複雜網路資訊的能力
專案地址: github.com/Alibaba-NLP/WebWalker