#語言模型 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #語言模型, aggregated by home.social.
-
Wikidata 收錄的項目將近 1.2 億,如此龐大的資料數量不用在大型語言模型真是太可惜了!
在【Wikontic: Constructing Wikidata-Aligned, Ontology-Aware
Knowledge Graphs with Large Language Models】一文中,作者選擇了 Wikidata 作為基礎,能將大型語言模型抽取的知識,能夠化為一個結構嚴謹的知識圖譜。完整論文可參閱:https://arxiv.org/pdf/2512.00590
附圖引用論文中「Figure 1: Overview of Wikontic: an ontology-guided pipeline that constructs a Wikidata-aligned KG from text」
#Wikidata #維基資料 #維基數據
#Wikontic
#鏈結資料 #Linkopendata
#AI #人工智慧 #語言模型 #LLM -
Wikidata 收錄的項目將近 1.2 億,如此龐大的資料數量不用在大型語言模型真是太可惜了!
在【Wikontic: Constructing Wikidata-Aligned, Ontology-Aware
Knowledge Graphs with Large Language Models】一文中,作者選擇了 Wikidata 作為基礎,能將大型語言模型抽取的知識,能夠化為一個結構嚴謹的知識圖譜。Wikidata 涵蓋了從日常常識到專業領域近 1.2 億個實體,並提供了清晰的本體規則:每一個屬性都有主語與賓語的型別限制,並且透過「instance of (P31) 」與「subclass of (P279)」建立了完整的階層結構。這些規則,使得抽取出來的三元組能夠被檢查、被修正,最後成為一個符合邏輯的知識網絡。
在論文提出的系統 Wikontic 中,文本首先被送入模型,抽取出候選的三元組。這些三元組隨後會經過一連串的檢查:先比對 Wikidata 的本體約束,刪除或修正不合法的關係;再透過 Wikidata 的標籤與別名,將不同的表述方式對齊到標準的實體;最後,重複的資訊會被合併,並保留必要的限定詞,例如時間或地點。經過這些步驟,原本散亂的文字,就被轉化為一個結構化的知識圖譜。
附圖呈現 Wikontic 的工作流程:文本進入系統,經過抽取、檢查、正規化與去重,最後匯聚成一個與 Wikidata 本體一致的知識圖譜。
透過 Wikontic 的設計,作者證明了 Wikidata 不僅是輔助工具,而是整個流程的核心。它讓抽取的知識具備一致性與可靠性,甚至能在多跳問答任務中取代原始文本,展現出結構化知識的力量。完整論文可參閱:https://arxiv.org/pdf/2512.00590
附圖引用論文中「Figure 1: Overview of Wikontic: an ontology-guided pipeline that constructs a Wikidata-aligned KG from text」
#Wikidata #維基資料 #維基數據
#Wikontic
#鏈結資料 #Linkopendata
#AI #人工智慧 #語言模型 #LLM -
Wikidata 如何作為大型語言模型學習「隱性知識」的關鍵支柱?
在【Explicit vs. Implicit Biographies: Evaluating and Adapting LLM Information Extraction on Wikidata-Derived Texts】一文中,研究者從 Wikidata 擷取了一萬位人物的資料,並以此生成兩種版本的傳記敘述:一種是明確陳述的事實,另一種則是語意含蓄、需經推論才能理解的敘述。這些敘述成為語言模型的訓練素材,測試其是否能準確抽取人物資訊,如職業、生日、國籍等。
結果發現若模型僅接觸明示語句,面對隱含語意時準確率驟降;但若同時訓練明示與隱含版本,模型在理解語境與推論上表現顯著提升。這不只是技術上的進步,更是語言與知識交織的證明:Wikidata 所蘊含的結構化知識,能夠轉化為語言模型理解人類敘事的橋梁。
對臺灣的文化工作者與開源社群而言,這項研究提醒我們:當地知識的整理與結構化,不只是保存,更是賦能。每一筆在 Wikidata 上編輯的條目,都可能成為未來 AI 理解世界的基石。
Wikidata Taiwan 除了月聚會外,每年的 Open Data Day Taiwan、COSCUP 等活動都會舉辦基礎教學課程,也歡迎全臺灣各社群聯繫我們規劃客製化的 Wikidata 教學課程喔!
原文與資料集皆已開源,完整原文可參見:https://arxiv.org/html/2509.14943v1
附圖為文中:Figure 1: Dataset generation and Experiment setup
#Wikidata #維基資料 #維基數據
#鏈結資料 #Linkopendata
#AI #人工智慧 #語言模型 #LLM -
多家歐洲研究機構啟動OpenEuroLLM專案,獲歐盟資助推動AI透明度與多語言支援 | iThome
Link
📌 Summary: 歐盟推動的OpenEuroLLM專案,致力於開發新一代開源大型語言模型,增強歐洲在人工智慧領域的競爭力,並確保技術透明度與法遵。專案特別強調多語言能力,涵蓋歐盟官方語言及其他重要語種,目的是降低當地產業導入人工智慧的門檻。整合多方資源與技術,OpenEuroLLM將提供開源模型供微調與擴充,並遵循歐盟隱私原則,支援專業領域應用。
🎯 Key Points:
- OpenEuroLLM專案由捷克查理大學與芬蘭AMD Silo AI等單位主導,獲歐盟Digital Europe Programme資助。
- 專案強調完整的資料透明度,遵循歐盟隱私與安全標準,並促進社羣參與。
- 專注於多語言支持,不僅包括官方語言,還涵蓋其他區域性重要語言。
- 提供開源訓練與測試程式碼,並設置安全評估及使用者隱私保護機制。
- 將資源整合於超級運算及自然語言處理領域,支援高品質多語言模型開發。
🔖 Keywords: #人工智慧 #開源 #多語言 #歐盟 #語言模型