#語言模型 — Public Fediverse posts on home.social

Wikidata Taiwan 臺灣維基數據社群 @[email protected] · 2026-01-09 · 15:45 UTC

Wikidata 收錄的項目將近 1.2 億，如此龐大的資料數量不用在大型語言模型真是太可惜了！

在【Wikontic: Constructing Wikidata-Aligned, Ontology-Aware
Knowledge Graphs with Large Language Models】一文中，作者選擇了 Wikidata 作為基礎，能將大型語言模型抽取的知識，能夠化為一個結構嚴謹的知識圖譜。

完整論文可參閱：https://arxiv.org/pdf/2512.00590

附圖引用論文中「Figure 1: Overview of Wikontic: an ontology-guided pipeline that constructs a Wikidata-aligned KG from text」

#Wikidata #維基資料 #維基數據
 #Wikontic
#鏈結資料 #Linkopendata
#AI #人工智慧 #語言模型 #LLM

#wikidata #維基資料 #維基數據 #wikontic #鏈結資料 #linkopendata

Wikidata Taiwan 臺灣維基數據社群 @[email protected] · 2025-12-10 · 03:07 UTC

Wikidata 收錄的項目將近 1.2 億，如此龐大的資料數量不用在大型語言模型真是太可惜了！

在【Wikontic: Constructing Wikidata-Aligned, Ontology-Aware
Knowledge Graphs with Large Language Models】一文中，作者選擇了 Wikidata 作為基礎，能將大型語言模型抽取的知識，能夠化為一個結構嚴謹的知識圖譜。

Wikidata 涵蓋了從日常常識到專業領域近 1.2 億個實體，並提供了清晰的本體規則：每一個屬性都有主語與賓語的型別限制，並且透過「instance of (P31) 」與「subclass of (P279)」建立了完整的階層結構。這些規則，使得抽取出來的三元組能夠被檢查、被修正，最後成為一個符合邏輯的知識網絡。

在論文提出的系統 Wikontic 中，文本首先被送入模型，抽取出候選的三元組。這些三元組隨後會經過一連串的檢查：先比對 Wikidata 的本體約束，刪除或修正不合法的關係；再透過 Wikidata 的標籤與別名，將不同的表述方式對齊到標準的實體；最後，重複的資訊會被合併，並保留必要的限定詞，例如時間或地點。經過這些步驟，原本散亂的文字，就被轉化為一個結構化的知識圖譜。

附圖呈現 Wikontic 的工作流程：文本進入系統，經過抽取、檢查、正規化與去重，最後匯聚成一個與 Wikidata 本體一致的知識圖譜。
透過 Wikontic 的設計，作者證明了 Wikidata 不僅是輔助工具，而是整個流程的核心。它讓抽取的知識具備一致性與可靠性，甚至能在多跳問答任務中取代原始文本，展現出結構化知識的力量。

完整論文可參閱：https://arxiv.org/pdf/2512.00590

附圖引用論文中「Figure 1: Overview of Wikontic: an ontology-guided pipeline that constructs a Wikidata-aligned KG from text」

#Wikidata #維基資料 #維基數據
 #Wikontic
#鏈結資料 #Linkopendata
#AI #人工智慧 #語言模型 #LLM

#llm #語言模型 #人工智慧 #ai #linkopendata #鏈結資料

Wikidata Taiwan 臺灣維基數據社群 @[email protected] · 2025-09-22 · 03:10 UTC

Wikidata 如何作為大型語言模型學習「隱性知識」的關鍵支柱？

在【Explicit vs. Implicit Biographies: Evaluating and Adapting LLM Information Extraction on Wikidata-Derived Texts】一文中，研究者從 Wikidata 擷取了一萬位人物的資料，並以此生成兩種版本的傳記敘述：一種是明確陳述的事實，另一種則是語意含蓄、需經推論才能理解的敘述。這些敘述成為語言模型的訓練素材，測試其是否能準確抽取人物資訊，如職業、生日、國籍等。

結果發現若模型僅接觸明示語句，面對隱含語意時準確率驟降；但若同時訓練明示與隱含版本，模型在理解語境與推論上表現顯著提升。這不只是技術上的進步，更是語言與知識交織的證明：Wikidata 所蘊含的結構化知識，能夠轉化為語言模型理解人類敘事的橋梁。

對臺灣的文化工作者與開源社群而言，這項研究提醒我們：當地知識的整理與結構化，不只是保存，更是賦能。每一筆在 Wikidata 上編輯的條目，都可能成為未來 AI 理解世界的基石。

Wikidata Taiwan 除了月聚會外，每年的 Open Data Day Taiwan、COSCUP 等活動都會舉辦基礎教學課程，也歡迎全臺灣各社群聯繫我們規劃客製化的 Wikidata 教學課程喔！

原文與資料集皆已開源，完整原文可參見：https://arxiv.org/html/2509.14943v1

附圖為文中：Figure 1: Dataset generation and Experiment setup

#Wikidata #維基資料 #維基數據
 #鏈結資料 #Linkopendata
#AI #人工智慧 #語言模型 #LLM

#llm #語言模型 #人工智慧 #ai #linkopendata #鏈結資料

卡拉今天看了什麼 @[email protected] · 2025-02-05 · 02:03 UTC

多家歐洲研究機構啟動OpenEuroLLM專案，獲歐盟資助推動AI透明度與多語言支援 | iThome

Link

📌 Summary: 歐盟推動的OpenEuroLLM專案，致力於開發新一代開源大型語言模型，增強歐洲在人工智慧領域的競爭力，並確保技術透明度與法遵。專案特別強調多語言能力，涵蓋歐盟官方語言及其他重要語種，目的是降低當地產業導入人工智慧的門檻。整合多方資源與技術，OpenEuroLLM將提供開源模型供微調與擴充，並遵循歐盟隱私原則，支援專業領域應用。

🎯 Key Points:
- OpenEuroLLM專案由捷克查理大學與芬蘭AMD Silo AI等單位主導，獲歐盟Digital Europe Programme資助。
- 專案強調完整的資料透明度，遵循歐盟隱私與安全標準，並促進社羣參與。
- 專注於多語言支持，不僅包括官方語言，還涵蓋其他區域性重要語言。
- 提供開源訓練與測試程式碼，並設置安全評估及使用者隱私保護機制。
- 將資源整合於超級運算及自然語言處理領域，支援高品質多語言模型開發。

🔖 Keywords: #人工智慧 #開源 #多語言 #歐盟 #語言模型

#人工智慧 #開源 #多語言 #歐盟 #語言模型