#linkopendata — Public Fediverse posts on home.social

Wikidata Taiwan 臺灣維基數據社群 @[email protected] · 2026-01-09 · 15:45 UTC

Wikidata 收錄的項目將近 1.2 億，如此龐大的資料數量不用在大型語言模型真是太可惜了！

在【Wikontic: Constructing Wikidata-Aligned, Ontology-Aware
Knowledge Graphs with Large Language Models】一文中，作者選擇了 Wikidata 作為基礎，能將大型語言模型抽取的知識，能夠化為一個結構嚴謹的知識圖譜。

完整論文可參閱：https://arxiv.org/pdf/2512.00590

附圖引用論文中「Figure 1: Overview of Wikontic: an ontology-guided pipeline that constructs a Wikidata-aligned KG from text」

#Wikidata #維基資料 #維基數據
 #Wikontic
#鏈結資料 #Linkopendata
#AI #人工智慧 #語言模型 #LLM

#wikidata #維基資料 #維基數據 #wikontic #鏈結資料 #linkopendata

Wikidata Taiwan 臺灣維基數據社群 @[email protected] · 2025-12-10 · 03:07 UTC

Wikidata 收錄的項目將近 1.2 億，如此龐大的資料數量不用在大型語言模型真是太可惜了！

在【Wikontic: Constructing Wikidata-Aligned, Ontology-Aware
Knowledge Graphs with Large Language Models】一文中，作者選擇了 Wikidata 作為基礎，能將大型語言模型抽取的知識，能夠化為一個結構嚴謹的知識圖譜。

Wikidata 涵蓋了從日常常識到專業領域近 1.2 億個實體，並提供了清晰的本體規則：每一個屬性都有主語與賓語的型別限制，並且透過「instance of (P31) 」與「subclass of (P279)」建立了完整的階層結構。這些規則，使得抽取出來的三元組能夠被檢查、被修正，最後成為一個符合邏輯的知識網絡。

在論文提出的系統 Wikontic 中，文本首先被送入模型，抽取出候選的三元組。這些三元組隨後會經過一連串的檢查：先比對 Wikidata 的本體約束，刪除或修正不合法的關係；再透過 Wikidata 的標籤與別名，將不同的表述方式對齊到標準的實體；最後，重複的資訊會被合併，並保留必要的限定詞，例如時間或地點。經過這些步驟，原本散亂的文字，就被轉化為一個結構化的知識圖譜。

附圖呈現 Wikontic 的工作流程：文本進入系統，經過抽取、檢查、正規化與去重，最後匯聚成一個與 Wikidata 本體一致的知識圖譜。
透過 Wikontic 的設計，作者證明了 Wikidata 不僅是輔助工具，而是整個流程的核心。它讓抽取的知識具備一致性與可靠性，甚至能在多跳問答任務中取代原始文本，展現出結構化知識的力量。

完整論文可參閱：https://arxiv.org/pdf/2512.00590

附圖引用論文中「Figure 1: Overview of Wikontic: an ontology-guided pipeline that constructs a Wikidata-aligned KG from text」

#Wikidata #維基資料 #維基數據
 #Wikontic
#鏈結資料 #Linkopendata
#AI #人工智慧 #語言模型 #LLM

#llm #語言模型 #人工智慧 #ai #linkopendata #鏈結資料

Wikidata Taiwan 臺灣維基數據社群 @[email protected] · 2025-09-22 · 03:10 UTC

Wikidata 如何作為大型語言模型學習「隱性知識」的關鍵支柱？

在【Explicit vs. Implicit Biographies: Evaluating and Adapting LLM Information Extraction on Wikidata-Derived Texts】一文中，研究者從 Wikidata 擷取了一萬位人物的資料，並以此生成兩種版本的傳記敘述：一種是明確陳述的事實，另一種則是語意含蓄、需經推論才能理解的敘述。這些敘述成為語言模型的訓練素材，測試其是否能準確抽取人物資訊，如職業、生日、國籍等。

結果發現若模型僅接觸明示語句，面對隱含語意時準確率驟降；但若同時訓練明示與隱含版本，模型在理解語境與推論上表現顯著提升。這不只是技術上的進步，更是語言與知識交織的證明：Wikidata 所蘊含的結構化知識，能夠轉化為語言模型理解人類敘事的橋梁。

對臺灣的文化工作者與開源社群而言，這項研究提醒我們：當地知識的整理與結構化，不只是保存，更是賦能。每一筆在 Wikidata 上編輯的條目，都可能成為未來 AI 理解世界的基石。

Wikidata Taiwan 除了月聚會外，每年的 Open Data Day Taiwan、COSCUP 等活動都會舉辦基礎教學課程，也歡迎全臺灣各社群聯繫我們規劃客製化的 Wikidata 教學課程喔！

原文與資料集皆已開源，完整原文可參見：https://arxiv.org/html/2509.14943v1

附圖為文中：Figure 1: Dataset generation and Experiment setup

#Wikidata #維基資料 #維基數據
 #鏈結資料 #Linkopendata
#AI #人工智慧 #語言模型 #LLM

#llm #語言模型 #人工智慧 #ai #linkopendata #鏈結資料

Wikidata Taiwan 臺灣維基數據社群 @[email protected] · 2025-08-29 · 02:30 UTC

法律與科技學者 Paul Meincke 在〈Wikidata and the Epistemic Politics of Linked Data〉一文中，探討 Wikidata 在全球知識治理中的角色，尤其是它如何影響人工智慧與自動化決策系統的知識基礎。

如今，數位時代下，資料不僅僅只是資訊，更是權力的載體。Paul Meincke 在文中深入剖析 Wikidata 如何在全球知識架構中扮演關鍵角色。Wikidata 不僅是維基百科 (Wikipedia)的資料支援系統，更是眾多人工智慧與自動化決策系統的知識來源。

作者指出，Wikidata 的資料結構採用 RDF 與 SPARQL 等語言，使其成為「鏈結資料」（Linked Data）生態系的一部分。這種結構化資料不僅便於機器理解，也讓知識得以跨平台流通。然而，這種「鏈結性」並非中立，它隱含著一套知識政治：哪些資料被納入？誰決定分類方式？哪些語言與文化被優先呈現？

Wikidata 的開放性與社群治理模式，促進了民主參與，但也面臨挑戰。例如，資料的標準化可能壓縮在地知識的多樣性；而在 AI 系統中引用 Wikidata，可能將其視為「客觀事實」，忽略了資料背後的編輯選擇與文化偏見。

作者呼籲，若我們希望建立更公平的數位知識架構，必須正視 Wikidata 等平台的「知識政治性」。這不只是技術問題，更是倫理與社會議題。唯有透過批判性參與與多元視角的納入，才能讓 Wikidata 真正成為保存全人類知識的知識庫，而非少數權力的延伸。

完整論文可參閱：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5396411

Wikidata Taiwan 持續致力在 Wikidata 中呈現臺灣的多元觀點，包含但不限於：臺灣各地的在地觀點以及原住民社群的多元/多語內容等等，若你也有興趣共同參與資料的編纂與整理，歡迎持續關注 Wikidata Taiwan 與參與我們的活動。

附圖截圖自文中 Figure 3. Semantic network visualization of Wikidata’s top-level ontology.

#Wikidata #維基數據 #維基資料
 #Linkopendata #Linkeddata #LOD
#鏈結資料 #鏈結開放資料
 #AI #人工智慧 #資料治理

#資料治理 #人工智慧 #ai #鏈結開放資料 #鏈結資料 #lod

Wikidata Taiwan 臺灣維基數據社群 @[email protected] · 2025-08-12 · 02:36 UTC

透過 Wikibase 建立屬於圖書館的鏈結資料 Passage 專案的成果臺灣譯本
完整原文：https://hackmd.io/@wikidata-tw/oclc2019report

#Wikibase #OCLC #圖書館 #Library
#GLAM #LOD #Linkopendata

#linkopendata #lod #glam #library #圖書館 #oclc