home.social

#linkopendata — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #linkopendata, aggregated by home.social.

  1. Wikidata 收錄的項目將近 1.2 億,如此龐大的資料數量不用在大型語言模型真是太可惜了!

    在【Wikontic: Constructing Wikidata-Aligned, Ontology-Aware
    Knowledge Graphs with Large Language Models】一文中,作者選擇了 Wikidata 作為基礎,能將大型語言模型抽取的知識,能夠化為一個結構嚴謹的知識圖譜。

    完整論文可參閱:arxiv.org/pdf/2512.00590

    附圖引用論文中「Figure 1: Overview of Wikontic: an ontology-guided pipeline that constructs a Wikidata-aligned KG from text」

    #Wikidata #維基資料 #維基數據
    #Wikontic
    #鏈結資料 #Linkopendata
    #AI #人工智慧 #語言模型 #LLM

  2. Wikidata 收錄的項目將近 1.2 億,如此龐大的資料數量不用在大型語言模型真是太可惜了!

    在【Wikontic: Constructing Wikidata-Aligned, Ontology-Aware
    Knowledge Graphs with Large Language Models】一文中,作者選擇了 Wikidata 作為基礎,能將大型語言模型抽取的知識,能夠化為一個結構嚴謹的知識圖譜。

    Wikidata 涵蓋了從日常常識到專業領域近 1.2 億個實體,並提供了清晰的本體規則:每一個屬性都有主語與賓語的型別限制,並且透過「instance of (P31) 」與「subclass of (P279)」建立了完整的階層結構。這些規則,使得抽取出來的三元組能夠被檢查、被修正,最後成為一個符合邏輯的知識網絡。

    在論文提出的系統 Wikontic 中,文本首先被送入模型,抽取出候選的三元組。這些三元組隨後會經過一連串的檢查:先比對 Wikidata 的本體約束,刪除或修正不合法的關係;再透過 Wikidata 的標籤與別名,將不同的表述方式對齊到標準的實體;最後,重複的資訊會被合併,並保留必要的限定詞,例如時間或地點。經過這些步驟,原本散亂的文字,就被轉化為一個結構化的知識圖譜。

    附圖呈現 Wikontic 的工作流程:文本進入系統,經過抽取、檢查、正規化與去重,最後匯聚成一個與 Wikidata 本體一致的知識圖譜。
    透過 Wikontic 的設計,作者證明了 Wikidata 不僅是輔助工具,而是整個流程的核心。它讓抽取的知識具備一致性與可靠性,甚至能在多跳問答任務中取代原始文本,展現出結構化知識的力量。

    完整論文可參閱:arxiv.org/pdf/2512.00590

    附圖引用論文中「Figure 1: Overview of Wikontic: an ontology-guided pipeline that constructs a Wikidata-aligned KG from text」

    #Wikidata #維基資料 #維基數據
    #Wikontic
    #鏈結資料 #Linkopendata
    #AI #人工智慧 #語言模型 #LLM

  3. Wikidata 如何作為大型語言模型學習「隱性知識」的關鍵支柱?

    在【Explicit vs. Implicit Biographies: Evaluating and Adapting LLM Information Extraction on Wikidata-Derived Texts】一文中,研究者從 Wikidata 擷取了一萬位人物的資料,並以此生成兩種版本的傳記敘述:一種是明確陳述的事實,另一種則是語意含蓄、需經推論才能理解的敘述。這些敘述成為語言模型的訓練素材,測試其是否能準確抽取人物資訊,如職業、生日、國籍等。

    結果發現若模型僅接觸明示語句,面對隱含語意時準確率驟降;但若同時訓練明示與隱含版本,模型在理解語境與推論上表現顯著提升。這不只是技術上的進步,更是語言與知識交織的證明:Wikidata 所蘊含的結構化知識,能夠轉化為語言模型理解人類敘事的橋梁。

    對臺灣的文化工作者與開源社群而言,這項研究提醒我們:當地知識的整理與結構化,不只是保存,更是賦能。每一筆在 Wikidata 上編輯的條目,都可能成為未來 AI 理解世界的基石。

    Wikidata Taiwan 除了月聚會外,每年的 Open Data Day Taiwan、COSCUP 等活動都會舉辦基礎教學課程,也歡迎全臺灣各社群聯繫我們規劃客製化的 Wikidata 教學課程喔!

    原文與資料集皆已開源,完整原文可參見:arxiv.org/html/2509.14943v1

    附圖為文中:Figure 1: Dataset generation and Experiment setup

    #Wikidata #維基資料 #維基數據
    #鏈結資料 #Linkopendata
    #AI #人工智慧 #語言模型 #LLM

  4. 法律與科技學者 Paul Meincke 在〈Wikidata and the Epistemic Politics of Linked Data〉一文中,探討 Wikidata 在全球知識治理中的角色,尤其是它如何影響人工智慧與自動化決策系統的知識基礎。

    如今,數位時代下,資料不僅僅只是資訊,更是權力的載體。Paul Meincke 在文中深入剖析 Wikidata 如何在全球知識架構中扮演關鍵角色。Wikidata 不僅是維基百科 (Wikipedia)的資料支援系統,更是眾多人工智慧與自動化決策系統的知識來源。

    作者指出,Wikidata 的資料結構採用 RDF 與 SPARQL 等語言,使其成為「鏈結資料」(Linked Data)生態系的一部分。這種結構化資料不僅便於機器理解,也讓知識得以跨平台流通。然而,這種「鏈結性」並非中立,它隱含著一套知識政治:哪些資料被納入?誰決定分類方式?哪些語言與文化被優先呈現?

    Wikidata 的開放性與社群治理模式,促進了民主參與,但也面臨挑戰。例如,資料的標準化可能壓縮在地知識的多樣性;而在 AI 系統中引用 Wikidata,可能將其視為「客觀事實」,忽略了資料背後的編輯選擇與文化偏見。

    作者呼籲,若我們希望建立更公平的數位知識架構,必須正視 Wikidata 等平台的「知識政治性」。這不只是技術問題,更是倫理與社會議題。唯有透過批判性參與與多元視角的納入,才能讓 Wikidata 真正成為保存全人類知識的知識庫,而非少數權力的延伸。

    完整論文可參閱:papers.ssrn.com/sol3/papers.cf

    Wikidata Taiwan 持續致力在 Wikidata 中呈現臺灣的多元觀點,包含但不限於:臺灣各地的在地觀點以及原住民社群的多元/多語內容等等,若你也有興趣共同參與資料的編纂與整理,歡迎持續關注 Wikidata Taiwan 與參與我們的活動。

    附圖截圖自文中 Figure 3. Semantic network visualization of Wikidata’s top-level ontology.

    #Wikidata #維基數據 #維基資料
    #Linkopendata #Linkeddata #LOD
    #鏈結資料 #鏈結開放資料
    #AI #人工智慧 #資料治理