Biowikinet:一個揭示生物多樣性知識缺口的多語言網路資料集

 (https://figshare.com/articles/dataset/Biowikinet_A_Multilingual_Network_Dataset_Revealing_Biodiversity_Knowledge_Gaps/29431577/2)

(https://github.com/uribo/biowikinet)

 BioWikiNet是一個多語言資料集,它將維基百科中關於生物分類單元的文章與GBIF主幹分類系統連結起來,從而實現對生物多樣性知識表示的跨語言分析。資料集基於20251月的維基百科快照,涵蓋11個主要語言版本(阿拉伯語、中文、英語、法語、德語、印地語、印尼語、日語、葡萄牙語、俄語和西班牙語),包含1,266,215篇文章,連結到751,843個分類實體。

數據集包​​含:

一個核心元資料檔案(`biowikinet_core.csv`),包含文章層級的指標:頁面瀏覽量(2024)、編輯歷史、連結統計資料以及衍生指標,包括 SCI(物種連通性指數)、核心指數和過度關注度。

一個結構化的 JSON 文件,其中包含文章節點(`nodes.json`),每個節點都標註了其 Wikidata 實體 ID、分類等級、GBIF ID、語言和關鍵可見性指標。

一個嵌套的 JSON 文件,包含 6,955,289 個分類學超連結-指向其他生物分類單元的連結(`edges.json`),結構為鄰接清單。



留言