(https://figshare.com/articles/dataset/Biowikinet_A_Multilingual_Network_Dataset_Revealing_Biodiversity_Knowledge_Gaps/29431577/2)
(https://github.com/uribo/biowikinet)
BioWikiNet是一個多語言資料集,它將維基百科中關於生物分類單元的文章與GBIF主幹分類系統連結起來,從而實現對生物多樣性知識表示的跨語言分析。資料集基於2025年1月的維基百科快照,涵蓋11個主要語言版本(阿拉伯語、中文、英語、法語、德語、印地語、印尼語、日語、葡萄牙語、俄語和西班牙語),包含1,266,215篇文章,連結到751,843個分類實體。
數據集包含:
一個核心元資料檔案(`biowikinet_core.csv`),包含文章層級的指標:頁面瀏覽量(2024)、編輯歷史、連結統計資料以及衍生指標,包括 SCI(物種連通性指數)、核心指數和過度關注度。
一個結構化的 JSON 文件,其中包含文章節點(`nodes.json`),每個節點都標註了其 Wikidata 實體 ID、分類等級、GBIF ID、語言和關鍵可見性指標。
一個嵌套的 JSON 文件,包含 6,955,289 個分類學超連結-指向其他生物分類單元的連結(`edges.json`),結構為鄰接清單。
留言
張貼留言