維基百科提供數據集助開發者訓練AI模型

2025-04-19 05:55:00

維基百科一直努力應對人工智能（AI）爬蟲程式對其伺服器的影響，這些程式會從百科全書中抓取文字和多媒體，用來訓練生成式AI模型，在某些情況下導致維基百科的成本增加，以及人類用戶的載入時間變慢。

據科技網站Engadget報道，也許是為了阻止這些AI機器人襲擊公共維基百科網站並佔用過多頻寬，管理維基百科數據的維基媒體基金會（WF），決定向AI開發人員提供讓他們自由使用的數據集。

基金會與數據科學平台Kaggle合作，推出一個結構化數據集的測試版，提供英語和法語兩種語言版本。據擁有Kaggle的谷歌稱，該數據集已對機器學習進行格式化，使其更適合用於訓練、開發和數據科學。

維基媒體基金會旗下的維基媒體企業指出，該數據集包括「摘要、簡短描述、資訊框型式的鍵值資料、圖像連結和清晰分段的文章部分」，但沒有任何參考資料或其他「非散文文字元素」，例如影片片段。

維基媒體企業表示，由於數據集內容全部來自維基百科，因此在授權上屬於Creative Commons、公共領域等的自由授權範疇。本報訊

科技-三藩市版