維基百科一直努力應對人工智能(AI)爬蟲程式對其伺服器的影響,這些程式會從百科全書中抓取文字和多媒體,用來訓練生成式AI模型,在某些情況下導致維基百科的成本增加,以及人類用戶的載入時間變慢。
據科技網站Engadget報道,也許是為了阻止這些AI機器人襲擊公共維基百科網站並佔用過多頻寬,管理維基百科數據的維基媒體基金會(WF),決定向AI開發人員提供讓他們自由使用的數據集。
基金會與數據科學平台Kaggle合作,推出一個結構化數據集的測試版,提供英語和法語兩種語言版本。據擁有Kaggle的谷歌稱,該數據集已對機器學習進行格式化,使其更適合用於訓練、開發和數據科學。
維基媒體基金會旗下的維基媒體企業指出,該數據集包括「摘要、簡短描述、資訊框型式的鍵值資料、圖像連結和清晰分段的文章部分」,但沒有任何參考資料或其他「非散文文字元素」,例如影片片段。
維基媒體企業表示,由於數據集內容全部來自維基百科,因此在授權上屬於Creative Commons、公共領域等的自由授權範疇。本報訊