哈佛大學12日宣布推出一個數據集,其中包含近百萬本公共領域的書籍,可用於訓練AI模型。
據Gizmodo報道,新建立的Institutional Data Initiative獲得微軟和OpenAI的資助,該計劃下數據包含Google Books掃描的已經超過版權保護期限的書籍。
Wired報道,這個資料集包含各式各樣的書籍,「從莎士比亞、狄更斯和但丁的經典作品,到晦澀的捷克數學教科書和威爾士袖珍字典都在其中」。一般而言,版權保護的期限為作者有生之年加上70年。
像ChatGPT之類的基礎語言模型需要大量高品質的文字來訓練。一般而言,模型攝取的資訊越多,在模仿人類和提供知識方面的表現就越好。但對於數據的渴求已造成問題,至少在不竊取資料的情況下,OpenAI等公司在尋找大量新資訊上已經碰壁。
《華爾街日報》和《紐約時報》等出版商已起訴OpenAI和Perplexity未經許可就擷取其數據資料。AI公司的支持者提出各種論點來辯護。有時會說,人類本身就會根據研究和綜合其他來源的資料來創造新作品,AI也不例外。如果新的創作於原作有實質上的差異,混剪在法律上被視為合理使用。但這並沒有考慮到人類無法像電腦一樣,以最快的速度攝取數十億的文字,所以這種比較並不公平。
還有論點認為任何在開放網站上的內容基本上都是公平的遊戲,聊天機器人是透過提示來尋求獲得有版權的內容。像Perplexity之類的聊天機器人基本上就如同網頁瀏覽器。這些爭論還要等一段時間才會在法庭上見分曉。
OpenAI已經與一些內容供應商達成協議。Perplexity也與出版商推出了廣告支持的合作夥伴計劃,但顯然是勉強這樣做的。
100萬本書並不足以滿足任何AI公司的訓練需求,尤其是考慮到這些書不會包含現代資訊,例如Z世代使用的俚語。但Institutional Data Initiative的數據集至少能為AI公司提供一些協助,讓他們在訓練初始基礎模型時,不會陷入任何法律麻煩。本報訊