哈佛推出數據集百萬冊書供訓練AI

2024-12-14 05:58:00

哈佛大學推出數據集，包含近百萬冊公共領域書籍，供訓練AI模型之用。美聯社資料圖片

哈佛大學12日宣布推出一個數據集，其中包含近百萬本公共領域的書籍，可用於訓練AI模型。

據Gizmodo報道，新建立的Institutional Data Initiative獲得微軟和OpenAI的資助，該計劃下數據包含Google Books掃描的已經超過版權保護期限的書籍。

Wired報道，這個資料集包含各式各樣的書籍，「從莎士比亞、狄更斯和但丁的經典作品，到晦澀的捷克數學教科書和威爾士袖珍字典都在其中」。一般而言，版權保護的期限為作者有生之年加上70年。

像ChatGPT之類的基礎語言模型需要大量高品質的文字來訓練。一般而言，模型攝取的資訊越多，在模仿人類和提供知識方面的表現就越好。但對於數據的渴求已造成問題，至少在不竊取資料的情況下，OpenAI等公司在尋找大量新資訊上已經碰壁。

《華爾街日報》和《紐約時報》等出版商已起訴OpenAI和Perplexity未經許可就擷取其數據資料。AI公司的支持者提出各種論點來辯護。有時會說，人類本身就會根據研究和綜合其他來源的資料來創造新作品，AI也不例外。如果新的創作於原作有實質上的差異，混剪在法律上被視為合理使用。但這並沒有考慮到人類無法像電腦一樣，以最快的速度攝取數十億的文字，所以這種比較並不公平。

還有論點認為任何在開放網站上的內容基本上都是公平的遊戲，聊天機器人是透過提示來尋求獲得有版權的內容。像Perplexity之類的聊天機器人基本上就如同網頁瀏覽器。這些爭論還要等一段時間才會在法庭上見分曉。

OpenAI已經與一些內容供應商達成協議。Perplexity也與出版商推出了廣告支持的合作夥伴計劃，但顯然是勉強這樣做的。

100萬本書並不足以滿足任何AI公司的訓練需求，尤其是考慮到這些書不會包含現代資訊，例如Z世代使用的俚語。但Institutional Data Initiative的數據集至少能為AI公司提供一些協助，讓他們在訓練初始基礎模型時，不會陷入任何法律麻煩。本報訊

哈佛推出數據集百萬冊書供訓練AI

最新⽂章

科技-三藩市版

ChatGPT會聽會說還看得見

微軟新AI模型Phi-4 精於解決數學問題

Adobe推新AI工具消除玻璃反光鬼影

蘋果公佈年度最佳程式遊戲名單

谷歌Android XR平台支援智能眼罩眼鏡

iPhone與視窗電腦共享檔案

符合減排理念風帆貨輪復興

谷歌發布AI模型第二代Gemini 2.0

瀏覽器導航代理人Project Mariner曝光

蘋果更新操作系統增加更多AI功能

哈佛推出數據集 百萬冊書供訓練AI

最新⽂章

科技-三藩市版

哈佛推出數據集百萬冊書供訓練AI