圖書館藏書 成訓練AI數據庫

圖書館館藏將成為訓練AI的數據寶庫。美聯社

哈佛大學「機構數據倡議計劃」主任萊珀特在圖書館留影。美聯社

美聯社麻省劍橋電

網路上一切言論都只是教授人工智能(AI)人性知識的開端,現在科技公司開始挖掘一個更古老的知識寶庫,那就是圖書館的藏書。

哈佛大學12日向AI研究員釋出一批近100萬份的藏書,部份書籍可追溯至15世紀,涉及254種語言。這些AI研究員很快也能接觸全美最大之一的波士頓公共圖書館的大量舊報紙和政府文件藏品。

當前科技公司正因未經同意盜用作品訓練AI聊天機器人,而與在生的小說家、視覺藝術家和其他藝術創作者展開司法訴訟戰,能夠打開擁有數百年歷史的古籍書庫,可謂一個數據寶藏。

微軟公司副法律顧問戴維斯(Burton Davis)說︰「從公共領域資料開始是一個謹慎決定,因為目前與仍有版權的內容相比,那些公共領域資料的爭議比較少。」

戴維斯稱,圖書館還保存了「大量有趣文化、歷史和語言數據」,這些資料在AI聊天機器人所學習的數十年網上評論中缺失。對於數據耗盡的憂慮,也促使AI開發人員轉向使用機器人生成且品質較低的「人工數據」。

在微軟和AI公司OpenAI的「無限捐贈」支持下,哈佛大學的「機構數據倡議計劃」,正與全球各圖書館和博物館合作,將其歷史藏品能夠供AI培訓,同時裨益其服務的社區。

哈佛最新釋出的「機構書籍1.0」(Institutional Books 1.0)數據集,包括3億9400萬多份已掃描文件。其中最早的作品之一來自15世紀,一名韓裔畫家對花木栽培心得的親筆信。館藏最集中的作品來自19世紀,涉及文學、哲學、法學和農業等主題,歷經一代又一代的圖書館管理員悉心保存和整理。

對於嘗試提升AI準確度和可靠度的AI開發人員來說,這是一個天大的福音。「機構數據倡議計劃」主任萊珀特(Greg Leppert)指出,很多用於訓練AI的數據並非來自原始來源,且這些館藏「可追溯到實際收藏這些書籍的機構所掃描的紙本」。

哈佛圖書館早於2006年開始為其藏品電子化,協助谷歌建立一個2,000多萬本書籍的可搜尋網上圖書館。

科技-三藩市版