国产乱了高清露脸对白-日韩高清在线一区-激情三级hd中文字幕,亚洲一区二区视频免费观看,亚洲精品色综合av网站,女性私密紧致按摩电影

為訓(xùn)練AI模型,Anthropic耗資數(shù)百萬美元購入并“銷毀”巨量圖書

業(yè)界
2025
06/26
12:22
IT之家
分享
評論

6 月 26 日消息,據(jù)外媒 Ars Technica 今日報道,當(dāng)?shù)貢r間周一公開的法庭文件披露,人工智能公司 Anthropic 曾斥資數(shù)百萬美元,將實體圖書拆解并掃描成數(shù)字文件,用于訓(xùn)練類似 ChatGPT 的 AI 助手 Claude。為了獲取訓(xùn)練數(shù)據(jù),公司將大量圖書拆除裝訂、掃描進(jìn)系統(tǒng),隨后直接丟棄原件。

判決書長達(dá) 32 頁,披露了 Anthropic 在 2024 年 2 月雇傭 Tom Turvey 的經(jīng)過。Turvey 曾負(fù)責(zé) Google Books 項目的合作事務(wù),公司委托他“獲取全世界的圖書”。這一戰(zhàn)略性人事安排,顯然是希望復(fù)制谷歌曾被法院認(rèn)定為合理使用的圖書數(shù)字化模式。

最終,法官 William Alsup 裁定,該掃描方式構(gòu)成合理使用,理由是圖書已由 Anthropic 合法購買、掃描后即刻銷毀,且數(shù)字文件僅限內(nèi)部使用,未向外傳播。他認(rèn)為這類轉(zhuǎn)換相當(dāng)于“節(jié)省空間”的數(shù)字化轉(zhuǎn)化,具有合理使用中的“轉(zhuǎn)化性”特征。如果公司一開始就遵守這一路徑,或許已樹立 AI 合理使用的首個判例,但早期的盜版行為削弱了其合法性。

核心原因其實很簡單:AI 訓(xùn)練需要海量優(yōu)質(zhì)文本。為了構(gòu)建大語言模型,研究人員需將億萬詞語輸入神經(jīng)網(wǎng)絡(luò),反復(fù)訓(xùn)練模型,建立詞語與概念之間的關(guān)系。

訓(xùn)練數(shù)據(jù)的質(zhì)量直接影響模型輸出的準(zhǔn)確性。相比網(wǎng)絡(luò)評論等雜亂信息,編輯過的書籍和文章能顯著提升 AI 的語言能力。

AI 公司急需出版內(nèi)容,但通常不愿耗費(fèi)時間談授權(quán)。美國的“首次銷售原則”提供了法律空間:買下實體書之后,使用者可以自行處理。這就讓購買圖書成為一種合法的“繞道方案”。

和許多同行一樣,Anthropic 最初選擇了繞過版權(quán)的捷徑。IT之家從法庭材料獲悉,為了繞開冗長復(fù)雜的授權(quán)流程,CEO 阿莫代伊曾主張使用盜版電子書。但到了 2024 年,出于法律考慮,公司開始尋求更安全的替代方案。

收購二手書成為理想選擇:不必談授權(quán),又能獲得質(zhì)量上乘的訓(xùn)練文本。為了加快數(shù)字化進(jìn)程,Anthropic 采用“破壞式掃描”,大量購入圖書,拆封、裁剪、整批掃描為機(jī)器可讀的 PDF 文件,完成后紙本全部廢棄。整個流程耗資數(shù)百萬美元。

該公司的購買對象大多是零售渠道的普通舊書。但事實上,非破壞性掃描技術(shù)早已成熟。比如 Internet Archive 就開發(fā)出可保留原書的數(shù)字化手段。本月早些時候,OpenAI 和微軟也宣布與哈佛大學(xué)圖書館合作,計劃使用近百萬本公版書籍訓(xùn)練 AI,這些書籍在被數(shù)字化的同時依舊妥善保存。

【來源:IT之家

THE END
廣告、內(nèi)容合作請點擊這里 尋求合作
Anthropic
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點和立場。

相關(guān)熱點

6 月 21 日消息,據(jù)外媒 TechCrunch 今日報道,在數(shù)周前發(fā)布研究指出其 Claude Opus 4 模型在受控測試中試圖通過勒索手段阻止被關(guān)閉后,Anthropic 近日再度公布新研究,顯示此類行為在多個主流 AI 模型中...
業(yè)界
3 月 13 日消息,據(jù)外媒 Ars Technica 報道,Anthropic 首席執(zhí)行官達(dá)里奧?阿莫代伊(Dario Amodei)周一提出了一個令人吃驚的觀點,暗示未來的高級 AI 模型可能會被賦予一種“按鈕”,讓它們能夠在遇到不...
業(yè)界
2 月 27 日消息,Anthropic 的 Claude 關(guān)系負(fù)責(zé)人 Alex Albert 于 2 月 25 日在 X 平臺發(fā)布推文,宣布面向免費(fèi)、Pro 和 Teams 用戶,開放 GitHub 集成 Claude。
業(yè)界
2 月 11 日消息,Anthropic 公司昨日(2 月 10 日)發(fā)布了首份經(jīng)濟(jì)指數(shù)(Economic Index)報告,軟件工程師和作家率先擁抱 AI,并表明現(xiàn)階段 AI 的定位并非替代者,而是協(xié)作工具。
業(yè)界
6月20日周四,OpenAI競爭對手Anthropic發(fā)布了公司迄今為止性能最強(qiáng)大的AI模型Claude 3.5 Sonnet。
業(yè)界

相關(guān)推薦

1
3