繁榮背后存隱憂，美AI巨頭被控秘密“侵吞”數(shù)據(jù)|今日視點

2024-04-16 17:16:27 來源: 科技日報點擊數(shù)：

圖片來源：視覺中國

科技日報記者?張佳欣

人工智能（AI）迅速發(fā)展離不開對模型的訓練。然而，高質(zhì)量數(shù)據(jù)短缺以及部分領域封閉式的數(shù)據(jù)生態(tài)似乎成為AI發(fā)展的掣肘。

據(jù)多家外媒報道，OpenAI、谷歌和Meta等公司正尋求在線信息來訓練最新的AI系統(tǒng)。但他們無視既定政策，蓄意改變規(guī)則，并試圖規(guī)避版權法。

收集數(shù)據(jù)“走捷徑”

英國《泰晤士報》近日刊文指出，科技巨頭一直在“走捷徑”為其AI系統(tǒng)收集訓練數(shù)據(jù)。OpenAI開發(fā)了一款名為Whisper的語音識別工具，可將YouTube視頻中的音頻文件轉錄為純文本文檔，從而創(chuàng)建一個口語對話數(shù)據(jù)源，幫助訓練其下一代基于文本的GPT-4算法。

美國《商業(yè)內(nèi)幕》網(wǎng)報道稱，YouTube在其官網(wǎng)明令禁止“獨立”于其之外的應用程序使用其視頻內(nèi)容。而OpenAI的數(shù)據(jù)并非意外收集的。

實際上，OpenAI員工知道這樣做會涉足法律灰色地帶。OpenAI總裁格雷格·布羅克曼甚至親自參與了所使用視頻的收集。但OpenAI依然認為這是合理的，最終獲得了超過100萬小時的轉錄視頻。

最大的謎團在于，OpenAI如何訪問足夠多的YouTube視頻來完成這項工作。

當OpenAI首席技術官米拉·穆拉蒂被問及該公司是否使用YouTube視頻來訓練Sora時，她表示并不確定。當再次被問及訓練數(shù)據(jù)的來源時，她表示不會透露細節(jié)。

《紐約時報》稱，與OpenAI一樣，谷歌也轉錄了YouTube視頻，為其AI模型收集文本，這可能侵犯了視頻創(chuàng)作者的版權。去年，谷歌還更改了其服務條款。此番動機意圖明顯，即允許AI對來自谷歌文檔中公開可用文檔的數(shù)據(jù)以及上傳到谷歌地圖的餐館評論等其他材料進行訓練。

AI面臨“數(shù)據(jù)瓶頸”

對于科技公司來說，龐大的數(shù)據(jù)“肥料”是生成式AI的核心養(yǎng)分，也是大模型發(fā)展的必爭之地。唯有足夠的數(shù)據(jù)才能指導技術即時生成與人類創(chuàng)作相似的文本、圖像、聲音和視頻，實現(xiàn)系統(tǒng)創(chuàng)新。

但隨著AI發(fā)展，現(xiàn)有互聯(lián)網(wǎng)信息量的不足、高質(zhì)量文本數(shù)據(jù)的匱乏以及科技巨頭優(yōu)質(zhì)數(shù)據(jù)的壟斷，都可能導致AI“養(yǎng)分不足”。即便谷歌和Meta擁有數(shù)十億用戶，每天都會產(chǎn)生搜索查詢和社交媒體帖子，但這些數(shù)據(jù)在很大程度上受到隱私法和自身政策的限制，無法讓AI利用這些內(nèi)容。

這些科技公司的處境似乎十分窘迫。據(jù)人工智能研究機構Epoch稱，科技公司最快將于2026年耗盡互聯(lián)網(wǎng)上的高質(zhì)量數(shù)據(jù)。這些公司使用數(shù)據(jù)的速度超過了產(chǎn)生數(shù)據(jù)的速度。

Meta同樣也遇到了訓練數(shù)據(jù)可用性限制。該公司打算采取一些措施，例如支付圖書許可費用，甚至直接收購一家大型出版商。Meta也曾作出以隱私為中心的變革，因此它使用消費者數(shù)據(jù)的方式顯然也受到了限制。

在人類數(shù)據(jù)告急的情況下，不少公司甚至試圖用AI“喂”AI。包括微軟、OpenAI在內(nèi)的公司正在把大模型生成的結果，也就是所謂的“合成數(shù)據(jù)”，“喂”給參數(shù)更小的模型。但有研究認為，合成數(shù)據(jù)最終將讓AI“自食其果”。

因版權被多方狀告

《紐約時報》去年起訴OpenAI和微軟，稱其在未經(jīng)許可的情況下使用受版權保護的新聞文章來訓練AI聊天機器人。OpenAI和微軟回應稱，這屬于“合理使用”，或者說是版權法允許的，因為他們?yōu)榱瞬煌哪康亩脑炝诉@些作品。

去年，超過1萬個貿(mào)易團體、作者、公司和其他人士向美國版權局提交了有關AI模型使用創(chuàng)意作品的意見。

生成式AI的迅速興起引發(fā)了一場全球性的高質(zhì)量數(shù)據(jù)競賽。然而，在這個新領域中，關于什么是合法的、道德的，沒有明確規(guī)定。

《商業(yè)內(nèi)幕》網(wǎng)稱，目前，谷歌、OpenAI和其他科技公司正在辯解，認為將受版權保護的內(nèi)容用于AI模型訓練是合法的，但監(jiān)管機構及法院尚未對此作出裁決。

美國電影制作人、前演員及作家賈斯汀·貝特曼告訴版權局，AI模型在未經(jīng)許可或付費的情況下獲取了其作品內(nèi)容。她稱，“這是美國最大的盜竊案?！?/p>

責任編輯：左常睿

国产999免费视频|亚洲欧美激情综合首页|动漫人妻h无码中文字幕|国产精品欧美日韩视频一区|美女精品人妻视频一区二区|中文亲近交尾bd在线播放|色五月丁香亚洲高清无码国产|久久一区国产男人操女人的视频

繁榮背后存隱憂，美AI巨頭被控秘密“侵吞”數(shù)據(jù)|今日視點

友情鏈接

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網(wǎng)頁

您可以進行以下操作:

1.將瀏覽器切換回極速模式

2.點擊下面圖標升級或更換您的瀏覽器

3.暫不升級，繼續(xù)瀏覽

国产999免费视频|亚洲欧美激情综合首页|动漫人妻h无码中文字幕|国产精品欧美日韩视频一区|美女精品人妻视频一区二区|中文亲近交尾bd在线播放|色五月丁香亚洲高清无码国产|久久一区国产男人操女人的视频

繁榮背后存隱憂，美AI巨頭被控秘密“侵吞”數(shù)據(jù)|今日視點

友情鏈接

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網(wǎng)頁

您可以進行以下操作:

1.將瀏覽器切換回極速模式

2.點擊下面圖標升級或更換您的瀏覽器

3.暫不升級，繼續(xù)瀏覽

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網(wǎng)頁

3.暫不升級，繼續(xù)瀏覽