深瞳工作室出品
科技日?qǐng)?bào)實(shí)習(xí)記者 吳葉凡 記者 付麗麗 策劃 劉恕 李坤
“太不像話了!學(xué)生用人工智能生成的期末論文糊弄我?!苯?,上海某高校教師在社交媒體上“吐槽”自己遇到的新難題——一些想偷懶的學(xué)生開(kāi)始用人工智能技術(shù)完成論文。
以ChatGPT為代表的生成式人工智能技術(shù)(AIGC)橫空出世,似乎為人們寫(xiě)論文提供了新幫手。從提供選題到文稿潤(rùn)色、從統(tǒng)計(jì)分析到圖表制作……其功能之強(qiáng)大,幾乎覆蓋了學(xué)術(shù)論文寫(xiě)作過(guò)程的方方面面。
面對(duì)ChatGPT等工具的潛在風(fēng)險(xiǎn),爭(zhēng)議隨之而來(lái)。不少人質(zhì)疑,人工智能到底能不能用于輔助學(xué)術(shù)論文寫(xiě)作。有人認(rèn)為,它只是提高科研效率的工具。有人則對(duì)此持審慎態(tài)度,認(rèn)為容易引發(fā)大規(guī)模的學(xué)術(shù)誠(chéng)信問(wèn)題。
人工智能技術(shù)在論文寫(xiě)作中的應(yīng)用程度如何?技術(shù)應(yīng)用的邊界在哪里?如何對(duì)這一技術(shù)進(jìn)行有效治理?科技日?qǐng)?bào)記者對(duì)此進(jìn)行了深入采訪。
視覺(jué)中國(guó)供圖
AI生成的文本“非常水”
有多少人嘗試過(guò)用人工智能技術(shù)寫(xiě)論文?去年《自然》雜志對(duì)全球博士后的一項(xiàng)調(diào)查發(fā)現(xiàn),約有三分之一的受訪者使用人工智能聊天機(jī)器人來(lái)優(yōu)化文本、生成或編輯代碼、整理文獻(xiàn)。
當(dāng)記者嘗試在社交媒體上搜索“AI”“論文”“寫(xiě)作”等關(guān)鍵詞,五花八門(mén)的AI論文寫(xiě)作指導(dǎo)教程映入眼簾。其中大部分宣稱能夠教會(huì)用戶在幾分鐘內(nèi)通過(guò)幾個(gè)簡(jiǎn)單的步驟,生成一篇幾萬(wàn)字的“優(yōu)質(zhì)”論文。這些教程的瀏覽量最高已達(dá)數(shù)百萬(wàn)。
AI真的能生成一篇完整的“優(yōu)質(zhì)”論文嗎?記者按照教程開(kāi)始了嘗試:“請(qǐng)?zhí)岢雠c民族志紀(jì)錄片有關(guān)的論文選題。”幾乎無(wú)需等待,幾個(gè)看起來(lái)很“靠譜”的選題就出現(xiàn)在對(duì)話框里。
“請(qǐng)就某一選題生成寫(xiě)作大綱。”幾秒后,7個(gè)像模像樣的章節(jié)全部生成完畢?!罢?qǐng)就提綱中某項(xiàng)內(nèi)容,詳細(xì)描述2000字。”重復(fù)幾次操作后,一篇幾萬(wàn)字的“論文”很快就完成了。但記者瀏覽后發(fā)現(xiàn),其生成的段落中,存在大部分重復(fù)且言之無(wú)物的內(nèi)容。
除了說(shuō)“車(chē)轱轆”話,某985高校人工智能專業(yè)碩士研究生溫睿還發(fā)現(xiàn)了此類論文的行文特點(diǎn):“一般是先寫(xiě)一句話,然后進(jìn)行分條論述。當(dāng)老師看到這樣套路化的內(nèi)容就會(huì)猜測(cè),這類文章很大程度上是人工智能寫(xiě)的。”
文章開(kāi)頭那位教師的經(jīng)歷印證了溫睿的發(fā)現(xiàn)?!斑@樣的論文看似條理清晰、層次豐富,但實(shí)際上每個(gè)層面的內(nèi)容都很少,而且非常空洞。我馬上就懷疑是AI生成的?!痹摾蠋熣f(shuō)。
不少期刊編輯、審稿人也發(fā)現(xiàn)了同樣的問(wèn)題。
某人文社科期刊審稿人徐彬向記者透露,用AI寫(xiě)論文的關(guān)鍵在于提示詞。如果提示詞選用的不恰當(dāng),就極有可能得到一篇套路化的文章。他目前已經(jīng)收到過(guò)五六篇“一眼就能看出來(lái)”用AI寫(xiě)的稿子。
“這些文章的共同特點(diǎn)就是非常水。雖然它生成的語(yǔ)言連貫性不錯(cuò),但是缺乏深度,創(chuàng)新性也不強(qiáng)?!睂?duì)此,徐彬略顯無(wú)奈,“綜述類文章是使用AI的重災(zāi)區(qū),但目前期刊還缺乏相關(guān)的評(píng)價(jià)標(biāo)準(zhǔn)和處理機(jī)制。”
偽造數(shù)據(jù)集更具隱蔽性
在清華大學(xué)人工智能?chē)?guó)際治理研究院副院長(zhǎng)梁正看來(lái),論文核心評(píng)價(jià)標(biāo)準(zhǔn)包括作者發(fā)揮的創(chuàng)造性、對(duì)論文的貢獻(xiàn)程度。一篇大部分由AI生成且隱瞞使用情況的文章,既沒(méi)有作者智力的貢獻(xiàn),也不符合科研誠(chéng)信的要求,屬于學(xué)術(shù)造假。
AIGC造成的學(xué)術(shù)造假還發(fā)生在數(shù)據(jù)領(lǐng)域。記者在采訪過(guò)程中,多位業(yè)內(nèi)專家提到了偽造數(shù)據(jù)集問(wèn)題。相比直接的文本生成,這一方式更具有隱蔽性。
GPT-4的ADA功能是一種結(jié)合了計(jì)算機(jī)編程語(yǔ)言Python的模型,可以執(zhí)行統(tǒng)計(jì)分析和創(chuàng)建數(shù)據(jù)可視化。梁正向記者講述了一則真實(shí)的案例:國(guó)外某機(jī)構(gòu)研究人員先是要求GPT-4?ADA創(chuàng)建一個(gè)關(guān)于圓錐角膜患者的數(shù)據(jù)集,后又要求它編造臨床數(shù)據(jù),用以支持深板層角膜移植術(shù)比穿透性角膜移植術(shù)效果更好的結(jié)論。但真實(shí)的臨床數(shù)據(jù)證明,兩種手術(shù)效果并無(wú)明顯差別。
“針對(duì)某個(gè)問(wèn)題,提出方法來(lái)解決,并通過(guò)實(shí)驗(yàn)來(lái)證明方法的可行性——這是專業(yè)論文的常用模式。人工智能不能做實(shí)驗(yàn),哪怕它給的實(shí)驗(yàn)數(shù)據(jù)再理想,也都是虛假的?!睖仡UJ(rèn)為,虛假的數(shù)據(jù)背離了科學(xué)研究的真正意義。
除了數(shù)據(jù)處理,更多人使用AIGC來(lái)解釋概念。溫睿發(fā)現(xiàn)AIGC生成的概念簡(jiǎn)潔明了,查重率也非常低。但當(dāng)記者詢問(wèn)這些概念是否正確時(shí),溫睿顯得有些遲疑:“我也沒(méi)有把握,通常默認(rèn)它是對(duì)的?!?/p>
為了驗(yàn)證AIGC給出答案的準(zhǔn)確性,記者就一些新興概念提問(wèn),但它給出的答案往往和真正概念毫不沾邊。當(dāng)記者讓AI生成5篇某領(lǐng)域的重點(diǎn)參考文獻(xiàn),它又胡編亂造了5個(gè)不存在的作者和不存在的文獻(xiàn)。
在人工智能領(lǐng)域,描述AI“一本正經(jīng)地胡說(shuō)八道”的專業(yè)名詞是“AI幻覺(jué)”。哈爾濱工業(yè)大學(xué)(深圳)特聘校長(zhǎng)助理、教授張民解釋,AI幻覺(jué)是指AI會(huì)生成貌似合理連貫,但與輸入問(wèn)題意圖不一致、與現(xiàn)實(shí)或已知數(shù)據(jù)不符合或無(wú)法驗(yàn)證的內(nèi)容。這多是由于AI對(duì)知識(shí)的記憶不足、理解能力不夠、訓(xùn)練方式固有的弊端及模型本身技術(shù)的局限性所導(dǎo)致。
“如果不警惕AI幻覺(jué),很有可能損害科學(xué)研究的真實(shí)性和客觀性?!绷赫硎?,AI生成的錯(cuò)誤信息一旦被廣泛傳播,不僅會(huì)造成“學(xué)術(shù)垃圾”泛濫,還將影響學(xué)術(shù)生態(tài)的良性發(fā)展。
一場(chǎng)你追我逃的“貓鼠游戲”
一項(xiàng)新技術(shù)的出現(xiàn),對(duì)于社會(huì)的發(fā)展往往是把雙刃劍。雖然人工智能技術(shù)存在種種隱患,但其在圖文創(chuàng)作、數(shù)據(jù)處理等方面的強(qiáng)大能力已被大多數(shù)人認(rèn)可?!皻w根結(jié)底,我們認(rèn)為AI將增加人類的智慧,而非取代人類。其使用應(yīng)在人類監(jiān)督之下,并將道德因素考慮在內(nèi)。”施普林格·自然集團(tuán)發(fā)言人說(shuō)。
推動(dòng)AI向善發(fā)展,需要借助行之有效的技術(shù)手段。值得注意的是,AI生成的論文并不能被查重工具檢測(cè)出來(lái)。因此,國(guó)內(nèi)外都在探索研發(fā)專門(mén)針對(duì)AIGC的檢測(cè)工具。
從原理看,AIGC檢測(cè)技術(shù)是在“用AI打敗AI”。同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司副總經(jīng)理柯春曉介紹:“人類的創(chuàng)作往往是隨機(jī)且富有靈感的,而接受過(guò)大量文本訓(xùn)練的AI已經(jīng)形成了生產(chǎn)文本的‘固有’范式,傾向于使用‘一致’的結(jié)構(gòu)和規(guī)則,因此具有更高的可預(yù)測(cè)性?!盇IGC檢測(cè)的核心就是依托海量的文本和數(shù)據(jù)樣本,識(shí)別出人類和AIGC工具在平均句子長(zhǎng)度、詞匯多樣性和文本長(zhǎng)度等方面的不同點(diǎn),從而揪出AI論文“槍手”。
一些期刊出版機(jī)構(gòu)通過(guò)檢測(cè)工具發(fā)現(xiàn)了AIGC代寫(xiě)論文的痕跡。“從去年7月底到現(xiàn)在,我們發(fā)現(xiàn)涉嫌AI寫(xiě)作的論文數(shù)據(jù)每個(gè)月都在上升,大約有六七十篇的文章疑似使用AI的程度超過(guò)了50%?!薄吨腥A醫(yī)學(xué)雜志》社有限責(zé)任公司新媒體部主任沈錫賓介紹。
沈錫賓向記者展示了檢測(cè)過(guò)程:一篇論文經(jīng)過(guò)檢測(cè)系統(tǒng)后,會(huì)顯示疑似AI生成占全文比重,相關(guān)疑似段落也會(huì)被標(biāo)紅。但記者注意到,和傳統(tǒng)的查重報(bào)告單明確標(biāo)注重復(fù)痕跡不同,AIGC檢測(cè)報(bào)告單只是指出某些文本AIGC的“置信度”,并不能回答為什么是這個(gè)值。
“這使得報(bào)告單往往只起到參考和警示作用?!笨麓簳哉f(shuō)。
目前,人工智能大模型正在以“周”為單位進(jìn)行迭代升級(jí)。如何適應(yīng)不斷升級(jí)的技術(shù),是擺在AIGC檢測(cè)工具面前的一道必答題。
作為使用者的人類本身也在不斷“進(jìn)化”?!邦愃迫藗兲颖懿橹氐姆绞剑绻藗兞私獾紸I檢測(cè)的方式,也可以重新組織相關(guān)內(nèi)容,對(duì)AI生成的文本進(jìn)行人工潤(rùn)色。這樣很可能就檢測(cè)不出來(lái)了?!鄙蝈a賓說(shuō)。
作弊與反作弊的過(guò)程,實(shí)質(zhì)上是場(chǎng)“貓鼠游戲”。只要技術(shù)不斷升級(jí),兩者間的博弈就不會(huì)停止。目前,AIGC檢測(cè)技術(shù)仍處在萌芽期。如何對(duì)AI生成的虛假圖片、虛假數(shù)據(jù)進(jìn)行識(shí)別仍是難點(diǎn)。因此,人們引入智能檢測(cè)技術(shù)的同時(shí),也要建立人工審查機(jī)制。
“審稿人要當(dāng)好‘守門(mén)人’,發(fā)揮同行評(píng)議的作用,仔細(xì)甄別判斷論文的數(shù)據(jù)是否和認(rèn)知存在偏差。出版機(jī)構(gòu)也可以要求作者提供原始數(shù)據(jù),多管齊下,確保科研誠(chéng)信。”沈錫賓說(shuō)。
技術(shù)向善要他律更要自律
加強(qiáng)技術(shù)治理的同時(shí),各方都在翹首以盼,期待達(dá)成某些共識(shí)以及相關(guān)政策盡快出臺(tái)?!敖逃?、科研、出版各方都很關(guān)注AIGC使用的邊界,期待對(duì)合理使用AIGC形成一個(gè)共識(shí)性規(guī)范?!敝W(wǎng)技術(shù)專家呼吁。
其實(shí),早在去年初,中國(guó)科學(xué)技術(shù)信息研究所(以下簡(jiǎn)稱中信所)就牽頭愛(ài)思唯爾、施普林格·自然、約翰威立等國(guó)際知名出版集團(tuán)和科研信息分析機(jī)構(gòu),在廣泛調(diào)研并梳理業(yè)內(nèi)相關(guān)研究和探索工作的基礎(chǔ)上,完成了中英文版的《學(xué)術(shù)出版中AIGC使用邊界指南》(以下簡(jiǎn)稱《指南》),并于去年9月20日在國(guó)內(nèi)外同步發(fā)布。
去年12月21日,科技部發(fā)布的《負(fù)責(zé)任研究行為規(guī)范指引(2023)》(以下簡(jiǎn)稱《指引》)更是受到了業(yè)內(nèi)的廣泛關(guān)注。
《指引》和《指南》就如何負(fù)責(zé)任地使用AIGC,解答了令科研工作者、期刊編輯、審稿人困惑的一些問(wèn)題。
首先是披露問(wèn)題?!吨敢诽岢?,使用生成式人工智能生成的內(nèi)容應(yīng)明確標(biāo)注并說(shuō)明其生成過(guò)程,確保真實(shí)準(zhǔn)確和尊重他人知識(shí)產(chǎn)權(quán)?!吨改稀分懈翘峁┝寺暶鞯哪0?,供科研人員參考。
對(duì)于一些人想用AIGC投機(jī)取巧的行為,《指引》明確提出,不得使用AIGC直接生成申報(bào)材料;《指南》規(guī)定,AIGC不應(yīng)該用來(lái)產(chǎn)生研究假設(shè)、直接撰寫(xiě)整篇論文文本、解釋數(shù)據(jù)、得出研究結(jié)論。研究人員使用的數(shù)據(jù)必須是研究人員進(jìn)行實(shí)驗(yàn)并收集所得,如使用AIGC提供的統(tǒng)計(jì)分析結(jié)果需進(jìn)行驗(yàn)證。
隨著AIGC的使用邊界不斷清晰,越來(lái)越多的出版機(jī)構(gòu)達(dá)成共識(shí),制定了使用規(guī)范。施普林格·自然集團(tuán)發(fā)言人介紹說(shuō),他們目前已經(jīng)明確了有關(guān)作者身份和圖像方面的規(guī)定。例如,人工智能不能擔(dān)任作者,真正作者如使用大語(yǔ)言模型須加以透明描述,AI生成的圖像通常不能用于發(fā)表等。
“《科學(xué)》雜志在去年1月份發(fā)布的政策是禁止使用任何AIGC工具。而11月16日他們更新了投稿規(guī)則、放寬了限制,表示只要進(jìn)行了適當(dāng)披露,使用工具是可以接受的?!敝行潘┦苦嶖┱f(shuō)道。
“《指引》覆蓋較為全面,對(duì)AIGC的使用總體呈現(xiàn)出平衡包容、敏捷治理的態(tài)度,而非一味禁止。這也說(shuō)明治理的目的并不是阻止科研工作者使用新一代人工智能技術(shù),而是讓科研工作者能夠負(fù)責(zé)任地去使用?!绷赫岬?,在政策制定的行為框架之下,還要關(guān)注學(xué)科差異問(wèn)題。“使用AIGC可能因?qū)W科的不同而有所差異,其倫理問(wèn)題也要根據(jù)學(xué)科特點(diǎn)細(xì)化。”
例如,在自然科學(xué)領(lǐng)域;AIGC的強(qiáng)大功能更多體現(xiàn)在數(shù)據(jù)處理領(lǐng)域,如果失范使用,往往難以發(fā)現(xiàn)。而對(duì)于人文社科領(lǐng)域,直接使用AIGC生成內(nèi)容的痕跡非常容易被發(fā)現(xiàn),尤其是在高水平的研究當(dāng)中,優(yōu)劣之分更為明顯。
“因此,對(duì)于更加注重文字表達(dá)、數(shù)據(jù)資料支持的學(xué)科,比如企業(yè)管理、理工科、醫(yī)學(xué)等,需要防范產(chǎn)生虛假的數(shù)據(jù)集或論證材料?!绷赫f(shuō),“對(duì)AIGC使用的披露程度、疑似度的數(shù)據(jù)指標(biāo)等,都需要學(xué)術(shù)共同體進(jìn)一步探索,來(lái)推動(dòng)形成廣泛共識(shí)?!?/p>
此外,盡管?chē)?guó)家出臺(tái)了相應(yīng)的規(guī)則,但從外部監(jiān)督到行業(yè)自治還需要一個(gè)過(guò)程。AIGC的使用涉及包含研究人員、出版機(jī)構(gòu)、相關(guān)行業(yè)組織、政府等方方面面。如何厘清各方關(guān)系,各司其職是關(guān)鍵?!昂?jiǎn)單說(shuō),就是出了問(wèn)題,誰(shuí)來(lái)查?有沒(méi)有能力查?”鄭雯雯強(qiáng)調(diào)。
記者了解到,中華醫(yī)學(xué)會(huì)雜志社在今年1月9日公布了其對(duì)于AIGC技術(shù)使用的有關(guān)規(guī)定。其中不僅涉及了作者要遵守的細(xì)則,還提出了查處方式——經(jīng)編輯部研判的違反AIGC使用的情形,將直接退稿或撤稿;情節(jié)嚴(yán)重者,將列入作者學(xué)術(shù)失信名單。
“我們下一步的目標(biāo)是把存在問(wèn)題的文章作一個(gè)歸納總結(jié),進(jìn)一步摸清AIGC使用的規(guī)律,為科學(xué)治理積累經(jīng)驗(yàn)?!鄙蝈a賓說(shuō)。
“盡管新興技術(shù)有著潛在風(fēng)險(xiǎn),但也有著無(wú)可比擬的優(yōu)勢(shì),不宜一味封堵,而是要做好引導(dǎo)、合理合規(guī)地使用新技術(shù)?!编嶖┍硎荆瑲w根到底,科學(xué)研究的主體是人。如果心中的那桿“秤”傾斜了,即使再完善的監(jiān)管政策、再高端的檢測(cè)技術(shù),也難以抵擋學(xué)術(shù)不端的侵襲。
梁正也強(qiáng)調(diào),作為科研誠(chéng)信的第一責(zé)任人,科研人員一定要保持嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)態(tài)度,關(guān)注研究領(lǐng)域的真問(wèn)題,堅(jiān)守學(xué)術(shù)研究的基本原則,如原創(chuàng)性和透明性;明確認(rèn)識(shí)到ChatGPT等工具的潛在風(fēng)險(xiǎn),避免使用不當(dāng)而造成學(xué)術(shù)不端。
“科研誠(chéng)信和倫理是科研的生命線,科研人員一定要存敬畏、有底線。一旦在這方面有瑕疵,職業(yè)生涯或?qū)⒃崴?。”梁正提醒?/p>
(文中溫睿、徐彬均為化名)