科技日報記者 劉霞
12月20日,美國開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。該公司宣稱,o3具備更先進(jìn)、近似人類的推理能力,在代碼編寫、數(shù)學(xué)競賽和掌握人類博士級別的科學(xué)知識等方面,均超越了其“前輩”o1。
不過,英國《新科學(xué)家》網(wǎng)站在12月22日的報道中指出,盡管o3“實現(xiàn)了令人矚目的性能飛躍”,但仍未達(dá)到業(yè)內(nèi)翹首以盼的通用AI(AGI)水平。
多方面表現(xiàn)出色
OpenAI公司透露,在解決更復(fù)雜的多步驟問題時,o3模型會花更多時間計算答案,然后再給出回應(yīng)。這一推理能力的提升,使o3在多項測試中表現(xiàn)出色。
大型語言模型熱衷于在各種數(shù)學(xué)基準(zhǔn)測試上瘋狂“刷分”,o3也不例外。在2024年美國數(shù)學(xué)邀請賽中,o3模型的準(zhǔn)確率高達(dá)96.7%,僅答錯了一個問題。而在OpenAI研究人員認(rèn)為最嚴(yán)格的基準(zhǔn)測試之一——Frontier Math中,o3也解決了25.2%的問題。盡管這一得分看似不高,但此前其他大型語言模型曾在此“集體翻車”,正確率均未超過2%。
Frontier Math測試難度極大,曾被華裔數(shù)學(xué)家、菲爾茲獎得主陶哲軒評價為“可能會難住AI好幾年”。然而,o3只需思考幾分鐘便能解答其中一道題目,而人類數(shù)學(xué)家則要花費數(shù)小時到數(shù)天。
在對科學(xué)知識的掌握方面,o3的表現(xiàn)也超出一般博士水平。在GPQA Diamond(衡量模型在博士級科學(xué)問題上的表現(xiàn),涵蓋化學(xué)、物理和生物學(xué)方面的專業(yè)知識)基準(zhǔn)測試中,o3的準(zhǔn)確率達(dá)到87.7%,超過了人類博士的70%,也比之前o1表現(xiàn)高近10%。
此外,o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現(xiàn)實世界軟件問題的能力)基準(zhǔn)上,o3的準(zhǔn)確率約為71.7%,比o1高20%以上。在Codeforces編碼競賽平臺中,o3的得分為2727,相當(dāng)于榜單上第175名人類編程員的水平,而o1得分僅為1891。
在展示了o3取得的這些傲人成績后,OpenAI首席執(zhí)行官奧爾特曼強調(diào),o3的出現(xiàn)標(biāo)志著AI進(jìn)入了下一個發(fā)展階段,這些模型可處理需要大量推理的復(fù)雜任務(wù)。
與人類智能仍有差異
《新科學(xué)家》網(wǎng)站還報道,在被視為AGI重要衡量標(biāo)準(zhǔn)的抽象與推理語料庫-AGI(ARC-AGI)大賽中,o3模型也創(chuàng)下新紀(jì)錄:在低算力配置下,它以75.7%的得分登上公共排行榜前列。只因確定此項大獎得主的測試具有更嚴(yán)格的算力限制,在該算力限制下,o3的挑戰(zhàn)以失敗告終。
不過,在超出官方算力限制172倍的高算力下,o3采用“蠻力”取得了87.5%的成績,達(dá)到了代表人類水平的85%門檻。
對于o3的表現(xiàn),谷歌前工程師、ARC-AGI主要創(chuàng)建者弗朗索瓦·肖萊在博客中寫道,這是AI能力的一次驚人且重要的躍升。但o3尚未實現(xiàn)AGI,因為其仍然無法解決ARC-AGI比賽中一些非常簡單的問題,這表明其與人類智能存在根本差異。
AGI是一個假想中的未來系統(tǒng),它能夠模仿人類思維、決策,擁有自我意識,并能自主行動。然而,AGI目前主要活躍在科幻作品中,尚未走進(jìn)現(xiàn)實。
升級迭代并非易事
o3不僅是OpenAI公司的最新力作,也是AI巨頭競逐大型語言模型的生動寫照。
兩年前,OpenAI發(fā)布了ChatGPT,由此拉開了AI軍備競賽的序幕。從GPT-3.5到更準(zhǔn)確、更具創(chuàng)造性的GPT-4,再到o1,直至o3,OpenAI在不斷精進(jìn)自家產(chǎn)品。
其他頂級AI開發(fā)商也在利用日益先進(jìn)的技術(shù),推動自家產(chǎn)品迭代升級。此前不久,谷歌推出了其旗艦?zāi)P汀半p子座”(Gemini)的新版本,據(jù)稱其速度是上一代的兩倍,并且能夠“思考、記憶、規(guī)劃,甚至替代用戶采取行動”。元宇宙平臺公司計劃明年推出Llama 4。
然而,迭代之路并非坦途。包括OpenAI和谷歌在內(nèi)的幾家領(lǐng)軍企業(yè),正面臨新模型開發(fā)耗資巨大但回報遞減的困境。OpenAI的GPT-5模型開發(fā)工作進(jìn)展緩慢。據(jù)悉,僅6個月的訓(xùn)練,單計算成本就高達(dá)約5億美元,而性能僅比該公司現(xiàn)有產(chǎn)品略勝一籌。