復旦清華聯合頂刊發文|ChatGPT:潛力、前景和局限。

來源:信息與電子工程前沿FITEE作者:周傑 柯沛 邱錫鵬 黃民烈 張軍平編輯:好困

『新智元導讀』為更好地理解ChatGPT,這裡我們簡要介紹其歷史,討論其優點和不足,指出幾個潛在應用,最後分析它對可信賴人工智能、會話搜索引擎和通用人工智能《artificial general intelligence,AGI》發展的影響。

最近,OpenAI發佈了對話生成預訓練模型Transformer《Chat Generative Pre-trained Transformer,ChatGPT》《Schulman et al.,2022》,其展現的能力令人印象深刻,吸引了工業界和學術界的廣泛關注。這是首次在大型語言模型《large language model,LLM》內很好地解決如此多樣的開放任務。ChatGPT成為歷史上增長最快的消費者應用程序,在發佈後兩個月內,吸引了1億月度活躍訪客《Hu,2023》。自發佈以來,因其高超的對話能力,已引爆社會關注。它可以回答後續提問,拒絕不當請求,挑戰錯誤前提,並承認自己錯誤《Schulman et al.,2022》。它獲得許多湧現能力,如高質量對話、復雜推理、思維鏈《CoT》《Wei et al.,2022b》、零/少樣本學習《語境學習》、跨任務泛化、代碼理解/生成等等。

復旦清華聯合頂刊發文|ChatGPT:潛力、前景和局限。

論文地址:https://link.springer.com/article/10.1631/FITEE.2300089這些令人印象深刻的能力,ChatGPT是如何獲得的?其主要得益於大型語言模型,它利用語言模型《LM》在大規模數據上訓練巨大的神經網路模型,如Transformer《Vaswani et al.,2017》。語言模型旨在根據上文預測下一個詞的概率,是文本中的自監督信號。互聯網上存在大規模文本數據,所以通過語言模型對模型進行預訓練是順理成章的。現有研究表明,模型規模和數據量越大,性能越好。當模型和數據規模達到一定程度時,模型將獲得湧現能力。例如,OpenAI發佈的GPT-3《Brown et al.,2020》有1750億個參數。它的預訓練采用超級計算機《285 000個CPU,10 000個GPU》在45 TB文本數據上完成。而模型也由此在零樣本學習任務上實現了巨大性能提升,具有小模型所不具備的語境學習能力。隨後,更多策略——如代碼預訓練《Chen et al.,2021》、指令微調《Wei et al.,2022a》和基於人類反饋的強化學習《reinforcement learning from human feedback,RLHF》《Stiennon et al.,2020》——被用於進一步提高推理能力、長距離建模和任務泛化。大型語言模型提供了一種接近通用人工智能的可能方式。除OpenAI,還有許多組織在探索大型語言模型,從而促進人工智能蓬勃發展,如google發佈Switch-Transformer《Fedus et al.,2021》、百度發佈ERNIE 3.0《Sun et al.,2021》、華為發佈Pangu《Zeng et al.,2021》、智源發佈CPM《Zhang et al.,2021》,阿裡發佈PLUG。此外,google在OpenAI之後發佈了聊天機器人Bard。我們認為,可信的人工智能、對話式搜索引擎和通用人工智能是人工智能未來方向。接下來,我們將討論ChatGPT的潛力、前景和局限。

潛力和前景

如上面提到,與前幾代生成模型相比,ChatGPT獲得許多湧現能力。其主要優勢如下:1. 歸納:ChatGPT可以生成符合用戶意圖的多輪回復。它捕捉以前的對話背景來回答某些假設的問題,大大增強了用戶在對話互動模式下的體驗。指令微調和基於人類反饋的強化學習被用於增強其學習任務泛化的能力,使得與人類反饋一致。2. 糾正:ChatGPT可以主動承認自己的錯誤。如果用戶指出他們的錯誤,模型會根據用戶反饋《有時甚至是錯誤反饋》優化答案。此外,它可以質疑錯誤問題,並給出合理猜測。3. 安全性:ChatGPT在考慮到道德和政治因素的情況下,善於拒絕不安全的問題或生成安全的回答。監督下的指令微調會告訴模型哪些答案是比較合理的。此外,它在給出答案的同時還給出了理由《解釋》,使結果更容易被用戶接受。4. 創造性:ChatGPT在創造性寫作任務中表現尤為突出,甚至可以一步步打磨其作品。這些寫作任務包括頭腦風暴任務、故事/詩歌生成、演講生成等等。

ChatGPT背景

如圖1所示,ChatGPT是InstructGPT《Ouyang et al.,2022》的後續模型,起源於GPT-3《Brown et al.,2020》。與之前GPT模型相比,GPT-3中的參數基本增加到1750億,構造了一些重要湧現能力,如語境學習《Brown et al.,2020》。具體而言,GPT-3可以按照輸入中的范例完成各種自然語言處理《natural language processing,NLP》任務,而無需進一步訓練。從圖1和圖2來看,有3種基本策略可以最終從GPT-3得出ChatGPT。在預訓練階段,采用代碼預訓練,將代碼語料與文本語料結合進行預訓練。然後,在微調階段使用指令調整和基於人類反饋的強化學習來學習跨任務泛化,並與人類反饋相一致。這些技術幫助它知道更多,以及不知道更少的知道《如語義推理、常識性知識等》和不知道《如邏輯推理》。詳情如下:1. 代碼預訓練:除文本外,代碼也被添加到預訓練語料庫中《Chen et al.,2021》。事實上,代碼預訓練是大型語言模型常用的策略,例如PaLM《Chowdhery et al.,2022》、Gopher《Rae et al.,2021》和Chinchilla《Hoffmann et al.,2022》,它不僅可以提升代碼理解和生成的能力,還可以提高長距離語境理解,並帶來思維鏈推理的新興能力《Wei et al.,2022b》。具體而言,該模型可通過一些示例生成推理過程本身,從而提高回答問題的準確性。代碼預訓練有助於模型獲得這些能力的原因,有待通過更詳細的實驗來探索。2. 指令調整:為使模型行為與人類意圖一致,OpenAI研究人員收集了一組由人類所寫的提示和期望的輸出,並在該數據集上進行監督學習《Ouyang et al.,2022》。事實上,指令微調成為大型語言模型——如FLAN《Wei et al.,2022a》、T0《Sanh et al.,2022》和Self-Instruct《Wang et al.,2022》——的一項流行技術,因為它具有任務泛化的能力。請注意,指令模板的多樣性至關重要,該特性有助於模型在不同任務中學習歸納。此外,指令微調導致模型一步一步思考問題,從而減少縮放法則問題。不同於傳統微調范式《Devlin et al.,2019》,指令微調可以在不改變模型參數的情況下被用於新任務。我們認為這是人工智能的巨大進步,可能影響機器學習的發展。3. 基於人類反饋的強化學習:為進一步使模型行為與人類反饋保持一致,OpenAI研究人員收集人類對不同模型輸出的偏好數據,訓練一個有效的獎勵模型《Ouyang et al.,2022》。這個獎勵模型可以通過近似策略優化《PPO》來優化生成模型《在強化學習設置中也被稱為策略模型》《Schulman et al.,2017》》。現有研究也通過使用基於人類反饋的強化學習與人類保持一致,使模型產生信息豐富、有幫助、正確和無害的回答,並拒絕非法問題《Bai et al.,2022; Glaese et al.,2022》。除了訓練技術,ChatGPT部署過程也很重要。為減少相關風險,其使用各種策略進行迭代部署。首先,開發人員在部署前進行安全評估來分析風險。然後,對少量用戶進行Beta測試,並研究新產生的案例。最後,監督使用情況並進行回顧性審查。

圖1 從GPT-3到ChatGPT的演變

圖2 ChatGPT湧現能力和策略之間的關系。指令學習通過與人類對齊,提高ChatGPT模型「知道知道」和「知道不知道」的能力,以及減少「不知道知道」和「不知道不知道」的限制。同時,代碼預訓練通過逐步思考,幫助模型回答其不知道的問題

限制

盡管具有強大的對話能力,ChatGPT仍有一些局限《如圖3》,舉例如下。

1. 邏輯推理:ChatGPT的能力不足以準確處理邏輯問題,如對於數學或一階邏輯,其時常給出錯誤答案,因這類問題答案是確定而非概率的。2. 可靠性:ChatGPT仍會產生事實上不正確或有偏見的回答。雖然這是生成式人工智能模型的固有問題,但它在解決這一問題上表現一般。生成信息的真實性仍是這類生成式聊天機器人的主要基石。3. 知識學習:ChatGPT不具備網站實時搜索功能,無法學習新知識並更新知識儲備。此外,它很難重寫並修正模型中的知識。從大規模語料庫中習得的知識被存儲在一個具有分佈式表示的模型中,這些模型是黑盒,很難被操作或解釋。4. 穩健性:盡管ChatGPT在產生安全和無害的反應方面很強,但仍有一些方法可以攻擊該系統,包括指令攻擊《使模型遵循錯誤指令去做非法或不道德的事情》和提示註入。此外,它在英語和尊重美國文化方面做得不錯,但對於其他語言和文化,有必要開發基於相關數據集背景的其它版本。

圖3 有關ChatGPT局限性的例子:(a) 邏輯/數學問題:它對簡單數學問題仍然給出錯誤答案;(b) 知識學習:它不能獲得關於2022年世界杯的最新信息;(c) 可靠性:它產生了與事實不符的回答,第二篇論文Scaling Neural Machine Translation並非Ashish Vaswani撰寫

潛在應用

毋庸置疑,未來幾年內,ChatGPT將在許多方面大大改變人類生活。由於它被定位為一個通用助手,將在提高生產效率和效益方面發揮作用,極大影響幾乎所有行業,包括教育、移動、搜索引擎、內容制作、醫藥等等。正如比爾•蓋茨所說,人類歷史見證了3次改變和構建人類社會的技術浪潮:個人電腦、互聯網和通用人工智能。如今,我們正在接近通用人工智能。隨著對話模型或大型語言模型變得越來越智能,我們不得不相信,作為界面的對話將成為現實,它重塑了人機互動范式。這將不可避免地改變人類尋求、處理和生產數字信息的方式,並對我們的日常生活產生深遠影響。然而,ChatGPT可能給人類生活帶來一些負面影響。1. 正如著名語言學家諾姆•喬姆斯基近期所說,ChatGPT增加了社會層面發現學術不端行為或錯誤信息的難度,因為它或其他高度智能的人工智能產品可以通過極大地調整句子的結構,使這些信息變得難以察覺。2. 類似NovelAI 2這種可以產生類似人類文學的人工智能算法也會產生道德問題。例如,ChatGPT可以被列為科學論文作者嗎?3. 人工智能治理者需更加關注ChatGPT使用的合法合理性。例如,我們是否允許學生采用它寫作業,是否可以不做任何進一步修改?事實上,它在2023年2月9日通過美國醫學執照考試,展現出強大學習能力。

討論和結論

ChatGPT的出現已經引領關於人工智能未來發展的討論。在此,我們提出幾個觀點,可能會引起對其帶來影響的討論。1. 可信人工智能:雖然ChatGPT有能力完成各種基於文本的現實世界的任務,但它會不可避免地產生與事實不符的內容,這限制了其應用場景。此外,它使用的是隱性神經表征,使得我們很難理解其內部運作方式。因此,我們認為,在當前人工智能發展階段,可信人工智能應得到更多關注《Wang et al.,2022》。由於事實驗證是自然語言處理社區的典型研究問題,如何提高開放領域中人工智能生成文本的事實性仍是一項挑戰。如果我們用ChatGPT作為這種黑箱模型的解釋器,則有可能在性能和可解釋性之間獲得良好平衡。這樣的解釋是否可信,以及如何使這種信任突破專家領域並被大眾接受,應是下一階段大型語言模型研究最重要的問題之一。2. 對話式搜索引擎:搜索引擎領域已被ChatGPT重新激活。作為OpenAI的重要合作夥伴,微軟首先將其整合到其搜索引擎產品,即必應。新的必應可以以對話系統的形式回應用戶查詢,並在回應中添加引文,其中包括檢索到的網頁。通過這種方式,搜索引擎和用戶之間的互動更加自然,ChatGPT扮演了信息提取/總結的角色,減輕了瀏覽無用網頁的負擔。google發佈了名為Bard的聊天機器人,也可被整合到搜索引擎中。我們相信ChatGPT正在改變傳統搜索引擎的使用方式,並對該領域產生深刻影響。3. 通用人工智能:盡管ChatGPT通過從算法智能到語言智能的自我進化,承擔了接近通用人工智能的潛力《Wang et al.,2023》,但如果我們真的希望在未來發展出真正的通用人工智能,可能需要感知的加入,因為沒有表示的智能實際上比具有自然語言理解能力的智能更早出現《Brooks,1991》。此外,根據Lighthill報告《Lighthill,1973》,大多數基於規則的學習方法都存在組合爆炸問題。ChatGPT似乎面臨同樣問題,需在未來加以解決。此外,常識和一些基本數學計算對人類而言很簡單,但對ChatGPT來說很難。盡管其在人工智能的發展中邁出令人驚訝的一步,Moravec悖論《Moravec,1988》——人類難以解決的問題,人工智能卻能輕易解決,反之亦然——仍然成立。也許將ChatGPT或更強大的人工智能產品與人機增強智能結合——無論人在環中、認知計算,還是二者兼而有之——都值得進一步研究《Huang et al.,2022; Xue et al.,2022》。此外,我們可以考慮建立一個虛擬的平行系統,允許其通過自我提升來改進,直至未來不再需要人類反饋《Li et al.,2017》。總之,作為大型語言模型的代表,結合了許多前沿自然語言處理技術的ChatGPT無疑引領了現階段人工智能的發展,並改變了我們的日常生活。本文簡要分析了它的潛力和前景,也指出其局限。我們相信,ChatGPT可以改變傳統人工智能研究方向,並引發各種應用,同時為接近通用人工智能提供一種可能的方式。

作者簡介

周傑,復旦大學計算機科學技術學院博士後,合作導師黃萱菁教授,於2021年在華東師范大學取得博士學位,導師賀樑教授。主要研究方向為自然語言處理,情感分析及可解釋等。先後在AAAI、ACL、SIGIR、IJCAI、COLING等重要國際會議和學術期刊上發表論文30餘篇,獲得COLING 2022 Outstanding Paper Reward。多次在國際數據挖掘比賽《如KDD CUP,SemEval》獲得冠亞軍。擔任多個重要國際會議以及期刊《包括EMNLP、ACL、AAAI、INS等》的審稿人,中國中文信息學會青年工作委員會委員,上海市計算機學會NLP專委委員,是2019年國際亞洲語言處理會議宣傳主席。曾獲得上海市超級博士後、全國最美大學生《中宣部,教育部》、上海市大學生年度人物等榮譽。

柯沛,清華大學計算機系博士後,合作導師黃民烈副教授。博士畢業於清華大學計算機系,師從朱小燕教授,研究方向是自然語言處理,主要包括自然語言生成和對話系統。在ACL、EMNLP、IJCAI等自然語言處理和人工智能領域的頂級學術會議上發表論文10餘篇,曾獲NLPCC 2020的最佳學生論文獎。擔任ACL 2023的領域主席,以及自然語言處理和機器學習領域多個頂級會議《包括ACL、EMNLP、NeurIPS、ICML等》和期刊《包括IEEE TNNLS,IEEE 他SLP,IEEE TKDE等》的審稿人。是中國中文信息學會自然語言生成與智能寫作專委會的學生委員,曾參與CDial-GPT、EVA、OPD等一系列中文對話預訓練模型的開源項目研發,GitHub的Star總數超過1.3K。

邱錫鵬,復旦大學計算機科學技術學院教授,在 ACL、EMNLP、AAAI、IJCAI 等計算機學會 A/B 類期刊、會議上發表 100 餘篇學術論文。開源自然語言處理工具 FudanNLP 項目開發者,FastNLP項目負責人。

黃民烈,清華大學長聘副教授,國家傑青基金獲得者,聆心智能創始人,自然語言生成與智能寫作專委會副主任、CCF學術工委秘書長。研究領域為大規模語言模型、對話系統、語言生成,著有《現代自然語言生成》一書。曾獲中國人工智能學會吳文俊人工智能科技進步獎一等獎《第一完成人》,中文信息學會漢王青年創新獎等。在國際頂級會議和期刊發表論文150多篇,google學術引用13000多次,h指數57;多次獲得國際主流會議的最佳論文或提名《IJCAI、ACL、SIGDIAL等》。研發任務型對話系統平臺ConvLab、ConvLab2,世界上最大的中文對話大模型EVA、OPD,智源中文大模型CPM的核心研發成員,在知識對話、情感對話上具有開創性成果。擔任頂級期刊TNNLS、他CL、CL、TBD編委,多次擔任自然語言處理領域頂級會議ACL/EMNLP資深領域主席。

張軍平《本文通訊作者》,復旦大學計算機科學技術學院教授,博士生導師,兼任中國自動化學會普及工作委員會主任,主要研究方向包括人工智能、機器學習、圖像處理、生物認證、智能交通及氣象預測。獲得中國科協「典贊·2022科普中國」年度科普人物提名獎。至今發表論文 100 餘篇,其中 IEEE Transactions 系列30餘篇,包括 IEEE TPAMI,TNNLS,ToC,TITS,他C,TIP 等。學術google引用6500餘次,h指數38。著有科普書《愛犯錯的智能體》《該書獲得2020年中國科普創作領域最高獎》和暢銷書《高質量讀研》。

貢獻聲明:

周傑、柯沛和張軍平起草初稿,邱錫鵬和黃民烈協助完成論文的組織,修改、定稿。

參考資料:https://link.springer.com/article/10.1631/FITEE.2300089