從ChatGPT看AI未來趨勢和挑戰(萬字長文解讀！)。

ChatGPT 持續成為大家關注的焦點，開啟通用人工智能(AGI)之門。北京交通大學桑基韜教授和於劍教授撰寫的《從ChatGPT看AI未來趨勢和挑戰》，詳述了ChatGPT 的『能』與『不能』，AI中什麼是『真』以及AI的未來趨勢，非常值得關注！

在人工智能領域，ChatGPT 作為一種重要的技術突破，引起了廣泛的關注．本文將探討 ChatGPT 在人工智能發展中的地位及其對未來 AI 的影響．首先，介紹了 ChatGPT 所展現出的優秀對話生成能力，使其幾乎可以勝任所有自然語言處理任務，並將作為數據生成器、知識挖掘工具、模型調度員、自然交互界面在各種場景得到應用．接著，分析了其在事實錯誤、毒害內容生成、安全性、公平性、可解釋性、數據隱私等方面的局限，並討論了作為輔助人類工具的 ChatGPT 明確能力邊界和提高能力范圍的重要性．然後，從概念經典表示對真定義進行了分析，並從概念三指不等價的角度闡釋性了 ChatGPT 無法區分真假的原因.在論述 AI 未來時，從拓展應用、克服局限、探索理論分析了中短期技術趨勢，並從感知、認知、情感、行為智能四個層面的關系討論了長期發展路徑.最後，探討了 ChatGPT 作為認知智能的代表，對包括認知成本、教育要求、圖靈測試認識、學術界的機遇與挑戰、信息繭房、能源環境問題和生產力提升等方面可能產生的影響.目錄：

1 ChatGPT的『能』：生成
2 ChatGPT的『不能』：負責
3 什麼是『真』？
4 AI的未來
4.1 中短期技術趨勢
4.1.1拓展應用
4.1.2克服局限
4.1.3探索理論
4.2 長期發展路徑
5 ChatGPT的影響

引言

2022 年 11 月 30 日，OpenAI 公司發佈了一款名為 ChatGPT 的軟件.該軟件在發佈後的 5 天內，用戶數量就超過了 100 萬，2 個月內活躍用戶數更是突破了 1 億，成為了迄今為止增長速度最快的應用軟件. 該軟件幾乎可以完成自然語言處理的所有任務，因此在營銷、客服、教育、娛樂、咨詢、翻譯等行業有著廣闊的應用前景.這一成功也激勵了OpenAI首席執行官 Sam Altman，他於 2023 年 2 月 24 日發表了一篇名為『Planning for AGI and Beyond』的文章，認為 AGI《Artificial General Intelligence，通用人工智能》是 AI systems that are generally smarter than humans，需要開始為 AGI 的到來做準備.AGI 會是 AI 的未來嗎？本文將對此進行討論.

1 ChatGPT 的『能』：生成

比爾蓋茨將 ChatGPT 譽為自 1980 年現代圖形桌面環境 GUI 問世以來最具革命性的科技進步.如果說上一次讓 AI 火出圈的 AlphaGo 所展現出的是在特定領域的『專』，這一次 ChatGPT 展現出的則是 AI 在廣泛應用場景的『通』：這個『通』以正常人都會、都懂、都能體驗的對話形式呈現，讓 AI—特別是自然語言處理技術進入主流用戶群，孕育出了這一現象級產品.具體而言，ChatGPT 在對話過程中展現出了自然對話、多輪交互、上下文學習、思維鏈推理、實時反饋在線糾錯、湧現出適應未訓練任務以及 GPT-4 中新出現的理解弦外之音的能力.

ChatGPT 背後的思想其實很簡單：將所有語言任務歸為對話任務，將對話任務歸為文字接龍的生成問題 . 自然語言處理領域的學者普遍認為， ChatGPT 展現出的優秀對話生成能力對傳統研究方法產生了巨大挑戰. 1》從目標上看，自然語言處理旨在讓計算機能夠以文字或語音的方式與人類進行有效交流；而對話是人類日常生活中最基本的交流方式，實現了人機自然對話在一定程度上便達到了自然語言處理的核心目標.2》從任務類型上，自然語言處理可分為自然語言理解和自然語言生成兩大類.在google的 T5 模型[1]推出之後，兩類任務統一為單項語言生成的文字接龍形式.自 GPT-1 起，OpenAI 就一直堅持采用基於解碼器結構的自回歸語言模型，這種模型在處理單向語言生成問題方面具有天然的優勢.所以 ChatGPT 可以處理以前不同賽道的語言處理任務，比如翻譯、問答、摘要、擴寫、寫作、潤色、代碼生成、語句分析、段落理解等.

當然，ChatGPT 能夠實現如今順暢自然的人機對話，不僅源於其對 GPT 單向語言生成技術路線的持續發展，還依賴於算法、算力和數據等多方面的支持. 由於 ChatGPT 並未對模型進行開源，也沒有發佈論文透露具體細節，我們隻能基於 OpenAI 已公開的 GPT 系列技術發展路線來推測這些能力背後的潛在原因. 圖1展示了部分 ChatGPT 已展現出的能力及其背後主要技術原因的對應關系. 值得關注的是， ChatGPT 許多能力背後的原因仍在探索過程中. 關於上下文學習的能力，有學者認為模型從提示詞 (prompt)提供的示例中確定了待解決任務的自然語言指令(instruct)，從而在無需微調模型的情況下提升了問題回答的質量[2] .關於任務湧現和多任務遷移能力，一方面，有學者認為指令學習、大規模預訓練和數據集多樣性共同促進了模型在新任務的泛化能力[3] . 例如，通過在大量不同類型和指令任務上進行微調，模型學習到了一定程度的通用能力，從而能夠泛化到未見過的指令和場景.另一方面，不同任務的劃分具有一定的主觀性，其本質上都可以建模為統一的自然語言生成任務.大型預訓練語言模型通過學習大量訓練數據，掌握了豐富的語言知識和多種任務之間的共性，進而利用這些共性來提高不同任務的性能.然而，一些問題仍然沒有明確答案，例如：何種模型規模和訓練數據量閾值可以產生任務湧現能力？湧現能力與模型規模和訓練數據量之間的量化關系如何？同時，其他一些能力，如在線糾錯、理解弦外之音等，其背後的原因仍然是個謎.

OpenAI 首席科學家 llya Sutskeve 最近在與英偉達 CEO 黃仁勛的訪談中對 ChatGPT 能力學習進行了解釋：『ChatGPT 通過學習文本中的統計相關性，獲得了這個世界的一個壓縮、抽象、可用的映射表達』.這讓我們不禁思考：ChatGPT 是否學到了人類文字符號世界的暗知識《tacit knowledge[4]》.Michael Polanyi 在他的這本認識論著作中曾提到：『We can know more than we can say《我們所知者，遠多於所能說者》』.可以確定的是：機器學習模型通過統計海量符號語料中的規律，能夠學習到詞匯、語法、乃至一定程度的上下文和常識知識.問題是：隨著語料規模的不斷增加和統計規律的持續積累，模型所建立的世界表達分辨率越來越高、維度越來越豐富時，是否真的有可能學習到人類情感、道德觀念等支撐整個世界運行的更復雜的暗知識？

在學術界積極探索 ChatGPT 能力背後的技術原因的同時，工業界已在歡迎這項新技術，並將其優秀的對話生成能力融入各種應用場景.根據 ChatGPT 對話的對象和本身的定位，我們將這些應用分成 4 個層次《如下表 1 所示》：

1) 數據生成器，根據需求直接生成數據.此類應用僅輸入用戶需求，利用 ChatGPT 的生成能力返回特定類型的數據.由於思路簡潔且實現容易，數據生成類應用在 ChatGPT 發佈之初就大量出現.主要應用場景包括對話生成《客服、虛擬數字人》、文案生成《法律文書、營銷策劃廣告》和代碼生成等.典型的成功案例包括寫作助手 Notion AI、營銷文案生成工具 Jasper.ai.

2) 知識挖掘工具，對數據進行再加工或分析挖掘. 此類應用同時輸入用戶需求和待處理的原始數據，利用 ChatGPT 強大的自然語言處理能力返回經過加工的數據或挖掘出的新信息.知識挖掘類應用可以分為離線和在線兩種形式 . 離線應用通過調用類 ChatGPT API 分析和挖掘私有數據等專業領域語料構建知識庫，為進一步應用提供知識支持.在線應用的主要場景包括翻譯、潤色、摘要生成、文檔管理等. 一些典型案例包括搜索引擎摘要插件WebChatGPT、文檔分析工具 ChatPDF 以及 OpenAI 官方隨 GPT-4 發佈的摩根士丹利策略分析師.

3) 模型調度員，調用其他機器學習模型共同解決用戶需求.此類應用同時輸入用戶需求、待處理數據以及多個可調用的機器學習模型，通過 ChatGPT 作為人類與其他模型間的連接，設計解決方案、調用並管理其他機器學習模型，共同完成用戶需求並輸出結果.這方面的典型案例是微軟近期發佈的系列多模態解決方案 Visual ChatGPT[5]、MM-ReAct[6]和 HuggingGPT[7]，其通過調度其他視覺基礎模型來協同完成視覺和語音任務.此外，AI 賦能一直以來的一個痛點問題是，智能中臺需要整合不同模型和技術，並根據業務需求擴展新的模型.ChatGPT 有望實現智能中臺的升級：提供友好的開發/業務人員界面、實現模塊化模型管理、簡化技術集成和部署，從而提高 AI 賦能效率.隨著 ChatGPT 應用探索的深入，相信模型調度員類型的應用將越來越受到關注.

4) 人機交互界面，調用更廣泛的應用程序幫助人類解決實際問題. 第一種形式是將 ChatGPT 嵌入到特定應用中，從而極大地提升自然交互體驗，如微軟的 365 Copilot 和 Copilot X 分別將 ChatGPT 融入 Office 和 Github.第二種形式是在 ChatGPT 搭建的自然語言交互框架上開發各類信息服務應用，去年 10 月推出的開源庫 LangChain 和 OpenAI 最近發佈的插件集 Plugins 都是大型語言模型應用開發框架的典型嘗試.正如 Windows 和 Android 分別是桌面和移動時代的操作系統，ChatGPT 有望成為智能時代的操作系統接口.進一步暢想，如果把語言分為人類之間溝通的自然語言和人與計算機之間溝通的計算機語言， ChatGPT 在一定程度上統一了二者：用自然語言實現了人和計算機之間的溝通，不得不說『自然語言編程(Natural Language Programming)』這一新詞非常貼切.從這個角度看，我們甚至可以大膽預測：人機交互界面將從磁帶、鍵盤字符、鼠標圖形全面進化到自然語言時代.

以上圍繞對話生成討論了 ChatGPT 的具體能力、背後的技術原因以及在不同定位下的應用形式.盡管『對話生成』提供了無限的想象，但 OpenAI 的野心顯然並不止於此 . 從名稱和發佈時間點來看， ChatGPT 似乎隻是一種過渡性技術的產品形式.在以對話這種產品形式向主流用戶群展示了強大的技術實力之後，OpenAI 新發佈的 GPT-4 並未繼續在對話生成功能上炫技，而是悄然接入了各類官方應用.

從生物學角度，語言和智能的演化過程相互促進.人類智能在很大程度上依賴於高度復雜的語言系統.語言作為思維的載體和智慧的外在表現，其運用能力很大程度上反映了認知能力和智能水平.語言習得是認知發展的重要組成部分.兒童在成長過程中通過習得語言來理解世界，並逐漸掌握其他認知技能.ChatGPT 等技術在語言生成能力的持續提升能將人工智能帶到什麼高度，讓人非常期待.

2 ChatGPT 的『不能』：負責

能力越大，責任越大. ChatGPT 展現出的強大能力讓主流用戶群欣喜、學術界驚訝、工業界狂熱.這些能力讓我們在使用它時感受到了與以往技術不同的體驗.回顧人類歷史上的幾次技術革命，從早期的石器、金屬器具、機械設備、電氣設備到近幾十年的計算機、互聯網和智能手機，每一個階段所發明的工具都對人類生活產生了深遠影響.在使用這些工具時，我們可以清楚地意識到它們作為工具的定位，即輔助人類來完成任務.然而，在使用 ChatGPT 的過程中，我們經常會產生一種與另一個人對話的錯覺，尤其是當類似 Plugins 這類功能使其能夠像人類一樣利用其他工具進行自我增強的時候.埃隆-馬斯克在使用 ChatGPT 後的感受是『好到嚇人』.這種獨特的體驗無疑將加速技術融入人類社會的進程.正如 OpenAI 自己對 ChatGPT 的評價：『盡管 ChatGPT 還沒有實現真正的智能，但它讓人體驗到了真正的智能實現後，每個人都能用它做各種他們想做的事情的滋味.』

整個 2023 年 3 月被各種生成式 AI 技術和產品的發佈充斥：Meta Alpaca、GPT-4、PaLM-E、文心一言、Office Copilot、Midjourney V5、英偉達新顯卡、 Github CopilotX 、 ChatGPT 插件、 Security Copilot 等.我們可以預見相關技術的應用領域將迅速拓展、應用程度將大幅度加深.人們在享受技術帶來的便捷和生產力提升的過程中，對技術的態度將從習慣逐漸轉變為依賴.而當人們開始依賴這些技術代替自己學習、思考、甚至決策時，有兩個問題擺在我們面前：技術是否已經做好準備承擔責任？人類對技術的信賴是否超出了它的能力？實際上，ChatGPT 在使用過程中已被發現存在諸多問題：如數學計算、未來預測、時空物理現實推理等方面能力的局限，以及事實錯誤(幻覺)、生成毒害內容等方面的不可控[8] .下面從可信 AI 的 4 個維度對 ChatGPT 存在的問題展開討論.

1) 安全性. OpenAI 在官網上將『安全』列為五個目錄之一，在隨 GPT-4 發佈的報告中批露了其在技術和評估兩方面都設立了專門的安全小組，足見對安全性的重視.然而，和所有機器學習模型一樣， ChatGPT 仍存在著被對抗攻擊的風險.一種典型方式是提示語註入攻擊《prompt injection attack》：在提示語中混入惡意指令，可能繞過 ChatGPT 的安全機制，迫使其執行意外動作，如泄露敏感信息、輸出有害內容等.例如，ChatGPT 驅動的新 Bing 在受到攻擊後泄露了其內部代號『Sydney』；ChatGPT 被誘導規劃搶劫方案，甚至提供了購買搶劫道具的鏈接等.

2) 公平性.在 ChatGPT 之前，OpenAI 的文生圖DALL-E系列曾被發現存在輸出性別和種族歧視內容的問題.類似地，GPT-2、Bert、RoBERTa 等語言模型在一個測試項目中也被發現具有嚴重的性別偏見傾向[9] .盡管目前尚無系統性研究分析 ChatGPT 在性別和種族偏見方面的表現，但已有研究發現它存在明顯的語言敏感性：例如，當用日語和俄語分別詢問一個日俄爭議島嶼的歸屬問題時，ChatGPT 給出了截然不同的答案[10].

3) 可解釋性. ChatGPT 的思維鏈能力可以在答案中同時呈現推理過程，這在部分程度上解決了實驗室環境下模型可解釋性的問題.然而，需要注意的是，這種推理過程的解釋是面向用戶的，並不一定與模型的實際運行機制準確對應.此外，ChatGPT 仍存在很多尚未解釋的行為，包括自我在線糾錯、理解弦外之音等能力，以及出現事實錯誤(幻覺)等問題.由於大模型本身的復雜性以及僅通過 API 提供服務的現實限制，ChatGPT 對於用戶和開發者都是完全的黑箱.隨著應用場景的拓寬和加深，現有的解釋性水平可能難以滿足透明度和回溯性等的要求.

4) 數據隱私. 涉及 2 個方面：訓練階段的數據侵權和推理階段的隱私泄露.大模型訓練需要的海量數據多來自網路，其中難免包括未經授權的版權保護內容.ChatGPT 雖然可能避免語句層面的抄襲，但難以避免語義上的深度抄襲.2023 年，大模型領域發生了多起版權侵權案.例如，三名藝術家指控 Stable Diffusion 使用其版權作品作為訓練數據，而微軟和 OpenAI 因其開發被指控其開發的編程助手 Copilot 涉嫌復制 Github 上的開源代碼而受到指控.在推理階段，攻擊者有可能通過逆向攻擊等手段，利用模型輸出的結果來反向推導出訓練數據中的隱私信息.GPT-2、 BERT、RoBERTa 等語言模型均被發現存在數據隱私泄露的風險[11] .隨著模型規模和功能多樣性的增加，這種風險可能進一步加大：模型規模越大，其記憶能力越強；功能越多樣化，可被利用的信息和攻擊方式也越豐富.ChatGPT 自身代號的泄露便證實了這一點.

從生成式 AI 模型選擇的技術路線和當前發展水平看，這些問題既可以歸結為大型語言模型固有的結構局限，也可以歸結為將符號任務統一建模為對話問題的過度簡化.關於這條技術路線的未來發展，同時存在著樂觀和悲觀的觀點.樂觀派認為，人腦神經元突觸連接總數約為一百萬億，隨著語言模型參數量的不斷增加，模型可能在某個時刻實現量變到質變的躍遷，這些問題也會自然消失.然而，包括喬姆斯基、Stuart Russell 等大佬在內的悲觀派則持相反觀點，他們認為端到端的深度學習與人類進行推理和使用語言的方式有著巨大差異，依靠更多數據和算力無法消除這些缺陷或實現真正的智能.

不討論技術路線的選擇或者觀點的對錯，不管生成式 AI 模型的能力演進到何種程度，其定位始終是幫助人類更好地完成任務的工具.作為工具，首先應該明確能力邊界，即『做自己能做的事』.在認知心理學中，約瑟利窗口《Johari Window》將人際關系劃分為公開區、盲區、隱藏區、未知區四個象限 [12] .參照這種方法，如圖 2 所示，我們可以沿『自知』和『能力』兩個維度繪制一個坐標系，智能工具處理的任務將落在其中一個象限內.當任務落在『自知』負半軸的兩個象限時，可能會出現不可預知的問題：在隱藏區時，模型『不知道自己能』，可能在收到用戶反饋後將原本正確的答案改為錯誤，或接受用戶錯誤反饋的引導；在未知區時，模型『不知道自己不能』，可能會產生事實錯誤幻覺，一本正經地胡說八道.

根據『自知』-『能力』坐標系，首先需要明確能力邊界，即擴大『自知』正半軸兩個象限的覆蓋范圍，使更多任務落入公開區和盲區.在公開區時，模型可以自信地回答用戶的問題；而在盲區時，模型應該承認能力缺陷，避免回答不知道的問題，或者虛心接受用戶的反饋引導.PAL[13]是開發隱藏區的一個例子，通過在提示詞中註入包含推理過程的程序示例，成功挖掘了模型在原本容易回答錯誤的數學推理類任務的解決能力.在明確能力邊界後，需要進一步提升模型的能力，即擴大『能力』正半軸、尤其是第一象限的面積，使更多的任務從盲區轉移到公開區.縮小盲區的一個例子是 ReAct[14]，它將推理和行動結合，通過調用搜索等插件從網路等外部資源中逐步、有選擇性地收集和處理新信息，從而提高了模型在各種復雜場景下的解決能力.另一個最新提出的框架 Reflexion[15]，它在 ReAct 基礎上加入了自省 Reflect 功能，通過試錯的方式，在尋找自身能力邊界的同時，探索新任務的解決方案.這是一個在同時確定能力邊界和提高能力范圍方面很有意思的嘗試.

當然，『自知』-『能力』坐標系隻是一個理想和簡化的框架.人類在執行任務時，通常會考慮諸如道德、倫理、公平等價值觀.而 ChatGPT 並不具備人類的價值觀和判斷力，可能會生成與事實相悖的錯誤信息和誤導性的建議.比如，當用戶詢問『林黛玉是如何倒拔垂楊柳的』，ChatGPT 會一本正經地介紹相關具體細節.事實上，《林黛玉倒拔垂楊柳》是一部網路小說，中文論壇上也有許多對這一虛構情節的討論.模型在學習這些語料時無法區分虛構和現實，因此產生了這個尷尬的回答.隨著 GPT-4 的發佈，可以預見 ChatGPT 將有能力在符號世界中實現自動化生成.然而，它依然不能確保所生成內容的真實性，自然更無法對生成結果承擔責任.

3 什麼是『真』？

為了解釋為何 ChatGPT 無法保證結果為真，首先需要探討什麼是『真』.『真』的定義有很多，本文采用亞裡士多德的經典定義[16]：說是者為非，非者為是，即為假；而說是者為是，非者為非，即為真. 基於此，Tarski 提出一個更形式化的『真』的定義[17]：

X 是真語句當且僅當 p，其中 p 代表任意語句，X 是語句 p 的名稱. 即，一個語句是真的，當且僅當它描述的情況確實發生了.比如：『樹在長芽』是真語句當且僅當樹在長芽，即『樹在長芽』是真語句當且僅當樹在長芽確實發生了.

但是，這個看似合理的『真』的定義卻隱含矛盾.Tarski 轉述了烏卡謝維茨的加強版說謊者悖論：

令 C 是『C 不是一個真語句』的名稱，因此，有如下兩個假設：

1》α假設：C=『C 不是真語句』;

2》β假設：『C 不是真語句』是真語句當且僅當『C 不是真語句』.

綜合α假設與β假設，即可以得到：C 是真語句當且僅當『C 不是真語句』，悖論.

Tarski 關於『真』的定義和上面的推理似乎都沒有問題，那問題出在哪裡呢？我們認為問題出在概念的定義上，因此需要仔細考察概念的定義.

眾所周知，概念的經典表示由三部分組成：符號表示、內涵表示和外延表示.其中，概念的符號表示由概念名稱表示，概念的內涵表示由描述概念特性的命題表示，概念的外延表示由概念所包含的實例的經典集合表示.比如，『偶數』這個概念，其中文符號表示是『偶數』這個詞；內涵表示是『能被 2 整除的整數』這個命題；外延表示是包含所有偶數的集合：{…,-6,-4,-2,0,2,4,6,…}.

如圖 3 所示，根據經典表示，每個概念具備 3 種功能：指名、指心和指物，同時對應著波普爾的 3 個世界：符號世界、心理世界和物理世界[18] .概念的指名功能，是指每個概念都指向認知世界或符號世界中的一個實體，用所指對象的特定符號名稱來表示.這些符號名稱可以組成各種不同的語言.概念的指心功能，是指每個概念也指向人類心理世界中的實體，代表這個概念在心理世界裡的對象表示.概念的指物功能，強調概念與物理世界中的實體之間的對應，這些實體遵循物理世界的規律，可以獨立於人的主觀感受. 如果從概念的表示來實現人工智能，指名指物指心對應了 3 條路徑：符號主義、連接主義和行為主義.如果從概念的功能角度來對人工智能分類，可以分為認知智能、情感智能和行為智能.認知智能實現了概念的指名功能，即處理和理解符號世界的問題.情感智能則實現了概念的指心功能，主要關注心理世界中的問題.而行為智能則體現了概念的指物功能，主要解決物理世界中的問題.然而，如果要實現概念的三指功能，必須首先解決機器的感知問題.解決機器感知問題是最基本的人工智能，通常被稱為感知智能.感知智能主要關注機器的輸入輸出處理，是實現認知智能、情感智能和行為智能的基礎.

在概念的經典表示下，概念的指名、指心與指物功能是等價的，其符號表示、內涵表示和外延表示在功能上也是可以互換的.這是因為概念的經典表示存在 6 條預設：

1》概念的外延表示可以由集合{x1,x2,⋯ ,}表示； 2》概念的內涵表示存在且用命題∀xP(x)表示； 3》概念的名稱存在,且用符號表示 A；4》概念的外延表示與內涵表示同名：A={x1,x2，⋯ ,}=『∀xP(x)』；5》概念的表示唯一，即同一個概念的表示與個體無關：∀α(A α=A)，α 代表一個人；6》概念的指稱等價，即其內涵表示與外延表示在指稱對象的時候功能等價∀x(x∈A↔P(x))，其中， A={x1,x2,⋯ ,}.

根據上述概念的經典表示，可以知道概念的指名、指心與指物功能是等價的.在日常生活中，這種情況非常普遍，因此說真話是通常的情形.羅素曾給出一個清晰的論證[19]：『除非假定說真話是一種通常的情況，否則沒有人能夠學會說話：假設當你的孩子看到一條狗時，你隨意地說出‘貓’、‘馬’或者‘鱷魚’，那麼當他看到的不是一條狗時，你無法通過能通過說‘狗’來欺騙他.因此，說謊是一種派生的行為，它預設了說真話是通常的規則.』在上述羅素的論證裡，可以清楚地看到，其預設了概念的指名與指物等價，即假設概念的三指等價是真的必要條件.如果概念的指名、指心與指物功能等價，則可以認為：認知智能、情感智能與行為智能等價.這意味著一旦實現了認知智能，也就同時實現了情感智能和行為智能.同時，人工智能的三條實現路徑—符號主義、連接主義和行為主義一也是等價的.ChatGPT 和 GPT4 的出現，表明認知智能已經取得了巨大的進步. 如果概念的三指等價，那麼認知智能的巨大進步預示著情感智能和行為智能將取得同樣的巨大進步.從這個角度看，實現 AGI 似乎也有可能性.然而，烏卡謝維茨悖論告訴我們概念三指等價在邏輯上並不永遠成立：它內蘊矛盾.Tarski 的真定義實際上等價於如下命題：概念的指名功能為真當且僅當概念的指物功能為真.顯然，概念的經典表示也預設了 Tarski 的真定義. 仔細分析烏卡謝維茨悖論的邏輯推理，可以發現 α 假設與 β 假設都預設了概念的指名功能為真與概念的指物功能為真等價，這必然導致悖論.實際上，在概念的三指等價條件下，針對包含算術系統的邏輯系統，哥德爾證明了不完全性定理，而Tarski得到了著名的真之不可定義定理. 這些都說明在復雜一點的符號系統內部，不可能解決何為真何為假的問題 . 因此，從理論上講， ChatGPT 和 GPT4 同樣無法解決真假問題.因此，我們必須放棄概念的三指等價假設.一旦放棄了這個假設，就會發現認知智能、情感智能與行為智能是不可能等價的.實際上，現實生活中，這三種智能從未等價過.

4 AI 的未來

很多人認為 ChatGPT 已經開啟了第四次技術革命.面對這種尺度的變革，我們很難在早期準確預測未來的發展.在這裡，我們僅從中短期技術趨勢和長期發展路徑兩個方面，來探討在當前階段我們對這一技術的理解.

4.1 中短期技術趨勢

OpenAI 發明 ChatGPT 對於人工智能領域的影響，可以類比哥倫佈發現了美洲大陸.在哥倫佈發現美洲之前，探險家們一直渴望著探索新大陸，並嘗試使用各種方法去尋找它.然而，即使是經驗非常豐富的探險家，也並不確定新大陸是否真實存在，以及哪種航海方法更為有效.哥倫佈的成功不僅堅定了後來探險家們的信心，更在一定階段內統一了尋找新大陸的方法：在新的突破性技術出現以前，看似簡陋的帆船和羅盤已經足以帶領人們到達目的地.

同樣地，ChatGPT 的誕生為人工智能領域註入了信心並指明了發展方向，展示了『大力出奇跡』的可能：通過不斷擴大神經網路的模型規模和增加數據量，可以在 AI 的道路上取得實質性的進展.在這一目標和技術路線的共識下，我們從拓展應用、克服局限和探索理論 3 個方面探討人工智能領域中短期的可能技術趨勢.

4.1.1 拓展應用

1) 垂直化. ChatGPT 發佈初期，人們嘗試在提示詞中註入角色信息以增強垂直領域對話質量.為克服提示詞 token 數量限制以融合領域語料，有工作提出基於LangChain框架，將領域文檔切片後分佈式輸入. 但這種做法存在私域數據泄露風險，解決思路之一是利用 ChatGPT 控制和調用其他領域模型來提高垂直化能力.此外，MIT 最近提出保護隱私的遷移學習框架 Offsite-Tuning[20]，可在不訪問完整模型的前提下，在下遊領域數據上微調數十億級參數的基礎模型.對於需要構建領域模型的場景，在不泄露基礎模型和領域數據的情況下，實現對通用基礎模型的領域微調非常重要.

2) 個性化. 個性化可視為垂直化的極致，針對個人需求和偏好的個性化微調模型能夠提供更精確的服務.典型的應用場景包括個性化推薦系統、個性化教育輔導、個人 AI 助理等.微軟於 2023 年 4 月 4 日開源了大模型協作項目 JARVIS，旨在大型語言模型與機器學習社區的其他模型之間建立連接.JARVIS 這個名字讓我們對鋼鐵俠中同名的 AI 助理產生更多聯想.如果未來個性化模型可以通過多模的人機交互來增強，實現與人類對世界的同步感知、學習和成長，這樣的 AI 助手能夠更好地理解個性化需求、情感和行為，協助我們實現更高效的工作、學習和生活方式.在這個過程中，我們需要解決諸如中心平臺式 AI 如何保護個人數據以及在個體層面部署模型等問題.

3) 工程化. ChatGPT 的誕生某種程度上是工程化的勝利，而它的成功無疑將進一步加速 AI 技術從實驗室研究走向工程化和產業化.從必要性上看，隨著數據量和計算資源需求的增加，工業界擁有更好的條件主導大模型研發，相關實驗室研究也需調整研究范式和目標以適應工程化需求.從可行性上看， ChatGPT 的成功讓工業界看到了 AI 技術在各行業落地和價值實現的可能，眾多開源項目和成熟技術框架的出現則為 AI 技術工程化提供了支持.從重要性上看，工程化是一個學科發展和成熟的標志，AI 技術的工程化有助於進一步優化和完善相關技術，激發學術創新活力，推動 AI 領域的整體發展.

4.1.2 克服局限

1) 多模態增強. 多模態大模型的發展逐漸以語言模型為主，將視覺、語音等多模態信息映射到語義符號空間進行處理.近來的多模態解決方案更是提出直接以大型語言模型為基座來拓展多模態能力，如 Visual ChatGPT 和 MM-ReAct 以 ChatGPT 為中心調度其他視覺模型、PaLM-E 固定語言模型訓練額外的視覺編碼器等.然而，人類在進行多模態學習時並不完全依賴於符號空間，大腦神經網路在不同感官區域間傳遞、整合信息，同時結合視覺形象、空間關系等非符號性表示.由於多模態世界建模更為復雜，以語言模型為主或是現有條件下的折衷.隨著多模態數據量與模型參數繼續增加，期望在視覺、語音等空間實現真正的多模態生成能力.如被細線系著的氣球照片，無需映射至語義空間，模型即可預測線剪斷後的情景.

2)人機交互增強. 有人將現在的 ChatGPT 比作一個博覽群書的神童，卻從未親身體驗過這個世界. 經典的認知實驗發現，與被動旁觀的貓相比，具有自由活動能力的貓可以通過主動與環境互動並獲得反饋，從而更好地學習行為能力[21] .在一項微軟的最近研究中，ChatGPT 已經能夠根據人類的要求自動編寫代碼並指揮無人機協助完成任務[22] .通過進一步考慮生物學特性、身體感知和行動的影響，有望實現與真實物理世界的雙向交互，在自主行為反饋中不斷提升自身智能水平.

3) 可信增強. 之前的討論已概括了 ChatGPT 當前的局限和進行可信研究的必要性.可以預見，每個大模型公司都將需要一個專註於可信的安全和倫理團隊.這就不難理解 OpenAI 的系列舉措：GPT-4 在訓練完成後經過半年的評估和修正才發佈、用 30 餘頁技術報告介紹安全補丁 System Card，以及對模型評估框架Evals的開源.即便如此，ChatGPT還是因隱私問題在意大利遭禁，並遭到包括馬斯克和沃茲尼亞克等上千名知名人士的聯名叫停.值得注意的是，除了安全、公平、可解釋、數據隱私等經典可信問題外，ChatGPT 還會帶來模型回音壁等新問題.目前，使用 ChatGPT 生成的對話數據進行訓練已經成為公開的秘密，甚至出現了專門收集 ChatGPT 對話的網站 ShareGPT.其實，在人類反饋強化 RLHF 後，就有學者提出了基於智能模型反饋強的 RLAIF 框架[23] .隨著模型規模繼續增加，可供訓練的自然數據面臨枯竭，模型生成標註和反饋數據在模型間的回音壁效應將加劇可信問題.此外，垂直化、個性化、多模態等技術趨勢也會帶來新的可信挑戰.關於可信增強的方案，考慮到傳統 AI 測試基準已不足以評估模型能力，我們需要盡快構建新的可信測試基準：包括可信 benchmark 數據集和可信測試框架.此外，為了準確評估模型的應用成熟度，我們應該研制面向大型語言模型的可信標準，以規范不同可信等級的模型在相應的應用場景中使用.同時，結合工程化的發展趨勢，我們可以參考軟件開發周期中的測試-調試閉環，在基礎模型和下遊模型兩個層面進行迭代優化，以確保模型在大規模應用場景中的可信性.

4.1.3 探索理論

1) 預訓練模型機理研究.近年來，計算機視覺和自然語言處理領域的技術框架逐漸趨同.學習范式從特征工程、深度監督學習轉向自監督預訓練，模型結構從 CNN、RNN 發展為 Transformer.針對自監督預訓練和 Transformer 結構，仍有很多基礎性問題等待研究，如自監督學習泛化理論、預訓練與微調的動態平衡分析、Transformer 結構的\定性和魯棒性分析等.對於 ChatGPT，除了探究在線糾錯、理解弦外之音等原因未知的能力外，還需進一步研究任務湧現能力與模型規模以及訓練數據量等的關系，為未來模型設計和實際應用提供指導.

2) 學科交叉融合研究. ChatGPT 作為催化劑，不僅將推動人工智能學科內部計算機視覺和自然語言處理領域的進一步整合，而且將激發學術界和工業界更加深入地探討和實踐人工智能和其他學科交叉融合以及跨學科應用的可能性.以腦科學為例，結合腦結構和人工神經網路研究，我們將更有可能揭示智能產生的本質原因.實際上，OpenAI 的 CEO Sam Altman 早就投資了可控核聚變公司 Helion 和生物科技公司 Retro Biosciences.科技部近期啟動的 AI for Science 專項部署工作更是明確指出了將人工智能與數學、物理、化學、天文等基礎學科緊密結合，重點攻關藥物研發、基因研究、生物育種研發、新材料研發等領域的關鍵問題.

4.2 長期發展路徑

我們沿著概念經典表示和人工智能分類的討論來看 AI 未來可能的發展路徑.《左傳》裡有句名言，『太上有立德，其次有立功，其次有立言』.顯然，立德屬於心理世界，是情感智能的范疇；立功屬於物理世界，是行為智能的范疇；立言屬於符號世界，是認知智能的范疇.應該指出，這三個世界既互相獨立又相互依存.比如，符號世界也必須通過心理世界表示才能為人所感知，同樣符號世界也必須通過物理世界顯現展現才能傳播.對於人而言，認知的物理世界本身也屬於符號世界的示例，沒有成為符號示例的物理對象難以被符號世界記錄，同樣，物理世界也是通過心理世界被人感知.

三個世界各自都足夠復雜.在符號世界中，有自然符號、模擬符號和象征符號.其中自然符號直接用物理世界中的對象作為符號，比如學生用書包或其它個人物品占座.此時的書包或個人物品就有了符號意義，屬於典型的自然符號.圖像、視頻等是典型的模擬符號.文字是最常見的象征符號.至於心理世界、物理世界的復雜性，更是眾所周知.

為了計算方便，通常假定概念的三指等價，即符號世界、心理世界、物理世界三界同構.比如，符號主義的物理符號系統假設認定物理符號系統具有產生智能行為的充要條件，這暗示了符號世界與物理世界等價.連接主義認為只要能模擬大腦的思考功能就足夠了，實際上它假設了心理世界《或其子集》與物理世界等價.行為主義則認為只要能在物理世界實現智能，不需要知識、表示和推理，隻需要感知和行動，這意味著符號世界、心理世界是物理世界或其子集.但是，3 個世界並不同構.比如，喬姆斯基曾經寫過一個著名的句子：『Colorless green ideas sleep furiously.』這個句子在符號世界可行，但在心理世界和物理世界就失去了可行性.因此，3 個世界同構假設僅是一種有用的簡化，並不總是成立。

由於 3 個世界並不同構，它們之間的關系相當復雜.這導致在 3 個世界中實現智能的難度也大為不同.從共性上講，無論在哪個世界實現智能，首先必須解決最基礎的感知問題，即輸入輸出問題.從難度上看，感知智能、認知智能、情感智能、行為智能依次增加.原因很簡單：感知智能保持了 3 個世界同構假設.從認知智能開始，我們必須放棄 3 個世界同構的假設，隻能假設 3 個世界的某些受限子集同構. 認知智能旨在解決符號世界的智能問題，其實現主要受制於符號世界的規律，這些規律可能是顯知識，也可能是暗知識，但認知智能依然在符號世界內預設概念的三指等價.情感智能主要解決心理世界的智能問題，除了受制於心理世界外，也受制於情感所在的物理個體，即情感必須在認知層面具備具身特性.理論上，西施難以與青蛙共情，夏蟲不能與秋雁同語.對於機器來說，情感智能是基於認知智能的，情感智能也是依賴於機器內部的符號操作.僅有認知智能並不能實現情感智能，情感智能的實現難度髙於認知智能，情感智能預設心理世界內的概念三指等價.行為智能主要解決物理世界的智能問題，不但受限於作為行為主體的自身物理條件，也受限於其所處的物理環境，約束最多，因此實現難度最大.莫拉維克悖論實際上是對行為智能實現難度最大的一個簡單說明.對於行為智能來說，任一概念的三指等價都需要檢驗，任一概念的三指等價都不能先驗預設成立，這正是莫拉維克悖論背後隱藏的挑戰.圖 4 比較清楚地說明了概念的三指等價性從默認成立到必須檢驗所對應的不同智能階段。

根據以上分析，人工智能的發展路徑可以預測為：首先成熟的是感知智能，次之為認知智能，再次為情感智能，最後是行為智能.這與人工智能目前的現狀相符.當前，感知智能的問題已經大部分解決，已經融入人們的日常生活.得益於 ChatGPT 等技術，認知智能的問題已經初步解決，即將走入人們的生活.情感智能的問題部分解決，受限可用，比如在三界同構假設成立時，可以使用類 ChatGPT 技術.行為智能的問題尚極具挑戰性，在目前的情況下可用性受到嚴重限制，如在工廠等封閉場景下部分可用，距離人們的日常生活需求尚遠.之所以在部分封閉場景下行為智能能實現，原因即在於此時對應的相關概念可以保證其三指等價.

粗略地說，感知智能是人工智能中的基礎智能，可視為人工智能的 1.0 階段.認知智能是人工智能的 2.0 階段.情感智能則為人工智能的 3.0 階段.行為智能可以看作是人工智能的 4.0 階段.目前的人工智能發展已經進入了 AI2.0 時代，未來的 AI3.0 和 4.0 還有待努力.

5 ChatGPT 的影響

人工智能發展至今，邁入認知智能時代，確實取得了重大進步.雖然離 AI3.0 和 4.0 距離尚遠，但依然將對我們的生活產生重要影響：

1》生成式 AI 的成功提醒我們，符號世界、心理世界、物理世界三界同構假設不是恒真.今後，各種符號的證據力量需要檢測，不能預設為真. 這不僅大幅提升認知成本，還考驗認知能力.隨著類似 ChatGPT 工具的普及，它可能代表認知的最低水準.

2》每次技術進步，都對教育提出了更高的要求，這次也不例外. ChatGPT 展現出的認知水平要求人們更註重提出問題和獨立判斷的能力.鑒於符號世界的人類普適性，教育尤其是高等教育需要提前佈局.

3》ChatGPT 表明認知智能已可用，但依然不可能通過原始的圖靈測試.這表明圖靈測試是有啟發性的思想實驗，但不是衡量智能的實踐標準.

4》ChatGPT 的成功為國內人工智能學術界同時帶來機遇與挑戰.機遇包括提高學界對相關問題的理解，例如任務的主觀性，以往的多任務可能在新視角下視為單任務；同時，全社會對人工智能潛在能力的直觀體驗和認可得到提升，將極大推動相關產業的發展.然而，挑戰也不容忽視：應用研究方面，社會對技術的期待值提高，實效性和實用性至關重要；理論研究方面，技術已領先於理論，亟需加強理論研究.

5》類 ChatGPT 技術的大規模應用可能導致意識形態等方面的信息繭房效應. 特別是類 ChatGPT 是中心化的 AI 平臺，容易使人們在獲取信息時隻接觸到特定內容和片面觀點，這一方面會加劇社會分化，另一方面會降低觀點多樣性，阻礙創新思維的產生，為社會帶來潛在危害.

6》大模型對計算量的巨大需求可能會加劇全球能源危機，並對環境產生不良影響.我們期望 AI for science 通過加速科學發現，更迅速地找到可持續能源解決方案和新的節能技術，從而盡量降低這些負面影響.

7》ChatGPT 在提高生產力方面潛力巨大.通過自動化處理一些繁瑣的、重復性的任務，它可以解放人們的時間和精力，讓人們關注於更有價值、更具創造力的工作，進一步推動社會創新和發展.

參考文獻

[1] Raffel C，Shazeer N，Roberts A，et al. Exploring the limits of transferlearning with a unified text-to-text transformer[J]. The Journal of Machine Learning Research. 2020，21(1):5485-5551

[2] Zhou Y，Muresanu AI，Han Z，et al. Large language models are human-level prompt engineers[OL]. arXiv preprint arXiv:2211.01910. 2022

[3] Wei J，Tay Y，Bommasani R，et al. Emergent abilities of large language models[OL]. arXiv preprint arXiv:2206.07682. 2022

[4] Polanyi M，Sen A. The tacit dimension[M]. Chicago，IL: University of Chicago Press，2009

[5] Wu C，Yin S，Qi W，et al. Visual chatgpt: Talking，drawing and editing with visual foundation models[OL]. arXiv preprint，arXiv:2303.04671. 2023

[6] Yang Z，Li L，Wang J，et al. MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action[OL]. arXiv preprint，arXiv:2303.11381. 2023

[7] Shen Y，Song K，Tan X，et al. HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace[OL]. arXiv preprint，arXiv:2303.17580，2023

[8] Borji A. A categorical archive of chatgpt failures[OL]. arXiv preprint，arXiv:2302.03494. 2023

[9] Liu Y，Liu X，Chen H，et al. Does Debiasing Inevitably Degrade the Model Performance[OL]. arXiv preprint，arXiv:2211.07350. 2022

[10] Zhuo TY，Huang Y，Chen C，et al. Exploring ai ethics of chatgpt: A diagnostic analysis[OL]. arXiv preprint，arXiv:2301.12867. 2023

[11] Carlini N，Tramer F，Wallace E，et al. Extracting Training Data from Large Language Models[C] //Proc of USENIX Security Symp. Berkeley，CA : USENIX Association，2021: 2633-2650

[12] Luft J，Ingham H. The Johari window，a graphic model of interpersonal awareness[C] //Proc of the Western Training Laboratory in Group Development. Los Angeles: University of California，Los Angeles，1955，246

[13] Gao L，Madaan A，Zhou S，et al. PAL: Program-aided Language Models[OL]. arXiv preprint，arXiv:2211.10435. 2022

[14] Yao Shunyu，Zhao J，Yu Dian，et al. ReAct: Synergizing reasoning and acting in language models [C] //Proc of the Int Conf on Learning Representations (ICLR). 2023[2023-04-10]. https://arxiv.org/abs/2210.03629

[15] Shinn N，Labash B，Gopinath A. Reflexion: An autonomous agent with dynamic memory and self-reflection[OL]. arXiv preprint，arXiv:2303.11366. 2023

[16] Ross W D. Aristotle on His Predecessors，Being the First Book of His Metaphysics [M] (1908): 110-113

[17] Tarski A. The semantic conception of truth: and the foundations of semantics[J]. Philosophy and Phenomenological Research. 1944,4(3):341- 376

[18] Yu Jian. Brilliance and Darkness: Turing Test[J]. Journal of Computer Research and Development，2020，57(5): 906-911《in Chinese》 (於劍. 圖靈測試的明與暗[J]，計算機研究與發展，2020，57《5》：906-911)

[19] Russell B. An Inquiry into Meaning and Truth [M].Beijing: China Commerce and Trade Press,2012 (羅素. 意義與真理的探究[M]. 北京：商務出版社，2012)

[20] Xiao G，Lin J，Han S. Offsite-Tuning: Transfer Learning without Full Model[OL]. arXiv preprint，arXiv:2302.04870. 2023

[21] Held R，Hein A. Movement-produced stimulation in the development of visually guided behavior [J]. Journal of Comparative and Physiological Psychology，1963，56(5):872

[22] Vemprala S，Bonatti R，Bucker A，et al. Chatgpt for robotics: Design principles and model abilities.2023

[23] Bai Y，Kadavath S，Kundu S，et al. Constitutional AI: Harmlessness from AI Feedback[OL]. arXiv preprint，arXiv:2212.08073. 2022

月入上萬、睡覺就能賺錢？男子應聘『兇宅試睡員』後…。

國產ChatGPT大戰弱智吧效果實測！網頁端小程序均上線，人人可玩。