摘掉 Chat 標簽,GPT-4 將釋放更大生產力。

摘掉 Chat 標簽,GPT-4 將釋放更大生產力。

相比 ChatGPT 能力有大進化,多模態上有突破但不多。

作者丨李梅 黃楠

編輯丨岑峰

今日,多模態大模型 GPT-4 震撼登場!

GPT-4 能夠接受圖像和文本輸入,輸出文本,在各項測試和基準上的表現已經與人類水平相當。

OpenAI 一次性大放送,發佈了 GPT-4 的技術報告、system card,並提供了 ChatGPT Plus 體驗、GPT-4 的 API waitlist、demo 視頻,以及用於自動評估 AI 模型性能的 OpenAI Eval 框架。

Sam Altman 稱,GPT-4 是『我們迄今為止最強大、對齊最好的模型』。

1

對 ChatGPT 的巨大超越

在許多方面,GPT-4 都已經能做到之前 ChatGPT《GPT-3.5》所力不能及的事情。

相比 ChatGPT,GPT-4 支持更長的輸入,一次可接受 32768 個 token,相當於 50 頁紙的內容,長篇學術論文可以直接丟給它去解讀了。

圖源知乎

GPT-4 跟 GPT-3.5 具有相同的 API 接口和交互界面,但在文本總結和加工能力上,GPT-4 有了明顯的提升,這表現提出指令後,模型能更好地遵循指令給出答案。

例如讓一篇文章變成一個句子,每個單詞都以 G 開頭,GPT-3.5 還未嘗試就放棄了任務,但在 GPT-4 中可以很好地完成:

GPT-3.5

GPT-4

同時,GPT-4 對指令的理解能力更佳:

《圖片來源:知乎網友:@連詩路》

此次更新中,GPT-4 最令人驚喜的能力,是它可接受圖片輸入,並對圖片生成說明、分類和分析。

比如輸入一張有雞蛋、面粉和牛奶的圖片,詢問 GPT-4 可以使用這些原材料做什麼,得到的結果如下:

GPT-4 可以實現從圖片中提取文字信息並輸出到 HTML,比如嘗試手繪一個笑話網站模型,讓 GPT-4 嘗試自動生成網站的原型圖《程序員嗅到了危險的味道》:

手繪的笑話網站模型圖

GPT-4 根據手繪生成的笑話網站

對比 ChatGPT,GPT-4 的推理能力也有所超越,下面的結果展示了同一個問題 ChatGPT 和 GPT-4給出的不同答案:

左邊為 ChatGPT,右邊是 GPT-4

不僅如此,GPT-4 還能基於稅務法則,幫助一對夫妻精準地計算出2018年繳納的稅額,並給出詳盡的算法步驟,以便閱讀解釋。

據了解,OpenAI 於去年 8 月就已經完成了 GPT-4 的訓練,我們與 OpenAI 的差距似乎更大了。

2

與 ChatGPT 相同的技術路線

在技術層面,一句話概括,GPT-4 是一個 Transformer 模型,使用公開可用的數據《如互聯網數據》和第三方提供商許可的數據進行預訓練,預測文本中的下一個 token,然後使用 RLHF《來自人類反饋的強化學習》對模型進行微調。

在一份98頁的技術報告中,OpenAI 報告了 GPT-4 的性能、局限性和安全特性,但並沒有公開有關架構《包括模型參數量》、硬件、訓練計算、數據集構建、訓練方法等內容的更多細節。

OpenAI 聲稱是『鑒於競爭格局和 GPT-4 等大規模模型的安全性影響』。

關於GPT-4的參數量,此前OpenAI的CEO Sam Altman表示,GPT-4不會比GPT-3高出太多,但大家關於GPT-4擁有極大參數量的猜測仍有很多。

對此,UCL 計算機系教授、上海數字大腦研究院院長汪軍認為,大力確實出奇跡,此前 ChatGPT 的語言能力很強,有一定的邏輯推理能力,但它並未真正理解數據裡面的內容,它隻是在原來的訓練數據中、搭料能力很強,因此是具有一定局限性的,在訓練裡一定要加上它對整個世界的理解。

舉個簡單的例子,以下棋為例,如果你給它所有人類的下棋數據能力,比如說2000分以下所有人的數據,如果模型隻模仿人的話,那麼它是模仿不出比這2000分更高的智能的。

報告地址:https://cdn.openai.com/papers/gpt-4.pdf

在這份技術報告中,OpenAI 依然傳達了一些關鍵信息,比如 GPT-4 采用與 GPT-3.5/ChatGPT 完全相同的技術路線;有一系列的對齊方案來保證 GPT-4 輸出的安全性;基於不超過 GPT-4 千分之一的計算量來準確預測 GPT-4 在一定計算規模下的性能,利用小模型的訓練性能來預測大模型期望性能這一點,在 OpenAI 看來是一項核心能力,也是一個值得研究的方向。

3

GPT-4 背後的強大陣容

盡管在 GPT-4 的技術細節方面,OpenAI 仍不夠 Open,但這次他們也做了一次大膽的公開—— GPT-4 貢獻者名單。

這份名單的最大看頭在於,從下面這些詳細的組別分類中可以大致看出 OpenAI 的部門組織架構,也足見 GPT-4 背後是一支多麼龐大的隊伍,從模型訓練到評估再到安全部署,每一環都配備了大量的人力。

貢獻者名單

這裡一共列出了7個組別:

預訓練:計算集群規模化、數據、分佈式訓練基礎設施、硬件正確性、優化&架構、訓練保姆《Training run babysitting》

長文本:長文本研究、長文本 kernels

視覺:架構研究,計算集群規模化、分佈式訓練基礎設施、硬件正確性、數據、對齊數據、訓練保姆、部署&後訓練

強化學習&對齊:數據集、數據基礎設施、ChatML 格式化、模型安全性、Refusals、底層 RLHF 和 InstructGPT 工作、Flagship training runs、代碼能力

評估&分析:OpenAI Evals 庫、模型分級評估基礎設施、加速預測《Acceleration forecasting》、ChatGPT 評估、能力評估、代碼評估、真實世界使用案例評估、污染性調查、指令遵循和API評估、新奇能力發現、視覺評估、經濟影響評估、非擴散&國際人道主義法與國家安全的有害行為評估、過度依賴分析、隱私和PII評估、安全和政策評估、OpenAI 對抗性測試、系統卡和更廣泛影響分析

部署:界面研究、GPT-4 API 和 ChatML 部署、GPT-4 web 體驗、界面基礎設施、可靠性工程、信任與安全工程、信任與安全監測和響應、信任與安全政策、部署計算、產品管理

其他:發佈博客和論文內容、協作、計算分配支持、協議&稅務&定價&資金支持、午餐合作夥伴&產品操作、法律、安全與隱私工程、系統管理與隨叫隨到服務

另外,OpenAI 也對微軟的支持表示了感謝,特別是微軟 Azure 為 GPT-4 模型的訓練提供了基礎架構設計和管理方面的支持,另外還有微軟Bing團隊和安全團隊在安全部署方面的支持。

對於 OpenAI 的追趕者來說,這份名單一定程度上指示了一個方向,值得仔細研究。

它對於 AI 領域人才的潛在熱門職業方向也有啟示,比如模型訓練『保姆』、新奇能力發現師、算法模型安全師、數據和模型污染調查師等等。

4

開啟多模態大模型時代

GPT-4 開啟了多模態大模型的時代,遺憾的是,OpenAI 這次並沒有公佈 GPT-4 在多模態方面的技術細節。

自然語言是多模態的基礎

目前 GPT-4 還隻是文本+圖像輸入、文本輸出,可以預測文本+圖像不久也將實現。

ChatGPT 已經帶火了 NLP,GPT-4 想必對於視覺領域的研究者們也是一大機遇,也或許是一次沖擊。

不過,在多模態大模型中,自然語言仍被認為是核心。

UCL 計算機系教授、上海數字大腦研究院院長汪軍告訴 AI科技評論,Chat 構建了一個相對清晰的邏輯描述,它或許不是百分百嚴謹,但已經足夠讓我們去表達一些非常復雜的邏輯關系。

但他認為,這是一個 Free power,也即是說,它可以能把這個問題表述得很清晰、但這是表象, 最主要的是 Chat 裡面含載的語義關系,當其他多模態來了之後,匹配上相應的語義表達,就可以遷移到其他的模態當中。

知識體系和自動化體系時代

在通過交互界面獲取信息這一點上,ChatGPT 已經對用戶完成了科普任務。

GPT-4 出現後,Chat 將不再是大家關注的重點,GPT-4 能力的躍升正在引發大家思考 GPT 時代的產業變革將怎樣發生。

在前維卓CTO 張烜看來,ChatGPT 背後的時代變化,是從信息時代 AI 向用戶快速提供豐富的信息,到AI直接提供完整的知識體系。

ChatGPT 的貢獻是提供了一個便捷易用的交互界面,讓普通人都能用得起來,功不可沒,GPT-4 是在此基礎上的再一次飛躍。

他認為,除了模型變得更大、更強以外,AI 技術本身的變化可能不顯著,但從應用的角度看,新的時代已經到來。

這個新時代便是知識體系和自動化的時代, AI 優化的目標是自動化地輸出最終結果和完整的知識體系。

能夠適應這種新形勢的是以 RPA《Robotic process automation》為代表的自動流程化分發,但是目前的 RPA 起始於20年前,不適用於現在的媒體方式和交互內容,需要在文字、圖像和視頻化處理上加以改進,才能和 GPT 完美匹配。

張烜對 AI科技評論透露,這是 GPT 影響產業的一個重要方式,也將是他接下來的創業方向。

目前,有一部分企業已經提前用上了 GPT-4,其中就包括了 Stripe、摩根士丹利和 Duolingo 等。

Stripe 團隊列出了50個潛在應用程序來測試 GPT-4,經過審查和測試,當中有15個原型被認為是集成到平臺中的有力候選者,包括支持定制、回答有關支持的問題和欺詐檢測。

摩根士丹利人員日常工作需要面對一個巨大的內容庫,涵蓋投資策略、市場研究和評論以及分析師見解等知識內容達到數十萬頁,並且這些信息大多以 PDF 格式分佈在內部網站上,需要顧問瀏覽大量信息才能找到特定問題的答案,搜索費時費力。

為此,從去年開始,摩根士丹利就引入了 GPT-3,利用 GPT 的嵌入和檢索功能,釋放內部人員在財富管理累積知識上的工作量,GPT-4 發佈後,將為面向摩根士丹利內部的聊天機器人提供支持,該計劃由摩根士丹利財富管理部門首席分析和數據官 Jeff McMillan 所在團隊領導進行,團隊項目負責人指出,GPT-4 將能夠把所有洞察力解析為一種更有用、可操作的格式。

據 McMillan 介紹,摩根士丹利財富管理在 GPT-4 引入後將分為三個部分進行,第一部分的落腳點在 GPT-4 的『幾乎瞬間訪問、處理和合成內容的非凡能力』上,即基於互聯網大量文本進行訓練,並在單詞、句子、概念和想法之間建立關系。

第二個落腳點在摩根士丹利的智力資本,摩根士丹利創立有一個獨特的內部內容存儲庫,後續將通過 GPT-4 進行處理和解析,並受公司內部控制的約束。

最後一部分在公司的人員上,摩根士丹利就 GPT-4 進行了培訓,每天有200多名員工查詢相關系統並提供反饋,盡可能實現由內部聊天機器人完成全面搜索財富管理內容。

McMillan 表示,這項工作還將進一步豐富摩根士丹利顧問與其客戶之間的關系,使他們能夠更快地幫助更多人。

Duolingo 也推出了一種由 GPT-4 提供支持的學習體驗 Duolingo Max,新增『Explain My Answer《解釋我的答案》』和『Roleplay《角色扮演》』兩大功能。

角色扮演

在 Explain My Answer 中,學習者通過在某些練習類型之後點擊一個按鈕,可以進入與 Duo 的聊天獲得答案解釋,並要求舉例或進一步說明;Roleplay 功能允許學習者與應用程序中的角色進行對話,角色覆蓋多個真實場景,包括在巴黎的咖啡館點咖啡、邀請朋友一起旅行、未來的假期計劃等。

https://openai.com/product/gpt-4

https://openai.com/contributions/gpt-4

更多內容,點擊下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。