GPT-4模型特征與訓練信息最新解讀（收錄於GPT-4/ChatGPT技術與產業分析）。

文章目錄

陳巍談芯：本文將以OpenAI GPT-4 技術報告為基礎，介紹GPT-4的特征和訓練信息。作者本人曾擔任華為系自然語言處理《 NLP 》企業的首席科學家。

在2023年3月14日，OpenAI發佈了他們最新的NLP大作，GPT-4。《大概是致敬圓周率？》GPT-4的技術報告裡把OpenAI團隊作為唯一作者。《當然Altman特別提到了Jakub Pachocki在預訓練方面突出的領導能力和技術遠見》參與項目的有數百人，堪稱新時代的AI登月工程。

GPT-4更多深入技術解讀，請看

1 能看明白圖梗的大型多模態模型

與ChatGPT稍有不同，GPT-4 是一個大型多模態模型《輸入圖像和文本，輸出文本輸出》。其中GPT是生成式預訓練模型的縮寫。大型多模態模型可以廣泛用於對話系統、文本摘要和機器翻譯。一般情況下，大型多模態模型包括額外的視覺語言模型組件《VLM》。

GPT-4實際上是在去年8月完成訓練的，直到2023年3月14日才發佈。在發佈之前，OpenAI一直在對該模型進行對抗性測試和改進。《防止GPT-4亂噴》。

GPT-4的內容窗口能支持多達32,000個token《相當於24000單次或48頁文本》

GPT家族內容窗口對比

但更為有趣的是GPT-4已經能看懂一些圖梗了，不再僅僅是對話助手。當然這離大家期待的看懂視頻還有一段距離。

2 名為GPT-4的考試小能手

據OpenAI介紹，雖然目前GPT-4在現實場景中的能力可能不如人類，但在各種專業和學術考試上表現出明顯超越人類水平的能力，包括大家熟悉的GRE考試，堪稱考試小能手。

這對孩子們是不是一個壞消息？例如，GPT-4在模擬律師考試中，分數排在應試者的前 10%左右。《估計律師們要首先抓狂》GPT-4也優於現有的其他語言模型。相比之下，GPT-3.5 的得分則在倒數10% 附近。如果GPT-4來做中國的高考卷，是不是能上北大清華了？甚至斯坦福博士說GPT-4已經可以考上斯坦福了。

斯坦福博士表示GPT-4已經可以考上斯坦福

典型的成績包括：

SAT《美國高考》： 1410/1600《前 6%》。

美國統一律師資格考試(MBE+MEE+MPT)：298/400《前 10%》。

AP《美國大學預科考試》：生物學、微積分、宏觀經濟學、心理學、統計學和歷史的大學預修高中考試：100% (5/5)。

GPT-4在專業考試中分數名列前茅

3 GPT-4的技術特征和不足

與ChatGPT類似，GPT-4 也是一種基於 Transformer 的大模型，支持多國語言，經過預訓練可以預測或自動生成文本。

OpenAI表示，對GPT-4而言，訓練後的對齊《Alignment》是提高性能和改善體驗的關鍵。從技術上看，人類反饋強化學習《RLHF》微調仍然是GPT-4的要點。考慮到LLM領域的競爭格局和 GPT-4 等大型模型的安全隱患，OpenAI暫時還未公佈GPT-4的模型架構、模型大小、訓練技術。

GPT-4解讀圖片《原文為英文，由作者翻譯為中文》

相對於GPT-3.5和其他大語言模型，GPT-4在復雜任務上表現出更可靠、更有創意，並且能夠處理更細微的指示的關鍵特征。

GPT-4 可以接受文本和圖像提示，並允許用戶指定任何視覺或語言任務。例如，GPT-4可以在給定由分散的文本和圖像組成的輸入的情況下反饋文本輸出《例如自然語言、代碼等》。在帶有文本和照片的文檔、圖表或屏幕截圖方面，GPT-4 也駕輕就熟。此外，GPT-4包括few-shot和思維鏈提示。對於公眾來說，圖像輸入仍然是僅供內部研究預覽，並不公開。而且，這次GPT-4直接整合入Bing搜索引擎之中。《Google壓力有點大啊》

GPT-4也有一些不足，例如仍然會一本正經的胡說八道，上下文連續對話輪次有限，並且無法從經驗中學習。因此如果不對GPT-4的使用進行安全性限制，GPT-4可能會產生大量的認知偏差、虛假信息，甚至侵犯個人隱私。另外，由於數據集時效的原因，GPT-4缺乏對 2021年9 月之後的事件的了解。GPT-4有時會犯一些簡單的推理錯誤，也可能會像人類一樣在技術難題上出現錯誤，例如GPT-4可能在生成的代碼中引入安全漏洞。

相比ChatGPT，GPT明顯在解決數理問題上有所提升，都能解包含圖文的物理題了。《熊孩子的暑假作業有救了》

GPT-4解物理題

4 GPT-4的訓練信息

OpenAI表示，在過去2年的GPT-4的研發中，超算和訓練技術表現出至關重要的價值。《據稱是數百人搞2年》

OpenAI與Azure的超算團隊一起，共同設計了針對大模型訓練的超級計算機，為GPT-4的訓練提供了關鍵的算力支撐和研發加速。《微軟爹的鈔能力》 OpenAI在GPT-4技術報告中，甚至把Supercomputing lead和Infrastructure lead的排名放在了預訓練模型團隊的最前面。

大模型算力集群架構

並且OpenAI的團隊從理論基礎層面進行了優化，改進了GPT-3.5的一些bug，使得GPT-4能夠以前所未有的進行穩定高速的訓練。這方面可以看出OpenAI團隊的數學和計算理論功底。

從技術報告描述的模型訓練過程來看，GPT-4的訓練與GPT-3.5類似。包括SFT的預訓練、基於RLHF的獎勵模型訓練和強化學習的PPO算法微調。與之前的GPT模型不同的是，OpenAI使用基於規則的獎勵模型 (RBRM) 在PPO 微調期間向 GPT-4 提供額外的獎勵信號。

GPT-4訓練流程《基於GPT-4技術報告繪制》

GPT-4訓練數據集《筆者預測》

GPT-4的訓練數據集是基於GPT-3和GPT-3.5的訓練數據集構建的，並在兩者基礎上增加了多模態數據集。GPT-4 的數據收集是由 Wojciech Zaremba《數據集團隊經理》和 Qiming Yuan《數據集采購和處理負責人》領導的一項艱巨任務。數據集貢獻來自一個由 30-50 名 OpenAI 員工組成的團隊，並另外從第三方網站雇傭了固定的50-100名標註員。

根據GPT-4的技術報告，可以分析GPT-4的多模態數據集包括圖表推理、物理考試、圖像理解、論文總結、漫畫圖文等不同類型。目前GPT-4的多模態算法還處於實驗中，並未對公眾開放。

5 GPT-4的安全性技術

OpenAI投入了大量資源來提高 GPT-4 的安全性和一致性。包括引入領域專家進行對抗性測試和紅隊測試，模型輔助的安全流水線以及安全指標的改進。OpenAI引入的領域安全專家達到了50多人，覆蓋AI一致性風險、網路安全、生物風險等領域。

與ChatGPT一樣，OpenAI使用強化學習和人類反饋 (RLHF) 來微調模型的行為，以產生更符合用戶意圖的響應。但當給定不安全的輸入時，模型可能會生成不良內容，例如提供有關犯罪的建議。另外，模型也可能對安全輸入變得過於謹慎，拒絕無害的請求。

GPT-4的安全流水線包括兩個主要部分：一組額外的安全相關 RLHF 訓練提示，以及基於規則的獎勵模型 (RBRM)。RBRM是一組zero-shot GPT-4 分類器。這些分類器在 RLHF 微調期間為 GPT-4 策略模型提供額外的獎勵信號，以正確的輸出行為為目標進行訓練，例如拒絕生成有害內容或不拒絕無害的請求。

技術報告地址：

作者簡介：陳巍博士

存算一體/GPU架構和AI專家，高級職稱。中關村雲計算產業聯盟，中國光學工程學會專家，國際計算機學會《ACM》會員，中國計算機學會《CCF》專業會員。曾任AI企業首席科學家、存儲芯片大廠3D NAND設計負責人。

相關閱讀參考———————————

————————————————

1 能看明白圖梗的大型多模態模型

2 名為GPT-4的考試小能手

3 GPT-4的技術特征和不足

4 GPT-4的訓練信息

5 GPT-4的安全性技術

2022年大學生做什麼能賺錢。

用ChatGPT 一句話生成可視化圖表。