文心一言發佈,和 GPT-4 差距多少。

3月15號 OpenAI 的 GPT-4 剛發佈,百度官方就在隔天下午2點於北京總部召開了新聞發佈會,跟著推出了百度新一代大語言模型、生成式 AI 產品『文心一言』。

作為百度自創建以來關注度最高的發佈會之一,所有人都在觀望國內目前在 AI 領域的產品實力。但是對比 GPT-4 ,整個發佈會看完的直接感受就是:有點東西,但不多。

文心一言發佈,和 GPT-4 差距多少。圖片來源:文心一言發佈會

01 文心一言整體技術如何

其實早在2019年3月,百度就已經發佈了預訓練模型 ERNIE1.0,也就是文心大模型。並在此後每年都會進行模型迭代,期間百度將擁有超過5500億條知識的自研知識圖譜融入到文心大模型的預訓練中,結合深度學習和海量的行業數據,如今已應用於百度搜索、信息流、智能駕駛、百度地圖等多款產品。

圖片來源:《2022中國大模型發展白皮書》百度文心行業大模型全景

昨日發佈的『文心一言』,英文名 ERNIE Bot,是目前國內第一個公開發佈基於大語言模型的生成式 AI 產品,大家可以理解成『中國的 chatGPT』。根據李彥宏的介紹,百度對其的定位並非單純的內部模型產品,而是可以賦能國內各行各業的基座型平臺。在目前國內主流廠商的大語言模型中,百度的文心大模型在產品、生態和應用領域的能力都可以稱得上全面領先,屬於國內第一梯隊的大模型技術。

圖片來源:文心一言發佈會

感興趣的可以直接觀看原直播的錄屏:

https://live.baidu.com/m/media/pclive/pchome/live.html?room_id=8117393980&source=search

就發佈會內容來看,文心一言目前包含 5 大落地場景:文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成。發佈會過程中,百度 CEO 李彥宏就此 5 方面的能力進行了演示,並稱目前已有650家企業宣佈接入文心一言生態。

圖片來源:文心一言發佈會

這邊給大家舉幾個發佈會中的演示案例,方便大家理解目前文心一言的技術水平。首先是大家對標 chatGPT 最關注的文字創作能力,按照演示內容來看,基本可以準確回答問題並提供一定的建議方案。

圖片來源:文心一言發佈會

接著在數理邏輯推理方面,針對『雞兔同籠』問題,文心一言也可以做到完整闡述做題思路提供正確答案,甚至可以判斷題目本身有錯誤的邏輯漏洞。

圖片來源:文心一言發佈會

最讓觀眾眼前一亮的,應該就是文心一言對中文語言的解讀和文化理解能力。

目前在國際市場上基於語言模型的AI聊天產品出名的有3款,分別是 OpenAI 的 chatGPT、google的 Bard 和百度剛發佈的文心一言。作為紮根在中國市場下的本土大語言模型,相較於其他兩款產品,文心一言確實在中文領域有明顯優勢,可以說是目前市面上最適合中國人使用的語言模型。

圖片來源:文心一言發佈會

在現場演示中,文心一言正確的演示了成語『洛陽紙貴』的含義和對應的經濟學理論,並為此創作了一首藏頭詩,此外對各地方言也可以順利表達。遺憾的是,李彥宏在現場承認了由於目前文心一言的英文處理能力不如中文好,所以並沒有進行實際演示,也可以推斷出百度目前並沒有在國際市場佈局的打算。

最後,文心一言也同樣具備跨模態內容理解能力,可以根據文本描述為用戶生成圖片和音頻等信息。但是根據演示內容和網友評價來看,這部分的技術含金量還有待考察。

圖片來源:知乎網友 whoishower

根據李彥宏的描述,目前人工智能的技術棧分佈主要分為 4 層:芯片層、框架層、模型層和應用層。而百度十餘年間在 AI 技術研發上陸續投入超過 1100 億元,也已經成功自研並在全棧佈局。

圖片來源:文心一言發佈會

02 GTP-4更新了哪些內容

了解了昨天發佈會的大概內容,我們再看看前天的 GTP-4更新了哪些內容。

感興趣的可以直接觀看錄屏:https://www.youtube.com/watch?v=outcGtbnMuQ

GPT-4 是大型多模態模型《large multimodal model》,相較於 GPT-3.5 最顯著的提升就是多模態理解能力。簡單理解就是文字、圖像的相互轉化。

我們之前隻能通過文字聊天的方式和 chatGPT 溝通,而如今GPT-4可以同時接受文本和圖像的信息。比如當我們給它提供一張照片,並問它圖中有什麼幽默點時,它可以準備表達出笑點在於一個過時的VGA連接器插入了現代化的小型智能手機充電端口。

圖片來源:OpenAI 官網 GPT-4 公告

又比如給它發一張照片並提問照片中有什麼不同尋常的內容,它能直接識別出一名男子正在一輛行駛中的出租車頂的熨衣板上熨衣服。

圖片來源:OpenAI 官網 GPT-4 公告

由此可見,GPT-4 能做到的遠遠並不是簡單的圖文轉換,而是真正理解了圖像中的具體內容然後進行答復。

當然最讓我震驚的是接下來的一個案例,通過拍照在草稿紙上畫的草圖,GPT-4 直接給生成了完整的網頁代碼《這應該是前端小哥哥最不喜歡的功能》。

圖片來源:GPT-4開發者直播

在此前使用ChatGPT的過程中,不少人應該都發現有時候它會回復很多看似有理有據,實則瞎編亂造的內容,尤其在讓它預測某些事件時它會產生較大的預測偏差。而在GPT-4中預測精確度相較於GPT-3.5 提升了 近 5 倍。

圖片來源:OpenAI 官網 GPT-4 公告

還有就是 GPT-4 的文本回復內容提升了八倍。體驗過舊版 chatGPT 的都知道,此前當回復內容過長時,chatGPT會進行分段回復,需要不斷的提示才能繼續發送內容,根據官方的數據,每次可以回復的內容大約相當於3072個英文單詞,而如今GPT-4的回答單詞量達到了24576個。長文本能力讓用戶在使用過程中體驗更佳,同時也在使用場景上也更加豐富。

按照 OpenAI 的官方介紹,GPT-3.5 和 GPT-4 在日常聊天場景下的差別難以被感知。但是當任務的復雜性達到足夠的閾值時,就會出現明顯差異——GPT-4 比 GPT-3.5 更可靠、更有創意,並且能夠處理更細微的指令。

圖片來源:OpenAI 官網 GPT-4 公告

03 任重而道遠

作為對標 chatGPT 的文心一言,結合 OpenAI 的官方公告來看,目前國內外在 AI 領域還存在較大的差距。

包括在昨天的發佈會開始,李彥宏就表示目前文心一言還存在很多不完美之處,之所以要盡快發佈是因為當前國內市場有著急切需求。隨後在整個發佈會過程中,李彥宏和王海峰兩位百度高層也多次承認目前產品存在不少提升的空間。

網友把百度比作GPT-4旁邊的垃圾箱

讓人摸不著頭腦的是,整個百度發佈會期間除了開頭的幾分鐘 Demo 視頻外,後續都是百度在 AI 領域的戰略佈局和規劃,基本脫離了本次發佈會的主題,導致在發佈會直播間裡,質疑和嘲諷的彈幕也是隨處可見。再者,百度發佈會並不是實機演示,而是此前錄制好的 Demo,雖然可以理解是為了避免出現意外情況,但是和 GTP-4的一人一臺電腦的朴素場景對比,難免讓大家對其真實能力表示懷疑。

結合各媒體和網友評論,大家目前對文心一言的能力都不太滿意。在發佈文心一言後,百度港股一度跌近10%,截至16日收盤,百度港股跌6.36%。

導致國內外在 AI 領域存在較大差距,是由於多方面客觀因素的影響。此前國內AI 研發的主要方向集中在分析式 AI 《Analytical AI》方面,而國外在此基礎上對於生成式AI 《Generative AI》也投入了大量的資金和研發資源。

早在 17 年,google就推出了Transformer模型:一個基於自注意力機制的全新神經網路架構,在當時發現該技術可以引發在自然語言理解能力的質變反應後,google官方就一直沒有停止在這方面的開發投入。此外,數據、算法、算力這 3 個驅動 AI 技術發展的關鍵因素也是目前國內主要的技術瓶頸。

圖片來源:2017 年Google文章《Attention is All You Need》

在基礎數據上,中國的數據中心主要面向軟件應用的程序環境,在發佈會中還特意提到『和合作夥伴打造模型』,說明目前文心一言主要定位還是面向 B 端市場,對於 C端用戶能夠觸及的內容很少。加上監管機制不完善、區域限制等問題,在這種情況下國內確實難以推動實現數據共享互通,大語言模型也難以得到優質的充分訓練。

圖片來源:《2022中國大模型發展白皮書》百度文心行業大模型

其次 AI 技術的開發在算法框架上需要很高的技術門檻,深度學習和大模型的平臺一方面要向下銜接各種硬件,同時又需要向上應用層提供專業且豐富的技術組件,降低模型開發的學習門檻。加上不同場景下需要技術廠商開發不同的算法模型,不管在資金投入還是高算力的 GPU 上中小企業都難以負擔。

因為各方面需要投入的高額成本,加上當時對研發結果的不確定性,這才導致國內企業並沒有在AI 領域繼續深入,與國外的技術差距不斷拉大。

04 總結

當然,目前國內對文心一言的評價過於苛刻,更多表達的是對國內外技術差距的自嘲。而百度此次發佈會本身也是有著許多正面價值。文心一言模型填充了國內目前大語言模型的空白,而能在目前被 chatGPT 席卷的國內市場主動發聲,本身也是一種負重前行的勇氣。

隨著國內也有越來越多的企業開始投入到 AI 市場中,資金投入和大量人才的湧入,再加上國內本就有著很強的商業化賺錢能力和快速迭代的效率,相信未來與國外的技術差距將會不斷縮小。