距離百度3月16日文心一言發佈會已經半月有餘,在這段時間裡我們也從各種渠道或多或少地了解到文心一言的一些表現,尤其是在畫畫方面的一些回答,已經作為段子在互聯網廣為流傳。而就在前兩天,我們也終於拿到了文心一言的體驗資格,接下來我們將通過幾個場景化任務來測試一下百度的大語言模型在當下究竟表現如何,是否真的有人們說的那麼不堪。
圖為當前測試的版本信息
1.中文理解
首先,作為國產的大語言模型,基於大量的中文語料訓練,對中文的理解一定是我們比較關心的問題。在發佈會上,百度也特意強調了這一點。那麼,在實際表現中,文心一言與國外的大語言模型在中文理解上的差距究竟如何呢:
文心一言:
ChatGPT:
結果還挺令人意外的。在我們詢問『推敲是什麼意思』時,文心一言不但解釋了『推敲』的含義,還講述了這個詞的來源並提供例句,而ChatGPT在詞義的理解上沒有問題,但一旦追問由來,又開始胡編亂造了。
2.文字創作
第二個場景,我們選擇了目前在ChatGPT上用的比較多的文字創作:
文心一言:
ChatGPT:
在本次生成的文字中,可以看出二者在遣詞造句和行文的結構上都還是比較接近的,都是一個總分總的結構。區別在於文心一言隻說了好的影響而ChatGPT考慮更為全面,還提到了一些負面的擔憂。當然,我這裡測試使用的prompt比較簡單,而這個差異是可以通過細化prompt來消除的,總體而言,在文字生成方面,文心一言的表現還是可用的。
3.實時信息
我們知道,ChatGPT的訓練數據截止到2021年9月,對於近兩年發生的事情ChatGPT是一竅不通隻能胡編,那麼文心一言在實時信息的查詢上又表現如何呢?
文心一言:
ChatGPT:
事實上,RTX 4090是在2022年10月左右公佈的,因此在這個問題上,ChatGPT是『兩眼一黑』,而文心一言看似提供了一個相對完整的答案,但細細一看就發現裡面還是存在著錯誤的信息《價格和實際差距很大》,顯然相關的信息也沒有得到及時更新。
在此基礎上,我們又做了進一步的嘗試,發現文心一言同樣無法實時訪問互聯網信息,而且對於不同的問題其訓練數據的截止時間也參差不齊,比如在查詢京東顯卡價格中最近數據是2022年11月17日的,而在天氣的查詢中又能夠做到基本的實時。可以看出其訓練的數據確實是在動態更新的,而且會根據場景有所側重。
4.邏輯推理
邏輯題一直都是這種大語言模型最容易犯錯的地方,我也選了一道流傳較廣的ChatGPT經典錯題來對文心一言進行測試:
文心一言:
ChatGPT:
在第一個問題中,文心一言的表現完爆了ChatGPT,但是在第二個問題中,兩者都回答錯誤了,而且文心一言還忽視了prompt中的要求,仍然展示了計算過程《實際上算上買的5個,7+5=12和ChatGPT答案一致,可以推測兩者計算錯誤的點,即把吃掉的蘋果從-1算成+1,也是相同的》。不知道大家覺得這個表現是否可以接受呢?
5.AI繪畫
最後是大家都喜聞樂見的AI繪畫場景,由於ChatGPT暫時無法生成繪畫,因此這裡我們使用微軟的NewBing進行對比。NewBing的繪畫生成由DALL-E提供支持,這也是GPT4使用的模型,同為OpenAI開發。
《圖源:網路》
對於之前網路上傳的比較火的這些案例,我們也嘗試進行了復刻,具體表現如下:
可以看到在網友們的調侃下已經連夜修改了。當然,作為一種人民群眾喜聞樂見的藝術形式,百度也留了一個窗口,只要在prompt的結尾加上#創意圖#,就能解鎖原先的效果。
除開這種段子型的繪畫,在一些正常的繪畫場合,文心一言的表現又如何呢?之前Midjourney V5有一幅作品很讓人驚艷,我們找到了他的prompt,來看看在文心一言和NewBing中的表現如何:
《出自Midjourney V5 圖源:網路》
文心一言:
本來想控制變量的,無奈直接被拒絕,隻好翻譯成中文來進行。
第一版出來效果我不太滿意,於是加入了一些關鍵詞嘗試修正繪畫風格,但最終結果仍然沒有明顯的變化。顯然在這個領域文心一言目前的訓練還十分有限,有很大的進步空間。我們再來看看NewBing裡DALL-E的表現:
NewBing:《繪畫暫時隻接受英文描述》
這邊的效果乍看一下就好太多了,而且還是在沒有太多關鍵詞修飾的情況下。但是如果把圖片放大:
五官的細節就有點不堪入目了,甚至是嚇人,和Midjourney V5的效果差距較大,果然繪畫這塊目前還得是Midjourney。
總結
以上就是我們對百度文心一言當前的一個性能表現的測試,不知道大家感覺如何,是否未來可期呢?
就我個人感受而言,文心一言雖然目前性能肯定和GPT4沒辦法相提並論,但如果後續可以免費開放的情況下,和同為免費的ChatGPT《GPT-3.5》還是在很多場景中可以一較高下的。而且文心一言最大的優勢顯然在於可以讓國內更多人更輕松地使用上,畢竟搜索引擎都說google好用大部分人也都在用百度,有些時候確實是存在一些中國國情的。
另外,最近我們也拿到google的大語言模型Bard的測試資格,但是Bard目前隻能接受英文輸入和輸出,如果大家感興趣後續也會給大家做相應的評測,敬請期待。
想要了解具體如何通過指令和提示的輸入完成一個完整的模型開發流程,想要了解這個過程中可能會遇到哪些問題以及解決方案,那麼千萬不要錯過我們ChatGPT俱樂部全新打造的的專題課程《ChatGPT提示詞技巧與行業實戰應用》,本周研發更新的課程章節:ChatGPT在模型開發上的應用。
幫助你快速上手,這也是你加入ChatGPT俱樂部的門票,會員俱樂部才是我們一起長久探索的開端!