文化數字化60問,文心一言 VS GPT-4誰更懂?

GPT-4驚艷亮相,國內廠商正面迎戰,對標在所難免。獲得百度文心一言和微軟Bing內測資格後,文化產業評論《ID:whcypl》精心設計了關於國家文化數字化戰略60問,全方位地考察AI的搜索、整合、研判能力和思維深度,同時也通過人機交互對國家文化數字化戰略進行深註精解。文心一言與微軟Bing之間真的有雲泥之別?誰更懂國家文化數字化戰略?結果,或許遠超你的想象。

作者 | 周旋久《文化產業評論作者、三川匯文旅體研究院研究員》

編審 | 時光

編輯 | 半島

來源 | 文化產業評論

這一周,各個圈層都註定回蕩著AI狂響曲。

3月14日,Open AI宣佈推出GPT-4,並稱其為『最先進的系統,能生產更安全和更有用的回復』。

隨後,微軟宣佈自家產品Bing《必應》已經接入了GPT-4,『確保用戶擁有最全面的副駕駛功能』。

3月16日下午,百度圍繞新一代大語言模型、生成式AI產品『文心一言』召開新聞發佈會,並強調,雖然內測過程難稱完美,但未來迭代能力和提升空間卻十分可期。

多方入局,硝煙四起,比較、嘲諷、質疑在所難免。百度開放內測邀請,文心一言與GPT-4的正面較量也抬上日程。

有人關注百度股價的跌漲,有人熱衷於找bug、尋笑料、編段子,有人就文學創作、商業文案創作、數理推算、中文理解、多模態生成五大應用場景進行對比……

在AI的秀場,玩法多樣,值得探索的還有很多。文化產業評論《ID:whcypl》便決定別開生面地與文心一言和微軟Bing來一場文化數字化的深度對話測試,圍繞中辦國辦印發的《關於推進實施國家文化數字化戰略的意見》設計了如下的60個問題,看看它們到底誰更懂國家文化數字化戰略!

問題清單:

01、國家文化數字化戰略你知道嗎?

02、國家文化數字化戰略相關的政策文件知道嗎?

03、可以深入講講你對《關於推進實施國家文化數字化戰略的意見》的理解嗎?

04、文件中涉及了八項重點任務,你認為這些任務之間是怎樣的關系呢?

05、文件中提到『中華文化數據庫』,可以解釋一下嗎?

06、中國有哪些已建或在建文化專題數據庫呢?

07、還有嗎?再舉一些在建的例子。

08、這些數據庫要如何關聯和共享呢?部署原則是什麼?

09、『物理分佈、邏輯關聯』原則是什麼意思?

10、可以舉一些『底層關聯服務引擎和應用軟件』的例子嗎?

11、中國現在有哪些企業可以做底層關聯服務引擎和應用軟件呢?

12、『夯實文化數字化基礎設施』具體指什麼設施呢?

13、文件中提到要『建設國家文化大數據體系全國中心』,你認為應該如何做?

14、建設國家文化大數據體系全國中心的先決條件是什麼?

15、你認為目前哪些條件已經具備,哪些還需要加強?

16、中國目前有哪些文化數字化基礎設施成果呢?

17、當前中國文化數字化基礎設施建設的不足是什麼,未來要怎麼做?

18、什麼是『建設具備雲計算能力和超算能力的文化計算體系』?

19、你知道哪些雲計算和超級計算機平臺嗎?

20、李彥宏在百度文心一言發佈會上說,『以後的應用會建立在大模型上,而不是建立在過去的雲計算的這些算力或者存儲上。』你認可他的說法嗎?

21、怎麼理解『搭建文化數據服務平臺』?

22、文化數據中心要怎麼做才能貫通各類文化機構的數據資源呢?

23、中國目前的國家文化專網建設處於一個什麼階段?你有什麼建議嗎?

24、目前中國各地區有哪些針對建設國家文化專網的政策或舉措呢?

25、你能給我介紹一下其他國家或地區的類似國家文化數字化戰略的措施或項目嗎?

26、你覺得這些項目有什麼優點或不足?

27、什麼叫做『數據超市』,有相應的例子嗎?

28、文件中提出要『促進文化機構數字化轉型升級』,這是什麼意思?

29、但是文件中解釋的是『推動文化機構將文化資源數據采集、加工、挖掘與數據服務納入經常性工作,將凝結文化工作者智慧和知識的關聯數據轉化為可溯源、可量化、可交易的資產,分享文化素材,延展文化數據供應鏈』,什麼叫做『經常性工作』?什麼叫做『文化數據供應鏈』?

30、各類文化機構在接入國家文化專網過程中有哪些問題和阻礙呢?

31、文化資源數據的標準、格式問題是一個很重要的問題,中國目前做了哪些努力呢?

32、你覺得這個標準體系起到作用了嗎?具體應用效果如何?存在什麼不足呢?

33、能舉一些國際上的標準案例嗎?如何與國際接軌?

34、但國際標準是否可能不符合中國實際呢?如何平衡國際化與本土化呢?

35、你覺得目前哪些國際標準比較適合中國參考或采用?

36、怎麼理解『發展數字化文化消費新場景』,可以舉例說明一下嗎?

37、數字孿生技術是什麼?應用場景有哪些呢?

38、你覺得中國在這些數字化文化消費新場景上取得了哪些成果?

39、和國外相比呢?有哪些差距?

40、可以具體說說國外現在在數字創意產業上的領先之處嗎?舉一些例子。

41、可以舉一些國內外『利用現有公共文化設施,推進數字化文化體驗』的例子嗎?

42、那你覺得『美術館、影劇院、新華書店、農家書屋』等公共文化設施要怎麼改進,推進數字化文化體驗呢?

43、怎麼理解文件中的『提升公共文化服務數字化水平』?

44、評價一下中國目前公共文化數字內容的供給能力。

45、『通過數字化手段促進城鄉公共文化服務一體化發展』,具體有哪些手段和案例呢?

46、什麼是『加快文化產業數字化佈局』?

47、當前,圖書、報刊、電影、廣播電視、演藝等傳統業態都面臨著升級轉型,你認為這些傳統業態分別面臨著哪些難題?

48、我對圖書數字化很感興趣,可以說說新型圖書產品的案例嗎?如果圖書多媒體、互動化,那是不是跟廣播劇、視頻有關系了呢?圖書的本質改變了嗎?

49、你了解電影的線上發行嗎?你覺得這會替代原有線下影院嗎?

50、文件指出要『在文化數據采集、加工、交易、分發、呈現等領域,培育一批新型文化企業』,現在中國有哪些可稱為新型文化企業呢?

51、你能舉出具體的企業嗎?它們都分別在哪一領域處於前沿,你現在所說的更像是案例。

52、就你看來,第十四屆『全國文化企業30強』呈現了什麼特點嗎?比如領域集中度?企業屬性?這反映出中國新型文化企業的什麼問題?

53、為什麼在這些企業中,比較少有充分展示『文化+科技』力量的數字文化企業呢?

54、『構建文化數字化治理體系』包含哪些方面呢?

55、什麼是『文化市場綜合執法體系』?

56、你認為中國在『構建文化數字化治理體系』上,在哪些方面做得不錯,在哪些方面需要加強?

57、推進實施國家文化數字化戰略的主要目標是『中華文化全景呈現』,怎麼解釋?

58、你覺得中國達到這個目標面臨著哪些挑戰,又有哪些優勢?

59、中國將實現目標的時間設置在2035年,你覺得這十多年,文化數字化可能會給世界帶來怎樣的沖擊與巨變?

60、就當下而言,你認為ChatGPT、文心一言等語言大模型的出現,是否會影響中國國家文化數字化建設進程?

上述問題包含了名詞解釋、搜索整理、對比思辨、理解闡釋、主觀評價、預測展望等多種問答類型,全方位地考察了AI的搜索、整合、研判能力和思維深度。

由於問題數量較多,回答篇幅也較長,因此文化產業評論《ID:whcypl》在此選取一些了具有代表性、對比性和獨特性的回答進行展示。

Ai對話錄

01、國家文化數字化戰略你知道嗎?

△微軟Bing《搭載GPT-4》

△百度文心一言

文化產業評論:這一問題Bing與文心一言在整合回答上都沒有太大問題,但Bing的回答相對來說更加切中要點。這裡我們也發現文心一言回答中出現了『傳播播體系系』這樣的bug,似乎在意料之中。

02、國家文化數字化戰略相關的政策文件知道嗎?

文化產業評論:這一題有關政策搜索。Bing就詢問的內容給了兩個相關答案,而文心一言就一個政策進行了內容闡釋。總體來說,Bing的回答更符合題中要求。

04、文件中涉及了八項重點任務,你認為這些任務之間是怎樣的關系呢?

文化產業評論:這是一個理解闡釋型的問題,有關文化數字化戰略八大任務之間的內在關系。從回答上來說,兩個都答到了相輔相成的核心要點,但顯然Bing的回答更能揭示幾者之間的內在聯系,而文心一言的回答是較為籠統的。

06、中國有哪些已建或在建文化專題數據庫呢?

文化產業評論:這一題還是一道搜索型的題目。而這次文心一言的回答明顯更勝一籌,針對題目中所說的文化專題數據庫,竟然給出了8條相關信息,而且看起來也恰有其事。但缺點也很明顯,Bing給出的信息均有索引,而文心一言給出的條目卻無法索引,難以判斷是真實存在還是胡編亂造。

08、這些數據庫要如何關聯和共享呢?部署原則是什麼?

文化產業評論:這一題承接上文,詢問的是數據庫關聯和部署原則,從答案上說,Bing的回答更多圍繞著政策展開,文心一言的回答則更發散,闡釋的內容也更多。不過總體而言,可以說都不專業,並沒有真的提現出目前在推進的措施。

14、建設國家文化大數據體系全國中心的先決條件是什麼?

文化產業評論:關於建設國家文化大數據體系全國中心的先決條件,雖然都是表面的內容《甚至片湯話》,但Bing與文心一言的回答側重點不同。Bing側重於數據展開,而文心一言則是面面俱到式的回答。在下一題『你認為目前哪些條件已經具備,哪些還需要加強?』中,文心一言再次重復了這套論述,Bing則給出了新的答案。這也顯示出兩者對於關鍵詞抓取和理解還存在一定的差距。

20、李彥宏在百度文心一言發佈會上說,『以後的應用會建立在大模型上,而不是建立在過去的雲計算的這些算力或者存儲上。』你認可他的說法嗎?

文化產業評論:這一題涉及到主觀評述,Bing的回答相當地精簡和適宜,而文心一言雖然稍有囉嗦,但也展現了較強的理解輸出能力。

23、中國目前的國家文化專網建設處於一個什麼階段?你有什麼建議嗎?

文化產業評論:這一題最重要的是對『階段』這一詞的理解,Bing的問題相對更準確,而文心一言則回到了說囫圇話,泛泛而談的狀態。不過,Bing在回答中所引的《關於加快推進廣播電視網路融合發展促進5G時代信息消費擴容增效的指導意見》並不存在,這也是GPT始終存在的糅合信息,說瞎話問題。

25、你能給我介紹一下其他國家或地區的類似國家文化數字化戰略的措施或項目嗎?

文化產業評論:這一題考察的是AI對海外信息的搜索整合能力。從國家信息來源可以看到,Bing的信息覆蓋范圍應該是全球性的,而文心一言提供的信息都出自東亞國家。

29、文件中解釋的是『推動文化機構將文化資源數據采集、加工、挖掘與數據服務納入經常性工作,將凝結文化工作者智慧和知識的關聯數據轉化為可溯源、可量化、可交易的資產,分享文化素材,延展文化數據供應鏈』,什麼叫做『經常性工作』?什麼叫做『文化數據供應鏈』?

文化產業評論:在上文中考察了兩者對『促進文化機構數字化轉型升級』的理解,緊接著詢問對兩個具體關鍵詞的解釋。可以看到,無論是Bing還是文心一言,其實回答得都還不錯,沒有缺漏。

31、文化資源數據的標準、格式問題是一個很重要的問題,中國目前做了哪些努力呢?

文化產業評論:這一問題關於國家文化大數據標準的制定,Bing與文心一言的回答顯示出了明顯差異。Bing的回答均聚焦於標準和格式,而文心一言卻把重點放到了文化機構數字化轉型升級。很明顯,我們更想要的是Bing式的回答。而且文心一言提到的《文化數據管理辦法》、國家文化雲等,目前並不存在。

44、評價一下中國目前公共文化數字內容的供給能力。

文化產業評論:此題關乎主觀評價,從回答的完整性來說,文心一言做得更好,既給出了評價、原因,還提出了措施。Bing的回答雖然較為簡略,但是更具有特點的概括性。

47、當前,圖書、報刊、電影、廣播電視、演藝等傳統業態都面臨著升級轉型,你認為這些傳統業態分別面臨著哪些難題?

文化產業評論:此題考察的重點仍然是關鍵詞提取——『分別』。很明顯,Bing就圖書、報刊、電影、廣播電視、演藝等傳統業態均進行了評述,而文心一言則漏掉了『分別』,將傳統業態放在一起囫圇解釋。

48、我對圖書數字化很感興趣,可以說說新型圖書產品的案例嗎?如果圖書多媒體、互動化,那是不是跟廣播劇、視頻有關系了呢?圖書的本質改變了嗎?

文化產業評論:這道題的難點在於題目中提出了三個問題,需要對應作答。從回答上看,Bing無疑是完美的,沒有漏掉題目中的每一點,甚至還正面回答了頗具刁難度的『本質』問題。而文心一言僅回答了第一個問題,但內容質量還是不錯的。

57 推進實施國家文化數字化戰略的主要目標是『中華文化全景呈現』,怎麼解釋?

文化產業評論:此題是對『中華文化全景呈現』核心目標的理解。文心一言一如既往地發揮了長文字長闡釋的特點,而Bing仍然以簡答為主。至於哪個回答更令人滿意,還是要看提問者的應用場景是什麼。

58、你覺得中國達到這個目標面臨著哪些挑戰,又有哪些優勢?

文化產業評論:這一問題的要點在於要對中國文化數字化建設進行整體的評判,從對話感來看,Bing的回答雖然簡略,但更像是一個人在跟你做交流,而文心一言則像是一個面試者,分點回答問題。

59、中國將實現目標的時間設置在2035年,你覺得這十多年,文化數字化可能會給世界帶來怎樣的沖擊與巨變?

文化產業評論:『這是一個很有前瞻性的問題』,Bing如是評價道。這個問題Bing與文心一言都各有優點,差距並不大。

60、就當下而言,你認為chatgpt、文心一言等語言大模型的出現,是否會影響中國國家文化數字化建設進程?

文化產業評論:此題是一個預測理解型問題,文心一言從積極的方面進行闡述,而Bing則從正反兩面都進行了闡述,從視角的多元性來說更勝一籌。

總結

文心一言發佈前後,網路上流傳著一些梗圖,比如:

百度CEO李彥宏更是在發佈會上直言,『大家的期望值是要對標ChatGPT,甚至要對標GPT-4,這個門檻還是很高的。』

發佈會期間,百度港股股價甚至一度下跌10%至120.1港元。

這一切跡象似乎都在說明,文心一言真的——不太行。

而百度開放內測,也進一步激發了大家對標和證實的興趣。

有趣的是,內測開放後,一夜之間,外界的態度就開始分化。不少試用者說『遠超預期』,資本市場也給出了正向反饋,百度股價開始回升。

從文化數字化戰略60問的測試中也不難看出,文心一言與GPT-4之間,雖然存在不小的差距,但並沒有雲泥之別,天懸地殊。從關鍵詞的抓住、理解,靈活表達而言,微軟Bing無疑是更具優勢,在應對多個問題時也能做到條理清晰。但文心一言在搜索整合信息時,明顯更有中文語料的優勢,可以獲取到多段信息,很多闡述也相對完整。從缺點來說,微軟Bing最大的問題是可能會提供較多虛假信息,造成信息污染,而文心一言的缺點則是對問題還缺乏全面的理解,會漏掉要點,表達時也經常泛化冗長,信息凝聚力不強。

但正如李彥宏所說,『大語言模型這種產品一旦發佈出來,就會獲得真實的用戶反饋,有了用戶的反饋,它的迭代速度、能力提升就會非常快。』作為中國首個AI大語言模型,文心一言既是百度未來戰略中的重磅武器,也是承載中國科技榮光的智能產品,面對真實的應用場景和強大的對標對手,它當然還有很長的路要走。但是,只要在向前奔行,就不會沉睡無聲。