導讀:
- 先澄清大語言模型應用的概念、再介紹國內外的主要大模型應用及進展,最後提供一些擴展閱讀材料
- 共計1500字左右,閱讀大概需要4分鐘
一、幾個容易混淆的概念
很多人,包括很多粉絲的科技博主,經常把ChatGPT和預訓練大模型混為一談,因此有必要先做一個澄清。預訓練大語言模型屬於預訓練大模型的一類,而ChatGPT、文心一言又是預訓練大語言模型的一個具體應用《如下圖所示》。
而我們今天討論的主要是預訓練大語言模型的應用,也就是我們能看得見摸得著的東西。
二、國外預訓練大語言模型典型應用
1. 大名鼎鼎的ChatGPT。OpenAI於2022年11月30日發佈了ChatGPT,背後是微軟《主要投資方》。ChatGPT一經發佈就驚艷了四方,而且僅僅2個月就突破了1億用戶,打破世界紀錄成為徹底的網紅產品。相比較而言TikTok《抖音國際版》達到1億用戶用時9個月,Instagram《照片墻》則花了兩年半的時間,Facebook當時也花了852天,可見ChatGPT有多強。
2. google:Bard。google在2023年2月9日,在巴黎發佈了Bard,是專門為對抗ChatGPT出的聊天機器人產品。然而,google給大家期望過高,這個產品發佈會上竟然不慎翻車了,出現了一個明顯的事實錯誤。大家可自行搜索百度,了解詳情。google在AI領域的領導者地位毋庸置疑,期待後續改進。
三、國內預訓練大語言模型典型應用及近期行業進展
1. 百度:文心一言。2023年3月16日百度發佈了文心一言,類似於ChatGPT的產品。百度做搜索引擎起家,是最早佈局大模型的公司之一,因此能夠實現國內率先的發佈。不過,在前一天3月15日,ChatGPT進行了迭代和發佈,給文心一言的發佈造成不小壓力。
2. 阿裡:通義千問。阿裡於4月7日發佈了『通義千問』,但並未大張旗鼓的召開新聞發佈會,而是采用了邀請客戶體驗的方式。目前通義千問已經有人體驗了,知乎上有人和文心一言做了對比測試,大家可以自行搜索。
3. 華為:盤古大模型。華為於2023年4月8日在由中國人工智能學會主辦的人工智能大模型技術高峰論壇上展示了盤古大模型的進展及其應用。不過這次是大模型,並沒有類似ChatGPT的應用出來。
4. 騰訊:混元大模型。同樣這次說的是大模型,並非ChatGPT類似的應用。騰訊總裁劉熾平表示,騰訊不會匆忙推出產品,而是將花費時間打造一個經過多次迭代後的長期發展機會。
5. 京東:ChatJD。2月5日,京東宣佈將於未來發佈類似於ChatGPT的應用——ChatJD,聚焦的是產業版。但發佈時間未知。
6. 商湯:4月10日下午舉辦了技術交流日活動,分享人工智能技術的前沿進展,並公佈其在大模型方面的最新情況。
7. 科大訊飛:科大訊飛將於5月發佈認知智能大模型。
此外,曠世、快手等也有大模型方面的佈局,近期沒有消息,這裡就不一一列舉。
四、對國內AI發展應懷有敬畏之心
不得不承認,不管是百度的文心一言還是阿裡的通義千問,跟ChatGPT相比還是有些差距的。但大可不必抱著噴的心態來看待這個問題。在中國,現在即便是大廠,做這件事情本身也挺不容易。主要有如下原因:
1. 訓練用的芯片被美國卡脖子。根據升級後的美國禁令條例,英偉達超算和雲端訓練產品A100 和H100、AMD的MI250和MI250X等GPU產品均在禁售范圍之內。尤其是Nivida H100系列,這麼強的芯片根本就不賣給中國;現在連A100都給限制了。為了曲線救國,國外芯片廠商也得是調整參數後才能賣給中國。因此,大家隻能用之前的存貨或其他算力低的芯片。《參考《美國出口管理條例》》
2. 研發成本高。根據艾瑞咨詢,ChatGPT計算資源成本很高,迭代訓練一次需要460萬美元。以及需要高端人才、科學家等研發成本。對國內公司而言,這一樣是真金白銀、每天都在燒錢。
3. 使用成本高。目前,國內的ChatGPT類應用還沒有探索出來商業化之路,每一次交互都會耗費底層大量的算力資源。畢竟研發完成以後還要跑起來的。
因此,相互理解最好,多給國內公司點個贊。模型畢竟會不斷迭代的,相信未來的產品會越來越好!我們在AI的賽道上也有自己的東西!
下期預告:
點贊數過5,就寫下一篇文章介紹國內主要大模型、發佈時間及模型參數等
《轉載註明出處即可》