AI大模型“狂”潮還將持續多久？訪北京郵電大學教授曾劍秋

2023-08-03 09:51:02來源：人民郵電報

【資料圖】

科技創新總是在發現問題、解決問題中前行，每一項顛覆性創新成果從來都不是水到渠成的自然發展，而是由量的積累帶來質的提升。對于人工智能大模型而言，參數規模的倍增帶來了智能涌現。當下，大模型密集發布，各大廠商紛紛加碼人工智能，這樣的大模型“狂”潮還會持續多久，發展方向是什么？針對業界關注的熱點問題，《人民郵電》報記者采訪了北京郵電大學教授曾劍秋。

AI大模型兼具“大規模”和“預訓練”兩種屬性，在海量數據上進行訓練后能夠完成一系列下游任務。曾劍秋認為，大模型帶來的顛覆性創新可以總結為：規模大、速度快、場景全。首先，參數規模上，從GPT-1的1.17億參數到GPT-3的1750億參數，大模型的參數規模動輒上千億，能夠從海量數據和知識中學習，在不同領域和場景中“輕松”完成任務。其次，得益于信息基礎設施穩步推進帶來的算力提升，大模型能夠在短時間內響應用戶并提供歸納整理后的內容，已然從聊天機器人轉變為數字助手。最后，在應用廣度方面，大模型似乎是“全才”，寫詩、編程、繪畫、解題樣樣全能，具有廣闊的應用場景。

曾劍秋認為，大模型是建立在網絡能力、數據能力和計算能力三者之上的創新應用。大模型需要在多個設備之間進行數據傳輸和參數同步，而堅實的網絡基礎為大模型提供了高效、穩定、可擴展的訓練和部署環境。數據要素作為數字經濟的核心生產要素，已成為推動產業升級、優化經濟結構和打造經濟增長點的戰略性資源。數據能力對于大模型的訓練和應用至關重要，因為大模型需要從海量數據中學習和捕獲知識以提升泛化能力。在計算能力方面，大模型需要海量的計算資源來執行復雜運算和存儲巨量參數，需要使用高性能、低功耗、高度并行的計算設備和系統（如GPU），可以說，算力是大模型訓練、人工智能發展的基礎設施。曾劍秋談到，這三種能力是大模型發展、人工智能產業進步、信息技術創新應用的“沃土”。

入局大模型的門檻主要包括基礎門檻、訓練門檻和應用門檻。曾劍秋談到，基礎門檻包括網絡能力和數據處理能力，需要具備大模型訓練計算所需的高性能服務器、GPU設備、高速網絡等。訓練門檻是指大模型的“成長”迭代需要不斷訓練，需要提供符合一定標準的高質量訓練數據，因而需要花費時間和計算資源來對數據進行清洗和預處理，從而保障數據的質量和準確性。應用門檻是指大模型的落地需要與垂直行業需求深度融合，同時，對于企業來說需要權衡收益與研發成本。

基于公有數據的大模型是通用底座，很難滿足專業場景的特定需求。曾劍秋談到，如何打通大模型技術和產業應用的“最后一公里”，找到計算資源和產業應用效果之間的平衡，是需要關注的重點課題。

大模型“熱”需要“冷”思考，要超前布局也要理性發展。曾劍秋表示，盲目跟風研發大模型不可取，當熱潮退去，留下的注定是推動人工智能技術革新、深耕垂直行業應用的數智實干家。同時，曾劍秋建議建立國家級的基礎大模型平臺，加強智算中心、超算中心等算力資源統籌，加強跨數據中心算力協同能力，從戰略高度著手，培育大模型發展基礎，構筑人工智能發展優勢。

標簽：

精彩推薦

AI大模型“狂”潮還將持續多久？訪北京郵電大學教授曾劍秋

相關閱讀

精彩推薦

閱讀排行

相關詞

推薦閱讀