大模型開源潮流涌動開啟商業化前奏

_{<button id="in9we"><acronym id="in9we"></acronym></button>}<tbody id="in9we"><track id="in9we"></track></tbody> <span id="in9we"><pre id="in9we"></pre></span>

<th id="in9we"></th> <rp id="in9we"></rp><span id="in9we"><pre id="in9we"></pre></span>

_{<button id="in9we"></button>}

大模型開源潮流涌動開啟商業化前奏

來源：第一財經作者：時間：2023-10-16 點擊量：258

原文鏈接：https://www.yicai.com/news/101875477.html

閉源商業化的“百模大戰”暫告段落，開源大模型仍舊熱鬧。

今年7月Meta推出開源且免費的大型語言模型LLama 2后，基于該模型微調的大模型不斷涌現。此外，阿聯酋阿布扎比技術創新研究所推出大參數模型Falcon 180B，國內8、9月份推出的開源大模型則包括阿里云Qwen-7B、Qwen-14B，百川智能Baichuan2-7B、Baichuan2-13B等。近日，香港中文大學賈佳亞團隊還聯合MIT發布長文本開源大語言模型LongAIpaca，號稱全球首個70B參數長文本開源大語言模型，顯示開源之潮還在繼續涌動。

業界和學界對大模型開源感到興奮。截至發稿日，以“LLama 2”為關鍵詞在全球知名AI開源社區Hugging Face檢索模型，有超6000個結果。百川智能創始人王小川透露，截至9月初，旗下兩款開源大模型下載量超過500萬。

大模型開發者林峣（化名）告訴記者，7月他發布了基于baichuan-13B微調的大模型，沒想到8月底該模型在Hugging Face的下載量超160萬次。他還在做開源大模型微調，在與其他做大模型的技術人員交流中，他發現很多公司為了較低成本和高效率，也在基于開源模型做微調。

越來越多AI工作者和企業參與進大模型開發，悄然改變了大模型生態。不久之前，業界還在爭論誰“造輪子”（做大模型）誰“用輪子”（基于大模型開發應用），高昂的訓練成本將中小型企業擋在大模型開發的門外，似乎只能面對不低的大模型服務定價。如今，事情發生了改變。

開源潮流涌動

從GPT3.0開始，OpenAI便不“Open”了，基于GPT3.5開發的ChatGPT火爆全球后，OpenAI還推出了收費版本。一眾類GPT大模型一開始也以閉源方式呈現，不少商業公司將開發的大模型用于自身業務優化并對外開放合作。

大模型分為訓練和推理兩個過程，前者將大模型訓練成型，后者即為應用。由于訓練大模型需極大算力，開發成本高昂，業界多有關于不需“重復造輪”的討論。例如，入場做大模型后，百度創始人、董事長兼首席執行官李彥宏屢次呼吁行業聚焦大模型的應用層，稱創業者“卷大模型沒意義，卷應用機會更大”。業內另一種聲音則是通過大模型開源，在免除前期高昂模型訓練成本的情況下引入更多參與者，加速大模型生態進化。

對難以入場訓練大模型的企業而言，使用其他企業的閉源大模型服務有成本偏高的弊病。記者從使用GPT大模型服務的SaaS廠商了解到，用GPT4替代200名客服的成本達數十萬美元。

基于長遠考慮，北京智源人工智能研究院院長黃鐵軍近日接受第一財經記者采訪時則表示，技術本身不斷迭代演進，不能封閉在少數公司里，第三方參與者匯聚成洪流，將來可能成為大模型時代的技術底座，而不是變成某個公司作為運營商的形態。

在學界和業界的強勁需求下，開源之潮涌動。今年年初Meta推出LLama大模型后，一場源代碼泄露風波，促使基于LLama構建的多個大模型涌現，Meta“從善如流”，7月發布了LLama 2開源可商用版本。國內，北京智源人工智能研究院于6月發布開源可商用的悟道3.0大模型，隨后，百川智能、阿里云等進入開源大模型領域。

開源大模型涌現后，生態變化明顯。林峣向記者回憶道，LLama開源極大推動開源大模型社區繁榮，業界發現可以基于LLama用較少成本在一些場景中逼近ChatGPT的效果，隨之Ziya、Linly、Chinese-LLama-Alpaca等漢化版LLama出現，后續還出現許多原生中文開源模型。得益于生態活躍，林峣的大模型項目已發布了基于baichuan2-13b、LLama-30B、Qwen-7B等主流開源大模型微調的模型。記者所在的一個數百人大模型交流群中，每天都有從業者交流如何匹配客戶需求及開源大模型相關技術細節。

對業界而言，除免費商用、部署成本較低之外，開源大模型還有一些難以取代的優勢。林峣告訴記者，開源意味著自主可控、可在開源大模型基礎上按需自行訓練定制，使其更好應用于自身業務。而閉源模型如文心一言、訊飛星火等僅提供接口，無法再進行訓練，OpenAI的大模型提供了訓練接口，但訓練時可能涉及企業機密數據泄露問題。

使用外部閉源大模型已引發業界關于數據泄露的擔憂。此前，三星在內部使用ChatGPT等外部AI工具，曾導致機密信息外流，今年5月，有消息稱三星擔心傳輸至生成式AI平臺的數據被存儲在外部服務器上，已禁止員工使用ChatGPT、谷歌Bard等生成式AI工具。

開源之后

對大模型企業而言，開源與閉源并不矛盾，企業在開源與閉源、收費與免費之間選擇，阿里云是在閉源大模型推出后，發布了免費可商用的Qwen-14B和Qwen-4B-Chat等，百川智能則是在推出開源可免費商用的多款大模型后，9月底推出閉源大模型Baichuan2-53B，并開放該模型API接口且啟動商業化。

“廠商開源參數量較小的模型可產生影響力、構建生態，對于參數量更大的模型則可商業化。或者開源大模型廠商可收取商用授權費，或在開源模型后售賣云服務、算力、模型定制化服務。” 林峣認為，這是開源大模型廠商可能的盈利路徑。

雖然開源大模型目前還在市場競爭初期，不少模型并未收費，但業界仍有探索盈利的動作。今年6月發布的開源大模型ChatGLM2-6B一開始商用并不免費，7月，智譜AI和清華KEG實驗室才決定該模型可免費商用。同時擁有閉源大模型和開源免費大模型的百川智能、阿里云等企業，推出開源免費大模型客觀上也有打開知名度的作用。

大模型不僅在訓練時需要算力，在推理時也需要算力，記者了解到，從業者獲取開源大模型后進行微調和推理，計算量小的情況下或只需一張顯卡，商用后則免不了部署算力。云廠商可承接這部分算力需求，一批云廠商近期也聞風而動。

百度智能云此前已推出企業級一站式大模型平臺千帆，9月還發布了千帆大模型平臺2.0，將內置主流大模型數量增加至42個；騰訊云TI平臺8月接入LLama2、Falcon等超20個主流模型，支持大模型直接部署調用且可全程低代碼操作；阿里云魔搭社區也在積極接入主流大模型，包括baichuan 2系列、InternLM-20B等。

此外，目前企業使用閉源大模型服務存在一定的安全顧慮，閉源大模型不僅源代碼不被外部使用者掌控，還部署在特定的外部云服務器上，相比之下，開源大模型可定制化、可避開某些數據泄露風險的特點突出，企業可以選擇部署在自有服務器或其他終端上，這帶來了潛在商業機會。LLama 2已與高通展開合作，高通計劃2024年在旗艦智能手機和PC上支持基于LLama 2的AI部署，推出生成式AI應用，實現用戶隱私保護及個性化。

在應用大模型的問題上，隱私保護和個性化服務尤為重要。在近期第一財經記者參加的一場行業論壇上，高通AI產品技術中國區負責人萬衛星談到，AI處理的重心正向邊緣端轉移，大模型可根據終端側數據提供個性化服務，且不需依賴任何網絡連接，數據留在終端，可解決隱私問題。

或是考慮到開發者利用開源大模型微調或推理的成本，目前不少開源大模型的參數量低于GPT4等商用閉源大模型，多為70億或130億參數。有業內人士指出，這些參數較小的模型轉而在預訓練時使用大量數據，以提升最終表現，應用至垂直領域，大模型性能表現仍很強大。

上一條：中國適老家電仍處起步階段專家建議分類設計、做大規模
下一條：這個平均不到40歲的團隊，如何攻關探月探火關鍵技術關