李飛飛團(tuán)隊(duì)嘗試將模型成本“打下來(lái)”的背后,開(kāi)源、數(shù)據(jù)和技術(shù)的突破都是關(guān)鍵環(huán)節(jié)。
近日,有消息稱,華裔科學(xué)家、“AI教母”李飛飛的團(tuán)隊(duì)研究人員以不到50美元的費(fèi)用訓(xùn)練了一個(gè)能力比肩DeepSeek-R1的s1模型。記者從相關(guān)人士處了解到,這個(gè)s1模型的訓(xùn)練并非從零開(kāi)始,而是基于阿里云通義千問(wèn)(Qwen)模型進(jìn)行監(jiān)督微調(diào)。
李飛飛團(tuán)隊(duì)發(fā)表的公開(kāi)論文顯示,基于 Qwen2.5-32B-Instruct 語(yǔ)言模型進(jìn)行監(jiān)督微調(diào)后的 s1-32B 模型,在競(jìng)賽數(shù)學(xué)問(wèn)題上的表現(xiàn)超過(guò)了 o1-preview,最高提升了 27%(MATH 和 AIME24), 取得了與OpenAI的o1和DeepSeek的R1等尖端推理模型數(shù)學(xué)及編碼能力相當(dāng)?shù)男Ч_@個(gè)過(guò)程中,李飛飛團(tuán)隊(duì)主要使用了一個(gè)包含 1000 個(gè)問(wèn)題及其推理軌跡的小型數(shù)據(jù)集 s1K并開(kāi)發(fā)了預(yù)算強(qiáng)制(budget forcing)技術(shù)延長(zhǎng)模型思考,以超低成本構(gòu)建了一個(gè)高質(zhì)量模型。
如何用最簡(jiǎn)單的方法實(shí)現(xiàn)模型測(cè)試時(shí)擴(kuò)展(即允許人工智能模型在回答問(wèn)題之前進(jìn)行更多思考)和強(qiáng)大推理性能?李飛飛團(tuán)隊(duì)嘗試將模型成本“打下來(lái)”的背后,開(kāi)源、數(shù)據(jù)和技術(shù)的突破都是關(guān)鍵環(huán)節(jié)。
如何實(shí)現(xiàn)?
從技術(shù)的角度來(lái)看,李飛飛團(tuán)隊(duì)證明的是數(shù)據(jù)樣本的高質(zhì)量以及簡(jiǎn)單的測(cè)試時(shí)間擴(kuò)展可能帶來(lái)的模型訓(xùn)練效率大幅提升。
根據(jù)公開(kāi)論文,研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)由 1000 個(gè)經(jīng)過(guò)精心篩選的問(wèn)題組成的 S1K 數(shù)據(jù)集,這些問(wèn)題配有從 Gemini Thinking Experimental提煉出的推理過(guò)程和答案。基于這個(gè)數(shù)據(jù)集,對(duì)Qwen2.5-32B-Instruct 語(yǔ)言模型進(jìn)行監(jiān)督微調(diào),李飛飛團(tuán)隊(duì)僅在 16 個(gè) H100 GPU 上花 26 分鐘完成了模型訓(xùn)練。
事實(shí)上,這僅包含1000個(gè)問(wèn)題的數(shù)據(jù)集遠(yuǎn)低于行業(yè)通常的大模型訓(xùn)練數(shù)據(jù)量,李飛飛團(tuán)隊(duì)印證的是高質(zhì)量、高難度和多樣性數(shù)據(jù)所帶來(lái)的強(qiáng)大“張力”。研究人員首先遵循質(zhì)量、難度和多樣性三個(gè)原則從16個(gè)不同的來(lái)源收集來(lái)59029個(gè)問(wèn)題,包括現(xiàn)有的數(shù)學(xué)問(wèn)題數(shù)據(jù)集、以及研究人員自己創(chuàng)建的概率問(wèn)題集、腦筋急轉(zhuǎn)彎問(wèn)題集,再進(jìn)行樣本檢查、篩選掉格式不佳的數(shù)據(jù)集,選擇推理鏈路長(zhǎng)的問(wèn)題,才最終創(chuàng)建了這個(gè)包含50個(gè)不同領(lǐng)域的小數(shù)據(jù)集。
2024年,李飛飛曾在接受媒體采訪時(shí)反駁“人工智能模型正在耗盡用于訓(xùn)練的數(shù)據(jù)”這一觀點(diǎn),她認(rèn)為當(dāng)前AI訓(xùn)練數(shù)據(jù)并不存在短缺的問(wèn)題,仍有大量的差異化的數(shù)據(jù)等待挖掘。她強(qiáng)調(diào)的是,高質(zhì)量數(shù)據(jù)正變得前所未有的重要,創(chuàng)建高質(zhì)量的數(shù)據(jù)集是人工智能研究的核心。
另一方面,李飛飛團(tuán)隊(duì)還在S1模型的訓(xùn)練中開(kāi)發(fā)了一項(xiàng) “預(yù)算強(qiáng)制” 技術(shù)來(lái)控制模型在測(cè)試時(shí)所花費(fèi)的計(jì)算量,來(lái)影響模型的推理深度和最終答案。
簡(jiǎn)單來(lái)說(shuō),這個(gè)“預(yù)算強(qiáng)制”分為兩種情況:若模型生成的推理token超過(guò)設(shè)定的上限,則強(qiáng)制結(jié)束推理過(guò)程,并附加思維結(jié)束(end-of-thinking)token,促使模型進(jìn)入答案生成階段。若希望模型在問(wèn)題上投入更多測(cè)試時(shí)計(jì)算資源,則抑制思維結(jié)束token的生成,并在推理軌跡中追加 「Wait」,鼓勵(lì)模型進(jìn)行更深入的推理探索。研究團(tuán)隊(duì)表示,他們驗(yàn)證了這種方法還可以使模型重新檢查其答案,通常能修正錯(cuò)誤的推理步驟,提高推理性能。
目前,s1模型及其訓(xùn)練數(shù)據(jù)和代碼已在GitHub上開(kāi)源,研究團(tuán)隊(duì)表示,他們希望能夠激發(fā)未來(lái)關(guān)于簡(jiǎn)單推理的研究。
開(kāi)源大模型的進(jìn)擊
隨著大模型“燒錢(qián)”的降溫,如何用更低的成本訓(xùn)練高性能模型,正在成為業(yè)內(nèi)的關(guān)注重心之一。
與李飛飛團(tuán)隊(duì)所做的“監(jiān)督微調(diào)”不同的是,此前,DeepSeek在發(fā)布DeepSeek-R1時(shí),還通過(guò) DeepSeek-R1 的輸出,蒸餾了 6 個(gè)小模型開(kāi)源給社區(qū)。DeepSeek表示,基于Qwen-32B和Llama-70B蒸餾的模型,在多項(xiàng)能力上實(shí)現(xiàn)了對(duì)標(biāo) OpenAI o1-mini 的效果。
一位業(yè)內(nèi)人士對(duì)記者表示,無(wú)論是李飛飛團(tuán)隊(duì)提煉精華數(shù)據(jù)在Qwen上做監(jiān)督微調(diào),還是DeepSeek的蒸餾,即將DeepSeek-R1 作為教師模型,把Qwen作為學(xué)生模型,將教師模型的能力蒸餾給學(xué)生模型,都實(shí)現(xiàn)了新模型的高性能。這是兩種不同的技術(shù)路線,但都降低了高性能模型的訓(xùn)練成本。
伴隨著DeepSeek的火爆和s1模型基于通義千問(wèn)監(jiān)督微調(diào)的低成本訓(xùn)練,開(kāi)源大模型對(duì)行業(yè)格局的影響正在加深。根據(jù)開(kāi)源社區(qū)HuggingFace的數(shù)據(jù)統(tǒng)計(jì),海內(nèi)外開(kāi)源社區(qū)中Qwen的衍生模型數(shù)量已突破9萬(wàn),2024年,僅視覺(jué)理解Qwen-VL及Qwen2-VL兩款模型全球下載量就突破3200萬(wàn)次。大模型開(kāi)源生態(tài)正在迅速發(fā)展中。
在模型訓(xùn)練“性價(jià)比”受關(guān)注的當(dāng)下,開(kāi)源大模型正在給閉源大模型帶來(lái)持續(xù)挑戰(zhàn)。廣發(fā)證券研究指出,隨著DeepSeek全球下載量登頂,基于R1的完全開(kāi)源,API服務(wù)定價(jià)遠(yuǎn)低于OpenAI,海外市場(chǎng)總體認(rèn)為,訓(xùn)練和推理成本下降可能帶來(lái)更快的創(chuàng)新、模型的普及,以及更多推理需求。同時(shí),算力的敘事會(huì)受到一定影響,開(kāi)源和閉源模型性能差距的縮小可能對(duì)基礎(chǔ)模型開(kāi)發(fā)公司(閉源)帶來(lái)挑戰(zhàn),因?yàn)楦阋说拈_(kāi)源選項(xiàng)會(huì)吞噬市場(chǎng)需求。
而隨著更多開(kāi)源大模型的發(fā)展以及模型訓(xùn)練技術(shù)、數(shù)據(jù)質(zhì)量提升的探索,行業(yè)的更多玩家也將受到影響。廣發(fā)證券同時(shí)提到,未來(lái),大模型成本、效率的提升可能給AI應(yīng)用類公司帶來(lái)利好,因?yàn)檫@類公司正在尋求機(jī)會(huì)在LLM(大語(yǔ)言模型)以及新模型的基礎(chǔ)上開(kāi)發(fā)產(chǎn)品,因此成本效率提升會(huì)帶來(lái)這些公司資本回報(bào)率的回升。此外,云廠商間的競(jìng)爭(zhēng)也在加速關(guān)注DeepSeek等開(kāi)源大模型的生態(tài)服務(wù),搶食開(kāi)源大模型算力需求。
在這場(chǎng)大模型技術(shù)“普惠”與技術(shù)升級(jí)的多徑賽跑上,更多DeepSeek、s1般的故事正被業(yè)界期待,也將有更多快速迭代、追趕的壓力給到從業(yè)者。