新京報貝殼財經(jīng)訊(記者羅亦丹)北京時間6月17日,“AI六小龍”之一的上海AI獨角獸企業(yè)MiniMax發(fā)布了其自主研發(fā)的MiniMax-M1系列模型,除去性能上的升級,貝殼財經(jīng)記者注意到,其同類模型的價格低于DeepSeek-R1,和5天前首先降價的豆包1.6持平。


M1被定義為“全球首個開源的大規(guī)模混合架構(gòu)推理模型”。技術(shù)報告顯示,M1模型在處理百萬級Token的長文本上實現(xiàn)了重大突破,成為上下文最長的推理模型;其RL(強化訓(xùn)練)成本下降一個量級,成本53萬美金,推理效率則數(shù)倍于同類模型;在工具使用場景(TAU-bench)中MiniMax-M1-40k領(lǐng)跑所有開源權(quán)重模型,超過Gemini-2.5 Pro。


MiniMax-M1開源技術(shù)報告截圖


定價方面,在輸入?yún)^(qū)間0-32K范圍內(nèi),M1模型的價格為輸入0.8元/百萬Tokens,輸出8元/百萬Tokens;32k-128k范圍內(nèi),M1模型的價格為輸入1.2元/百萬Tokens,輸出16元/百萬Tokens。低于DeepSeek-R1模型,與6月12日火山引擎推出的豆包1.6價格持平。


值得注意的是,M1模型還推出了輸入?yún)^(qū)間為128k-1M范圍的模型價格,這一超長文本檔位是DeepSeek-R1目前尚未覆蓋的領(lǐng)域,豆包1.6上周公布價格的區(qū)間也截止到128K-256K范圍。


根據(jù)MiniMaxg公布的技術(shù)報告,實現(xiàn)100萬上下文輸入這一突破的關(guān)鍵,在于其獨創(chuàng)的Lightning Attention混合構(gòu)架。傳統(tǒng)Transformer模型在處理長序列時,注意力機制的計算量會隨序列長度呈平方級增長,成為制約性能和成本的主要瓶頸。M1的混合架構(gòu),特別是注意力機制,能夠顯著優(yōu)化上下文輸入的計算效率。


報告提到,在進行8萬Token的深度推理時,M1所需的算力僅為DeepSeek-R1的約30%;生成10萬tokens時,推理算力只需要DeepSeek-R1的25%。這種極致的效率提升,直接轉(zhuǎn)化為訓(xùn)練和推理階段巨大的成本優(yōu)勢。


此外,在降本方面,MiniMax此次提出CISPO算法,另辟蹊徑,通過裁剪重要性采樣權(quán)重,而非傳統(tǒng)算法中調(diào)整Token的更新方式,來提升強化學(xué)習(xí)的效率和穩(wěn)定性。MiniMaxc稱,實驗數(shù)據(jù)顯示,在AIME(AI-powered Moral Evaluator)等測試中,CISPO的收斂性能比字節(jié)跳動近期提出的DAPO算法快一倍,也顯著優(yōu)于DeepSeek早期使用的GRPO算法。


更快的收斂意味著更少的訓(xùn)練時間和資源消耗。得益于CISPO的高效,M1模型的整個強化學(xué)習(xí)階段僅使用了512塊英偉達H800 GPU,耗時三周,成本僅為53.5萬美元。MiniMax官方表示,這一成本“比最初的預(yù)期少了一個數(shù)量級”。


MiniMax宣布,在其自有的App和Web端,M1模型將保持不限量免費使用,且M1的發(fā)布僅僅是MiniMax“開源周”的序幕,在接下來的四個工作日里,MiniMax計劃每天發(fā)布一項新的技術(shù)或產(chǎn)品更新。


編輯 楊娟娟

校對 穆祥桐