DeepSeek在12月1日同時(shí)推出了兩個(gè)正式版模型:DeepSeek?V3.2和DeepSeek?V3.2?Speciale。官網(wǎng)、App和公開API都已經(jīng)切換到V3.2;Speciale暫時(shí)只是以臨時(shí)API的形式對(duì)外開放,主要是給社區(qū)做測(cè)評(píng)和研究用的。
南方財(cái)經(jīng)的報(bào)道援引了DeepSeek公眾號(hào)的通知,這是官方直接發(fā)布的消息。發(fā)布日就是12月1日,形式很直接:把常用版本放到線上,把增強(qiáng)版留給研究圈兒先試一試。聽起來像是一次常見的分階段上線策略。
DeepSeek?V3.2定位很明確:把推理能力和輸出長(zhǎng)度之間的平衡做好,面向日常場(chǎng)景。換句話說,就是要做到既能把問題想清楚,又不會(huì)把答案拉得太長(zhǎng)。適合用在問答型場(chǎng)景、以及通用Agent任務(wù)里。舉個(gè)直白的例子,像客服機(jī)器人、智能助理那類,需要把信息給清楚、又不能啰嗦,這類需求就是V3.2的目標(biāo)場(chǎng)景。實(shí)用性放在第一位,感覺比較務(wù)實(shí)。
Speciale版本更偏“長(zhǎng)思考”。官方說它在V3.2的基礎(chǔ)上加強(qiáng)了長(zhǎng)時(shí)間、多步驟推理的能力,并且融合了DeepSeek?Math?V2的定理證明能力。說白了,就是能處理那種需要連貫多步推理的問題,還能應(yīng)付比較正式的數(shù)學(xué)證明或邏輯推導(dǎo)。像需要多輪演算、逐步驗(yàn)證結(jié)論的科研或?qū)W術(shù)類任務(wù),或者某些復(fù)雜Agent需要做深度推理的場(chǎng)景,Speciale更合適。不過現(xiàn)在只以臨時(shí)API提供,目的是先讓研究社區(qū)和評(píng)測(cè)團(tuán)隊(duì)試試水,看看表現(xiàn)和邊界在哪里。
關(guān)于可用性,普通用戶和開發(fā)者現(xiàn)在通過官網(wǎng)、App和API調(diào)用的默認(rèn)版本是V3.2。想要試Speciale的團(tuán)隊(duì),需要通過臨時(shí)API接入,官方這次顯然是想把曝光和風(fēng)險(xiǎn)控制在一個(gè)相對(duì)小的圈子里,收集反饋后再做進(jìn)一步放開或調(diào)整。對(duì)開發(fā)者來說,短期內(nèi)如果不特別申請(qǐng),接入的就是V3.2;對(duì)科研團(tuán)隊(duì)或想測(cè)定理證明能力的單位,可以申請(qǐng)Speciale的臨時(shí)API做專項(xiàng)測(cè)試。
從技術(shù)取向上看,這次發(fā)布把兩個(gè)方向都照顧到了:一個(gè)偏向通用、響應(yīng)速度和輸出可控;另一個(gè)偏向深度推理和專門能力(特別是數(shù)學(xué)證明)。把DeepSeek?Math?V2的證明能力融進(jìn)去,說明團(tuán)隊(duì)在把專用能力模塊化后,嘗試把它們并入更通用的模型里。這樣的做法能在保留專業(yè)能力的同時(shí),兼顧更廣泛的應(yīng)用場(chǎng)景。說白了,就是既要用得上,也要在復(fù)雜任務(wù)里有表現(xiàn)。
社區(qū)層面的反應(yīng)和評(píng)測(cè)會(huì)比較關(guān)鍵。Speciale開放給社區(qū)做評(píng)測(cè),這一步能快速暴露問題:比如長(zhǎng)思考時(shí)的穩(wěn)定性、證明鏈條的可信度、輸出長(zhǎng)度和質(zhì)量的平衡點(diǎn)等。接下來會(huì)有一批論文式的驗(yàn)證、對(duì)比測(cè)試或者公開benchmark結(jié)果,開發(fā)者和研究者能拿到更具體的數(shù)據(jù)來判斷是否值得在生產(chǎn)環(huán)境中使用。