要聞

DeepSeek多模態(tài)模型來(lái)了已公布技術(shù)報(bào)告

2026-04-30 22:20:05

4月30日《每日經(jīng)濟(jì)新聞》記者注意到，DeepSeek在Github發(fā)布多模態(tài)模型及技術(shù)報(bào)告。DeepSeek提出基于視覺(jué)原語(yǔ)的思考這一創(chuàng)新推理框架，將空間標(biāo)記融入思考。其模型基于高度優(yōu)化架構(gòu)，視覺(jué)標(biāo)記效率高，在基準(zhǔn)測(cè)試上可與前沿模型媲美，為開發(fā)多模態(tài)智能指明方向。

每經(jīng)記者｜葉曉丹每經(jīng)編輯｜廖丹

4月30日，《每日經(jīng)濟(jì)新聞》記者注意到，DeepSeek在Github上正式發(fā)布了多模態(tài)模型，公布了背后的技術(shù)報(bào)告。

圖片來(lái)源：Github網(wǎng)站

DeepSeek在技術(shù)報(bào)告中提到，盡管多模態(tài)大語(yǔ)言模型（MLLMs）取得了顯著進(jìn)展，但主流的思維鏈（CoT）范式仍主要局限于語(yǔ)言學(xué)領(lǐng)域。雖然近期研究重點(diǎn)通過(guò)高分辨率裁剪技術(shù)（例如基于圖像的思考）來(lái)彌合感知鴻溝，卻忽視了一個(gè)更根本的瓶頸：參照鴻溝。自然語(yǔ)言固有的模糊性往往無(wú)法為復(fù)雜的空間布局提供精確、明確的指引，導(dǎo)致需要嚴(yán)謹(jǐn)參照的任務(wù)出現(xiàn)邏輯崩潰。

而DeepSeek多模態(tài)技術(shù)報(bào)告提出基于視覺(jué)原語(yǔ)的思考——這一創(chuàng)新推理框架將點(diǎn)、邊界框等空間標(biāo)記提升為“思維的基本單元”。通過(guò)將這些視覺(jué)原語(yǔ)直接融入思考過(guò)程，DeepSeek的模型在“推理”時(shí)能夠“指代”，從而將其認(rèn)知軌跡有效錨定在圖像的物理坐標(biāo)中。

值得注意的是，DeepSeek技術(shù)報(bào)告提到，其框架基于高度優(yōu)化的架構(gòu)，具備極高的視覺(jué)標(biāo)記效率。盡管模型規(guī)模緊湊且圖像標(biāo)記預(yù)算顯著較低，DeepSeek的多模態(tài)模型在具有挑戰(zhàn)性的計(jì)數(shù)和空間推理基準(zhǔn)測(cè)試上，能夠與GPT-5.4、Claude-Sonnet-4.6和 Gemini-3-Flash等前沿模型匹配。這為開發(fā)更高效、更具可擴(kuò)展性的System-2類多模態(tài)智能指明了方向。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

英偉達(dá)股價(jià)下跌4%，報(bào)200.845美元/股

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

納斯達(dá)克100指數(shù)跌幅擴(kuò)大至0.5%

相關(guān)文章