2026-04-30 22:20:05
4月30日《每日經(jīng)濟(jì)新聞》記者注意到,DeepSeek在Github發(fā)布多模態(tài)模型及技術(shù)報(bào)告。DeepSeek提出基于視覺(jué)原語(yǔ)的思考這一創(chuàng)新推理框架,將空間標(biāo)記融入思考。其模型基于高度優(yōu)化架構(gòu),視覺(jué)標(biāo)記效率高,在基準(zhǔn)測(cè)試上可與前沿模型媲美,為開發(fā)多模態(tài)智能指明方向。
每經(jīng)記者|葉曉丹 每經(jīng)編輯|廖丹
4月30日,《每日經(jīng)濟(jì)新聞》記者注意到,DeepSeek在Github上正式發(fā)布了多模態(tài)模型,公布了背后的技術(shù)報(bào)告。
圖片來(lái)源:Github網(wǎng)站
DeepSeek在技術(shù)報(bào)告中提到,盡管多模態(tài)大語(yǔ)言模型(MLLMs)取得了顯著進(jìn)展,但主流的思維鏈(CoT)范式仍主要局限于語(yǔ)言學(xué)領(lǐng)域。雖然近期研究重點(diǎn)通過(guò)高分辨率裁剪技術(shù)(例如基于圖像的思考)來(lái)彌合感知鴻溝,卻忽視了一個(gè)更根本的瓶頸:參照鴻溝。自然語(yǔ)言固有的模糊性往往無(wú)法為復(fù)雜的空間布局提供精確、明確的指引,導(dǎo)致需要嚴(yán)謹(jǐn)參照的任務(wù)出現(xiàn)邏輯崩潰。
而DeepSeek多模態(tài)技術(shù)報(bào)告提出基于視覺(jué)原語(yǔ)的思考——這一創(chuàng)新推理框架將點(diǎn)、邊界框等空間標(biāo)記提升為“思維的基本單元”。通過(guò)將這些視覺(jué)原語(yǔ)直接融入思考過(guò)程,DeepSeek的模型在“推理”時(shí)能夠“指代”,從而將其認(rèn)知軌跡有效錨定在圖像的物理坐標(biāo)中。
值得注意的是,DeepSeek技術(shù)報(bào)告提到,其框架基于高度優(yōu)化的架構(gòu),具備極高的視覺(jué)標(biāo)記效率。盡管模型規(guī)模緊湊且圖像標(biāo)記預(yù)算顯著較低,DeepSeek的多模態(tài)模型在具有挑戰(zhàn)性的計(jì)數(shù)和空間推理基準(zhǔn)測(cè)試上,能夠與GPT-5.4、Claude-Sonnet-4.6和 Gemini-3-Flash等前沿模型匹配。這為開發(fā)更高效、更具可擴(kuò)展性的System-2類多模態(tài)智能指明了方向。
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP