您的位置：首頁 >正文

看點：DeepSeek開放識圖模式 AI裝上了“賽博手指”

來源：科技日報時間：2026-05-14 09:29:52

近日，DeepSeek開始灰度測試識圖模式，并大范圍開放給用戶體驗。

在具體的實測體驗中，開啟該模式后，用戶可以直接上傳圖片讓DeepSeek“看”世界，其能力邊界遠超簡單的文字提取。比如，網友上傳在博物館拍攝的不明文物并開啟“深度思考”后，模型不僅詳細描述該文物紋理材質，還準確推斷出其年代風格；面對時下流行的表情包或梗圖，它也能準確理解。

DeepSeek“開眼”，與其他主流大模型有何能力差異？有哪些優勢和不足？科技日報記者就此采訪了有關專家。

(相關資料圖)

第一問：DeepSeek識圖模式與豆包等其他大模型有何區別？

“與其他大模型相比，DeepSeek識圖模式的核心區別集中在技術路徑、算力消耗和交互邏輯上。”賽迪顧問人工智能與大數據研究中心分析師白潤軒說。

他解釋道，DeepSeek識圖模式以“視覺原語思考”為核心。這一核心框架主打精準空間推理和復雜場景解析，而非單純的文字OCR（光學字符識別）或基礎識別。而豆包等模型更側重結合聯網搜索提升識別時效性，多依賴傳統圖像編碼后進行文本理解，空間推理精度稍弱。

同時，這一框架在實際運行中“算力友好”。白潤軒介紹，DeepSeek處理800×800分辨率圖片僅消耗約90個tokens（詞元），遠低于GPT等主流模型，響應速度更快。

此外，DeepSeek識圖模式為獨立入口，專注純視覺理解，不額外啟用聯網功能，而豆包等大模型會自動聯動搜索。

第二問：“視覺原語思考”的核心創新點在哪？

伴隨識圖模式的上線，DeepSeek還公開了其背后的多模態模型技術細節，并公布了“視覺原語思考”核心框架。

“這一框架的核心創新點在于跳出主流模型‘堆分辨率’的思路，聚焦解決傳統多模態模型的‘指代鴻溝’困境。”白潤軒解釋。

傳統多模態大模型在面對密集場景時存在一種名為“指代鴻溝”的困境，模型雖然能看見圖片，但在推理過程中用“左邊那個大的”等模糊的自然語言構建邏輯鏈時，很容易因描述不準導致注意力漂移。

而“視覺原語思考”框架將點、邊界框等空間視覺元素作為“思維”基本單元，融入模型推理全過程，這就像給模型裝上了一根“賽博手指”，讓AI在推理時能在“腦海”中精確指出目標物，邊想邊指，大幅提升復雜空間布局、密集計數等場景的推理精度。

第三問：目前存在的不足及改進方向是什么？

在白潤軒看來，DeepSeek識圖模式目前主要存在三項不足。

一是知識庫更新偏滯后。其模型訓練數據截至2025年，識別2025年底后發布的新型產品易出現型號誤判。

二是高難度場景表現還不穩定。面對視錯覺圖片、復雜物體計數等反直覺任務時，模型給出的答案穩定性不足，偶發邏輯崩潰。

三是功能邊界較窄。目前僅支持純視覺理解，暫不具備圖像生成、視頻理解及跨模態創作能力，且高并發時段偶有解析失敗、響應延遲的情況。

“建議后續加快知識庫迭代、優化反直覺場景算法；同時拓展多模態功能，進一步提升系統穩定性以適配更多用戶的需求。”白潤軒說。

菠萝蜜视频在线观看国际|成免费CRM大全下载情趣直播|国产精品看高国产精品不卡|国产美女视频一区二区三区|成人酒吧2|日产无人区一线二线三线HAV|中文字幕久久波多野结衣av不卡