菠萝蜜视频在线观看国际|成免费CRM大全下载情趣直播|国产精品看高国产精品不卡|国产美女视频一区二区三区|成人酒吧2|日产无人区一线二线三线HAV|中文字幕久久波多野结衣av不卡

您的位置:首頁 >正文

看點:DeepSeek開放識圖模式 AI裝上了“賽博手指”

近日,DeepSeek開始灰度測試識圖模式,并大范圍開放給用戶體驗。

在具體的實測體驗中,開啟該模式后,用戶可以直接上傳圖片讓DeepSeek“看”世界,其能力邊界遠超簡單的文字提取。比如,網友上傳在博物館拍攝的不明文物并開啟“深度思考”后,模型不僅詳細描述該文物紋理材質,還準確推斷出其年代風格;面對時下流行的表情包或梗圖,它也能準確理解。

DeepSeek“開眼”,與其他主流大模型有何能力差異?有哪些優勢和不足?科技日報記者就此采訪了有關專家。


(相關資料圖)

第一問:DeepSeek識圖模式與豆包等其他大模型有何區別?

“與其他大模型相比,DeepSeek識圖模式的核心區別集中在技術路徑、算力消耗和交互邏輯上。”賽迪顧問人工智能與大數據研究中心分析師白潤軒說。

他解釋道,DeepSeek識圖模式以“視覺原語思考”為核心。這一核心框架主打精準空間推理和復雜場景解析,而非單純的文字OCR(光學字符識別)或基礎識別。而豆包等模型更側重結合聯網搜索提升識別時效性,多依賴傳統圖像編碼后進行文本理解,空間推理精度稍弱。

同時,這一框架在實際運行中“算力友好”。白潤軒介紹,DeepSeek處理800×800分辨率圖片僅消耗約90個tokens(詞元),遠低于GPT等主流模型,響應速度更快。

此外,DeepSeek識圖模式為獨立入口,專注純視覺理解,不額外啟用聯網功能,而豆包等大模型會自動聯動搜索。

第二問:“視覺原語思考”的核心創新點在哪?

伴隨識圖模式的上線,DeepSeek還公開了其背后的多模態模型技術細節,并公布了“視覺原語思考”核心框架。

“這一框架的核心創新點在于跳出主流模型‘堆分辨率’的思路,聚焦解決傳統多模態模型的‘指代鴻溝’困境。”白潤軒解釋。

傳統多模態大模型在面對密集場景時存在一種名為“指代鴻溝”的困境,模型雖然能看見圖片,但在推理過程中用“左邊那個大的”等模糊的自然語言構建邏輯鏈時,很容易因描述不準導致注意力漂移。

而“視覺原語思考”框架將點、邊界框等空間視覺元素作為“思維”基本單元,融入模型推理全過程,這就像給模型裝上了一根“賽博手指”,讓AI在推理時能在“腦海”中精確指出目標物,邊想邊指,大幅提升復雜空間布局、密集計數等場景的推理精度。

第三問:目前存在的不足及改進方向是什么?

在白潤軒看來,DeepSeek識圖模式目前主要存在三項不足。

一是知識庫更新偏滯后。其模型訓練數據截至2025年,識別2025年底后發布的新型產品易出現型號誤判。

二是高難度場景表現還不穩定。面對視錯覺圖片、復雜物體計數等反直覺任務時,模型給出的答案穩定性不足,偶發邏輯崩潰。

三是功能邊界較窄。目前僅支持純視覺理解,暫不具備圖像生成、視頻理解及跨模態創作能力,且高并發時段偶有解析失敗、響應延遲的情況。

“建議后續加快知識庫迭代、優化反直覺場景算法;同時拓展多模態功能,進一步提升系統穩定性以適配更多用戶的需求。”白潤軒說。

關鍵詞: 最新資訊

相關內容