5月9日消息,DeepSeek 今日宣布将其「识图模式」从灰度测试阶段扩展至更大范围用户,标志着该平台正式具备原生图像理解能力。该功能支持图片内容理解、联网增强问答、一键问屏等特性,可识别文字、表格、公式等复杂文档结构。
DeepSeek V4 于 4 月 24 日发布,初期仅支持纯文本处理,引发外界对其多模态能力的期待。此次识图模式的开放,补齐了 DeepSeek 在图像理解方面的关键短板,使其能够与 OpenAI、Anthropic 等平台的多模态能力对标。
从灰度测试阶段的反馈来看,识图模式更接近一个挂载在 V4 主干上的视觉理解模块,在文档 OCR、图表分析、图片问答等场景表现出色。此外,消息称 DeepSeek 正寻求 500 亿元融资,并计划下月发布 V4.1 更新。