实测DeepSeek"识图模式":连自己老板都不认识
红星资本局6月19日消息,6月18日,DeepSeek网页及APP端,均新增了“识图模式”,并显示“图片理解功能内测中”。同一天,DeepSeek多模态团队负责人陈小康在社交媒体上发文称,视觉模式已在网页和应用上正式上线,“试试这双新眼睛”。
6月19日,红星资本局实测发现,DeepSeek的识图功能并不太稳定。
红星资本局实测时上传了一张DeepSeek创始人梁文锋的照片,但DeepSeek将其识别为字节跳动的张一鸣;紧接着再上传另外一张梁文锋的照片,DeepSeek仍然认为是张一鸣;最后上传了张一鸣的照片,DeepSeek识别正确。
随后红星资本局开启新对话,重新上传张一鸣的照片,DeepSeek将其识别为寒武纪创始人陈天石;紧接着上传梁文锋的照片,DeepSeek仍然认为照片中的人是陈天石。在多次对话中,DeepSeek还曾表示“无法回答问题”。
该图片疑似使用了AI生成技术,请谨慎甄别

DeepSeek在回答中表示,目前的“识图功能”其实是“读图”。
DeepSeek目前支持的图像文件上传和视觉识别为OCR模型,即读取图像中的文本,擅长从上传的图像(PDF、Word、Excel、PPT、JPG等)中读取文本,并处理该文本;而不是多模态视觉语言模型(VLM),无法以像素级别“看到”物体、人脸或场景。
对于将梁文锋识别成其他人,DeepSeek再次表示自己没有人脸识别模块,不会“看脸”只会“看字”,如果照片中只有一张脸,“我只能回复你图片中没有文字内容”。
于是红星资本局又上传了其他带有文字的图片,对于“货拉拉被约谈”的新闻资讯的封面,DeepSeek基本可以识别出图中内容,但将图中的“货拉拉”识别为“货拉业”,并认为是图片中的字打错了。对于“新东方集团总结大会”视频截图,DeepSeek可识别出图中的信息,并且精确捕捉到俞敏洪也在图片中。

对于纯文本类的图片,红星资本局选择了怀素的草书作品,DeepSeek可以识别部分文字,但将图中的“玉露凋伤枫树林”,识别为“王右丞诗枫桥”。对于Yum! Brands宣布出售必胜客业务的英文公告截图,DeepSeek可正确识别并翻译。
该图片疑似使用了AI生成技术,请谨慎甄别

[加西网正招聘多名全职sales 待遇优]
这条新闻还没有人评论喔,等着您的高见呢
6月19日,红星资本局实测发现,DeepSeek的识图功能并不太稳定。
红星资本局实测时上传了一张DeepSeek创始人梁文锋的照片,但DeepSeek将其识别为字节跳动的张一鸣;紧接着再上传另外一张梁文锋的照片,DeepSeek仍然认为是张一鸣;最后上传了张一鸣的照片,DeepSeek识别正确。
随后红星资本局开启新对话,重新上传张一鸣的照片,DeepSeek将其识别为寒武纪创始人陈天石;紧接着上传梁文锋的照片,DeepSeek仍然认为照片中的人是陈天石。在多次对话中,DeepSeek还曾表示“无法回答问题”。
该图片疑似使用了AI生成技术,请谨慎甄别

DeepSeek在回答中表示,目前的“识图功能”其实是“读图”。
DeepSeek目前支持的图像文件上传和视觉识别为OCR模型,即读取图像中的文本,擅长从上传的图像(PDF、Word、Excel、PPT、JPG等)中读取文本,并处理该文本;而不是多模态视觉语言模型(VLM),无法以像素级别“看到”物体、人脸或场景。
对于将梁文锋识别成其他人,DeepSeek再次表示自己没有人脸识别模块,不会“看脸”只会“看字”,如果照片中只有一张脸,“我只能回复你图片中没有文字内容”。
于是红星资本局又上传了其他带有文字的图片,对于“货拉拉被约谈”的新闻资讯的封面,DeepSeek基本可以识别出图中内容,但将图中的“货拉拉”识别为“货拉业”,并认为是图片中的字打错了。对于“新东方集团总结大会”视频截图,DeepSeek可识别出图中的信息,并且精确捕捉到俞敏洪也在图片中。

对于纯文本类的图片,红星资本局选择了怀素的草书作品,DeepSeek可以识别部分文字,但将图中的“玉露凋伤枫树林”,识别为“王右丞诗枫桥”。对于Yum! Brands宣布出售必胜客业务的英文公告截图,DeepSeek可正确识别并翻译。
该图片疑似使用了AI生成技术,请谨慎甄别

[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 |
推荐:



