ChatGPT 图像理解能力深度体验

9 月 25 号的时候，OpenAI 公布了 ChatGPT 的新能力：ChatGPT can now see, hear, and speak，ChatGPT 终于有了“眼睛”，可以看懂图片了。

ChatGPT 可以看见了

国庆期间，就被灰度到了图像理解能力，体验了一下，还是很惊艳的。接下来会从下面的一些维度，来带大家一起深度体验 ChatGPT 的图像能力。

物体识别：检验模型是否能够准确地识别图像中的主要物体或元素。
情境解释：判断模型是否能够根据图像内容推断出背后的故事或情境。
细节捕捉：检查模型是否能够注意到并描述图像中的微小细节或难以注意到的部分。
情绪解读：评估模型是否能够根据图像内容捕捉到其中的人类情感。
图片对比：当提供多张图片时，检验模型是否能够进行比较和对比。

物体识别

先来看看 ChatGPT 的物体识别能力吧，刚好十一出去玩的时候看到用玉石做的一些食物摆件挺逼真的，拿来让 ChatGPT 识别看看。提示词如下：

这个图里面有哪些食物？

玉石做的各种美食摆件

ChatGPT 的回答还算可以了，识别出了以下的食物。其中部分的回答不是很精确，不过也超出我的预期了。下面是 ChatGPT 的回答，其实这里没看到鸡爪，不知道它把什么识别为了鸡爪了。另外把荷包蛋识别为了猪耳朵，有点逗～

白色的包子（在黄色的篮子里）
莲藕片（有孔的圆形切片）
鸡蛋（看起来像煮熟了的，被切成了两半）
红枣
鸡爪
像是猪耳朵的食物（左下角）
某种糖果或者水果干（中间的盘子里）
某种肉片（可能是牛肉或者羊肉，放在碗里）
黄色的食物，形状像是鸡或者其他禽类
白色圆形的糯米球
鸡形状的黄色食品，可能是模型或者糕点制成的
长条形的绿色蔬菜（可能是四季豆或其他相似的蔬菜）

还有一个用玉石做的各种古书的图片，ChatGPT 识别出显示的可能是这些古籍的复制品或艺术品，而非实际的古书。也能识别出其中部分书籍的名字，但还是有幻觉，给了一些图片里没有的书籍。

情境解释

小的时候经常会有看图写作文的题目，给一个图片，然后让写一段内容来描述图片里的故事或情境。我们来看看 ChatGPT 的能力如何，这里在网上找了一个插图，提示词如下：

可以帮忙描述下这张图片里面的情景吗

生日庆祝的一个场景插图

然后直接让 ChatGPT 描述下这张图片里面的情景。ChatGPT 的回答依旧惊艳，总结这张图片展现了一个充满乐趣和欢声笑语的生日派对场景，还给出了详细描述：

房间的中心有一个正在与大人玩机器人玩具的金发小男孩。他们似乎在互动，小男孩伸手向机器人。
在房间的左侧，有一个戴着生日帽子的棕色小怪兽，它似乎在笑。
一个绿色的外星人站在一个开启的礼物盒旁边，它持有一个遥控器，好像在控制机器人。
房间右侧有两位成年人。一个穿着绿色衬衫的男人正在给另一个拿着杯子的男人倒饮料。
后面的墙上挂着一个写有“Happy Birthday”的彩带，并且有一个电视屏幕显示五个人的图片。
地上散落着许多玩具，如红色的小车、风琴和气球等。
墙边有一个放着音乐设备的架子，音符从设备中飘出，意味着音乐正在播放。
其他的装饰和物品，如灯笼、烛台和生日蛋糕，也分布在房间里。

不过尴尬的一点是，把墙上相框里面的照片识别成了电视，然后里面的人物数量也不是很准确。

细节捕捉

其实上面的例子中已经可以看出来 ChatGPT 对细节的捕捉能力很强了，注意到了地上散落的玩具小车、气球等。我们还可以继续追问一些细节，比如“图片左侧中间偏上一点的黑色的是什么呢？”。ChatGPT 认为图片左侧中间偏上的黑色物体是一个壁炉（fireplace）。从其结构和位置来看，它应该是房间的一个固定装饰或建筑元素。

接下来继续追问它墙上相框里照片有多少人，这次 ChatGPT 翻车了，先是说 5 个人，让它重新数，说是 6 个，最后让它“仔细看下“，还是回答错误：照片中有五个人，分别是两个成年人和三个孩子。

情绪解读

一个不到 1 岁的人类小孩子都能读懂大人的表情，知道大人的情绪，那么 ChatGPT 在看懂表情这里的表现如何呢？这里为了测试起来方便，直接拿了一个有很多张表情的照片来测试。提示词如下：

这个图片里还好多人脸表情，分别是什么情绪呢？你可以一个个给我描述下情绪

各种表情图片

ChatGPT 直接从左上角开始，按照从左到右、从上到下的顺序描述，不过开始给了我 17 个表情描述，然后告诉他一共有 15 个，让它重新生成描述。为了和图片对应起来，这里我输出一个表格，对应上面的表情的位置。

1	2	3	4	5
思考或困惑	惊讶	难过	思考	无表情或冷漠
微笑	吓到	开心	惊喜	深思
不悦或皱眉	大笑	调皮或开玩笑	严肃或无表情	开心或欣然

图片对比

大家都玩过一些找左右两张图片不同点的游戏吧，这种对人来说还是挺难的，有时候就是找不出区别来。那么 ChatGPT 表现如何呢，在网上找了一个图片，拿来试试看。提示词如下：

找出这张图片里，左右两部分不同的地方，并逐个描述出来

图片对比找差异

ChatGPT 的回答有比较严重的幻觉，它认为左右两部分的不同之处：

第一个明显的差异是左边部分中间的棒棒糖是彩虹色的，而右边部分中间的棒棒糖颜色较为简单。
在两部分的左上角，有一个巧克力冰淇淋。左边的巧克力冰淇淋中有较多的白色点状装饰，而右边的巧克力冰淇淋上的白色点状装饰较少。
左部分的彩虹棒棒糖右侧有一个小糖果，而右部分则没有这个小糖果。

它也能看到左边部分中间有彩虹色的棒棒糖，虽然事实上左右颜色都一样，但是 ChatGPT 认为右侧的颜色较为简单。另外两个不同地方也都是不对的，看来 ChatGPT 在这类任务上能力还是比较差的。

总结

通过前面的体验，可以看到ChatGPT在图像理解方面的能力还是很不错的，在物体识别、情境解释等方面表现出惊人的潜力。ChatGPT的视觉能力才刚刚开启，仍有不少提升空间。我们有理由相信，随着训练数据的丰富和模型的迭代升级，ChatGPT将来可以做到真正“看得清”。

在视觉能力出来之前，为了让 ChatGPT 生成一些前端代码，还得费尽心思给它描述页面长什么样，以后就直接把设计图或者随手画的草图扔给它，然后坐等它实现代码了。