ChatGPT-4o强大的图像识别能力

雪枫2024-05-272024-05-29

引言

在人工智能的发展历程中，图像识别技术一直是一个重要的研究领域。随着技术的不断进步，AI已经能够识别图片中的内容，并将其转化为语言描述。然而，OpenAI在春季更新中推出的GPT-4o模型，将图像识别技术推向了一个新的高度。本文将详细介绍GPT-4o的图像识别能力，并探讨其在多模态理解、物体识别、光学字符识别（OCR）、面部识别、情绪检测、场景理解、图像质量评估以及多目标检测等方面的应用。

GPT-4o的多模态理解

GPT-4o模型的成功，部分归功于其多模态的特性。它不仅能够理解图像，还能够对视频、声音和文本进行深入的分析和推理。这种能力使得GPT-4o在处理图像时，能够更加全面和深入地理解图像内容，而不仅仅是将其转换为文本。

测试GPT-4o的视觉能力

为了测试GPT-4o的视觉识别能力，我们对其进行了一系列的测试。在测试过程中，我们仅提供了图片和简单的提示“这是什么？”，而不附加任何额外的背景信息。这种测试方式更接近于人们在现实世界中使用图像识别功能的方式。

1、物体识别

第一张图片是一杯红色陶瓷杯中的热咖啡，放在咖啡馆的木桌上的碟子里，背景被模糊处理。目的是看看 GPT-4o 如何解读背景和场景。

GPT-4o 写道：“这张图片展示了一杯热咖啡，盛在红色的茶杯和茶碟中，放在一张质朴的木桌上。背景模糊，描绘了一个舒适的室内环境，人们在一个看似洞穴的咖啡馆或设计独特的石墙室内交谈。焦点是咖啡杯，突出了热饮中升起的蒸汽。”

这是一个非常准确和详细的描述，甚至超越了简单的描述，呈现出一个完整的场景。为了增加趣味，我要求它描述“坐在桌边，手里拿着这杯咖啡的人的想法。”

它回复了一段非常详细的描述，其中一句话特别突出：“这杯咖啡不仅仅是一种饮料；它是一种仪式，是忙碌生活中珍贵的独处和反思时刻。”

2、光学字符识别（OCR）

OCR 是一项与计算一样古老的技术，因此对于任何视觉模型来说都应该是小菜一碟，甚至智能手机也可以在设备上做到这一点。我给了它一张简单的图像，显示了一块风化的木牌的特写，上面用复古的手写字体写着“欢迎来到奥克维尔”。我想要的不仅仅是来自人工智能的文字。

GPT-4o 交付；写道：“这张图片展示了一个复古风格的标志，上面写着‘欢迎来到奥克维尔’。标志看起来风化了，表面粗糙，陈旧，表明它已经暴露在风雨中一段时间了。文字采用红色背景上的粗体白色字体，有一些磨损的迹象，增加了它的怀旧魅力。标志部分被绿色植物包围，表明它可能被放置在户外，可能是在一个名为奥克维尔的城镇或社区的入口处。”

它不仅能正确读取文本，还能提供有关该位置的更多详细信息，识别出它可能是城镇或定居点，并提取标志本身的详细信息。

3、面部识别

这是一项在欧盟有争议并部分被禁止的技术。我提供了一张人工智能生成的40多岁女性的画像，她有深色头发和温暖的棕色眼睛，面带微笑。

GPT-4o 描述道：“这是一张特写肖像，照片中的女子有着一头卷曲的深色头发，面带微笑。焦点在她的脸上，光线充足，显示出细致的皮肤纹理和特征。她表情友善，眼睛直视镜头。背景模糊，突出了主体。”

我想了解更多信息，包括年龄。于是我问它“这个人多大了，她的情绪状态如何？”它回答道，她大约在30到40岁之间，情绪状态很好，并解释道：“总体印象是，她的情绪状态很好，可能感觉很充实、很安心。”

4、情绪检测

接下来，我测试了一张表情忧郁的老年男子的照片。GPT-4o 能否注意到情绪并准确描述场景呢？它唯一的输入仍然是“这是什么”和图片。

GPT-4o 的描述是：“这是一位老人坐在户外长椅上的肖像，很可能是在公园里。光线表明这是在黄金时段拍摄的，因为柔和的阳光照亮了他的脸。男子的表情若有所思，略带忧郁或沉思。他穿着有领衬衫和西装外套，背景模糊，突出了男子，同时提供了一个令人愉悦的自然场景。”

人工智能模型完全达到了我的期望，描述了场景并对男子的情绪状态进行了合理推测。

5、场景理解

GPT-4o 能多好地从图像中描述场景并识别场景中的元素？这是一项有用的技能，因为人工智能模型越来越多地用于帮助描述现实世界。这是 ChatGPT 中新语音模式的关键功能之一。

GPT-4o 声明：“这张图片描绘了一个阳光明媚的日子里热闹的户外农贸市场。帐篷下设立了各种摊位，展示着大量新鲜农产品，包括水果、蔬菜和其他商品。人们在市场里走来走去，浏览、购物，并与摊贩互动。市场似乎坐落在一个绿树成荫的宜人区域，背景中可见绿叶。市场氛围看起来充满活力和社区感，重点是当地的新鲜产品。”

没什么可说的。它对图片和情况的描述非常准确。它提供的细节比我预期的要多，突出介绍了一些正在销售的产品。

6、图像质量评估

我让 Ideogram 在网格中生成四张几乎相同的图像，每张图像的分辨率或构图略有不同。我想看看 GPT-4o 如何描述这些差异。它可以处理单张图像，但面对四张略有不同的图像呢？

GPT-4o 写道：“该图像由四张以网格形式排列的风景照片组成，每张都展示了云彩天空下绿草如茵、野花盛开的连绵起伏的山丘的美景。”

文章继续道：“左上角的照片呈现柔和的粉色和蓝色渐变天空，暗示黎明或黄昏，山丘沐浴在温暖的金色光线中，衬托出鲜活的绿草和黄色、白色的花朵。右上角的照片展示类似场景，但色彩柔和，暗示清晨或傍晚。左下方的照片色调较冷，蓝色天空更明显，暗示中午的光线较柔和。右下方的照片更暖和、更饱和，粉红色天空暗示日落的暖光。光线和色调的变化展示了一天中不同时间和摄影技术对同一景观氛围和外观的影响。”

虽然它没有理解四幅图像网格的比较目的——构图比较——但能够分别描述每幅图像，令人印象深刻。实际上，它自行进行了图像比较。

7、多目标检测

最后，如果模型要成为有用的工具，必须能够在拥挤的场景中检测多个物体。测试图片显示了一张杂乱的桌子，我希望它能检测到至少一个小物体。

GPT-4o 写道：“这幅图描绘了一个现代化、井然有序的办公空间，背景透过大窗户可见城市景观。桌上整齐摆放着各种办公物品，包括一台位于中央的笔记本电脑、一盏金属台灯和一个咖啡杯，营造出轻松而专注的氛围。散落的笔记本和纸张表明人们在积极工作和做笔记，而一盆小盆栽增添了一丝绿意。桌上还有一张两人的相框照片，增添了个人色彩。办公空间备有钢笔、铅笔和记事本等，确保了办公的实用性。城市天际线与现代高层建筑的背景营造出充满活力和鼓舞人心的环境。”

我让它在图像中找到我的眼镜，它正确地回答：“你的眼镜在笔记本电脑右边的桌子上，放在笔记本上面。”

测试表明它确实有效。我接着问了花盆的颜色，它也准确回答。