type
status
date
slug
summary
tags
category
icon
password
状态
专注质量
预计(分钟)
开始时间
结束时间
🤔 一个简单的开头
最近看到 MiniGPT被炒得很火,于是在实验室尝试部署。在 GitHub 上找到了一个能够直接部署在 Colab 上运行的版本,并且在实验室的4090Ti设备上部署了一个本地版本。
下面直接放一些使用时的图片。
📝案例
🤗总结归纳
笔者提供的图片还是比较有挑战性的,大部分都是我在百度搜图和谷歌搜图上以“梗图”关键词筛选出来的。虽然整体上效果不好,但是有一些图片 MiniGPT4 做得不错,比如猫在玻璃杯里的图片,MiniGPT4 能识别出猫目前的状态,甚至还能根据情境作诗。
笔者猜测,猫的这张图片含义比较明确,各个物体都是分离的,因此识别效果较好;相对地,企鹅哈士奇的图片中的物体是一种四不像的物体,识别效果就不太好。可以大胆猜测,MiniGPT 对于物体以离散形式呈现的图片,识别能力应该都是不错的。一些网友提供了一盘菜的图片,它能大概认出是什么菜品,并能给出食谱,就能印证这个猜想。
从 MiniGPT 预测 GPT4 出来之后的能力,如果说 GPT4 的语言能力已经达到了高中生水准,那么其图片识别能力应该还在小学生或者初中生。在生产力提升方面,效果和文字处理肯定差一大截。理想的应用模式应该还是以文字为主,图片所占的比重应该较低,或者我们预先提供一些关于图片的解释,将图片含义表达不清晰的部分作以解释,含义清楚的部分可以让 GPT 的识图模块去完成。
即便 GPT4 能加入图片识别功能,扩展出的应用范围应该不会特别大。或许OpenAI 官方演示的从图片到 html 代码已经达到其能力的上限,毕竟内容生成的质量永远是最重要的,图片识别对应加强了任务的识别,而任务识别可以通过人的引导一步步调优。
期待届时网友们的玩法能打脸笔者,笔者也很期待多模态 AI 对生产效率的提升。
Written by Aryue,editted by Notion AI.
- 作者:Aryue
- 链接:www.aryue.com/article/1eb27bd9-1c21-453f-b6bd-b7c8e9945967
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章