Gemini/GPT-4o/Grok的图像处理,没有想像的那么好,也没有那么糟

Gemini/GPT-4o/Grok的图像处理,没有想像的那么好,也没有那么糟

Image.png

这几天GPT-4o,Gemini模型出来的时候,无意间总能刷到各种口号:再写不用PS了,人人都可以P图,各种风格视频生成太炸裂了。。。

你咋不说直接生成更炸裂?你要原视频转,那我问你,原视频怎么来?要不要有?我会无中生有吗?回答我。那我要不要会视频制作?嗯!你回答我。你说这些说人人都能造视频的,回答我!look in my eyes! tell me! why? why? baby why?

本段恶搞,无任何观点,不要盯着看,纯娱乐一下就行了。

既然大家都出不错的图片编辑功能,那要不G师傅一起切搓一下?两个人单挑太容易生死相博了,正好grok也有图片的功能了,拉进来大家一起站到赛道上吧。

方案

  • 相同的指令生成图片,纯靠视觉检查生成图片的完成度,文字,风格一致性等。本来相计算时间的,一来自己懒,后来发现没必要。
  • 对同一张图片,同样的提示词多轮编辑功能。一直还是视觉检查成品。
  • 上点压力,带中文文字海报生成测试。
  • 黑白照片上色,顺带调整修改
  • 图片的细节修改。

不对最终的图片进行科学的分析,单纯的楼主视觉的主观感受。关于提到的生成时间,不考虑梯子的问题,grok最快,gemini其次,gpt-4o最慢。(仅仅只是速度)

准备图片和文字

一、相同生成图片的指令:"生成一张现代城市街景,包含10个不同元素,需要出现'欢迎来到上海'中文标识,16:9比例,赛博朋克风格"

二、多轮图片编辑修改:

  • 生成戴眼镜的亚洲女性程序员在咖啡厅工作,桌上放三台电子设备
  • 将眼镜换成墨镜,咖啡杯改为星巴克logo,背景增加书架

三、中文文字海报生成:

生成春节促销海报,需包含以下元素:

- 主标题:龙年大吉 全场5折起
- 副标题:新春特惠截止2月15日
- 二维码位置预留
- 传统剪纸风格

注意文字排版美观,避免错字"

四、准备黑白照片,提示词:

"请对这张黑白照片进行以下处理:

1. 自然上色
2. 修复面部细节
3. 背景添加樱花树
4. 右下角添加'1950s Memory'艺术字"

五、图片的细节控制修改:

“将人物发型改为齐耳短发,衬衫换成高领毛衣,添加圆形金属框眼镜”

一、相同生成图片的指令

"生成一张现代城市街景,包含10个不同元素,需要出现'欢迎来到上海'中文标识,16:9比例,赛博朋克风格"

Image.png

grok风格一致性还行,但好象跟赛博朋克风差一点,但是文字就完全乱出牌了,人物的细节也能不仔细观看。

Image.png

Gemini风格接近赛博朋克风了,只是两次的风格区别有点大,文字一样不能看,第二个字数都对不上,好的地方是字没有叠到一块。

Image.png

风格相近,文字也都对,门店的招牌小字虽然字不全正确,也没有叠在一块。

这一种GPT-4o完胜。另外两个不评了

二、多轮图片编辑修改

  • 生成戴眼镜的亚洲女性程序员在咖啡厅工作,桌上放三台电子设备

  • 将眼镜换成墨镜,咖啡杯改为星巴克logo,背景增加书架

Image.png

Grok一开始的第一张人物右眼有问题,所以重新又生成了一张,一样还是人物右眼有同样的问题,手部细节不够好,电子设备少了一个,第二步修改的时候,星巴克和墨镜生成,效果还算良好,背景书架被它无视了。场景的一致性保持的不错。

Image.png

Gemini的人物生成还行,手部细节也比Grok控制得好,桌上电子设备多了一个,第二步修改的时候星巴克、墨镜、书架也元素全部出来了。只是犯了把正题的答案写错了题目下面的错误,人物整体变了,桌子换了,桌上设备也变了。

Image.png

手部细节无法看到,不好判断,三个电子设备的摆放正确,特别是设备的使用方向,跟我们日常摆放这三个设备的方向接近,杯子在手机屏幕上的倒影细节,双眼皮有一点点过份,第二步没有处理出来,再一次提一下GPT-4o的慢。

GPT-4o的修改图没能出来,这一轮不比。

三、中文文字海报生成:

生成春节促销海报,需包含以下元素:

- >> 主标题:龙年大吉 全场5折起
- >> 副标题:新春特惠截止2月15日
- >> 二维码位置预留
- >> 传统剪纸风格

>> 注意文字排版美观,避免错字"

Image.png

Grok一开始出的英文版,然后我重新增加了中文提示,再生了一个中文的,干脆就每一个都生成了中英文两版,更好的区别方字,不得不多,英文的文字不错,中文第一步测试的里面正确多了,虽然小字还是抽象的。

Image.png

Gemini文字不如Grok的效果好,但是海报设计上出彩,比上面的元素更丰富,效果也更突出,龙比Grok的逼真太多了,灯笼、浮雕的阴影立体感都正常渲染。

Image.png

GPT-4o的文字处理依然独一档,剪纸风格也理解的比其它二位更准确,二维码位置预留理解到位,没有随便处理个二维码在上面。

这一轮我选GPT-4o !!!

四、准备黑白照片,提示词

请对这张黑白照片进行以下处理:

1. >> 自然上色
2. >> 修复面部细节
3. >> 背景添加樱花树
4. >> 右下角添加'1950s Memory'艺术字

Image.png

一样的套路,Grok又丢了元素,第一次的时候上次丢了,面部细节、背景、文字都满足,人物稍微有一点变化,不过整体的一致性保持的还不错,猜换背景的时候一起把人物脸上的光影换掉了。

Image.png

Gemini好象对于人像的保护很重要,原同样的图片总是提示“出了点问题”,然后图片就出不来了,偶尔有时候还不生成图片。退而求其次将刚刚生成的图片进行去色,再让它上色,结果是除了它没有给上色,其它部分内容照做了,但是效果不尽如人意,人变了,桌上的电脑也变了,设备的变更搞得时间都穿越了,就场景和人物的大概还能看得出来。

Image.png

GPT-4o整体需要的元素都有,而且完成度也不错,不扣背景的阴影效果,只是完全换了另外一张照片,一样算答错题的套路。

这一轮我选Grok!!!

五、图片增加细节信息

将人物发型改为齐耳短发,衬衫换成高领毛衣,添加圆形金属框眼镜

Image.png

Grok的毛衣、眼镜和维持原样风格都保持的不错,只是发型的齐耳理解有点偏差,是不是到耳就行了。

Image.png

GPT-4o这波毛衣、眼镜、齐耳短发处理的不错,只是这把整个人换掉了,好比答案和解题思路都对,最后答在了别的题下面。

这一把我投票给Grok。Gemini一直不处理(不确定是不是因为人像)

最后

本来想再试试其它的方法的,比如两张照片的元素合成,基于一个线稿的框架进行发挥,奈何免费的次数限制让人头疼。

某些方面确实不错,人物的质感,相较于早期SD里面那些抽象的手。画面有时候也给了想象的空间,极低的成本让我的某个想法,快速可能的可视化了,相较于SD和midjourney来说,功能上的差距还是有不少的,特别是多次修改的时候的一致性,刚刚最好的应该是grok的毛衣眼镜了,把SD和MJ的局部重绘或其它插件功能拿过来,就有一种胜之不武的感觉了。

再说那些炸裂、燃爆的自媒体,看看就好了,我配图的时候也经常用AI生图,为了达到配合某个目的,重复调整和生成很多次同一张配图,有时候自媒体那儿看到的控制得很精细或者前面联动很精彩的一张,是经过了无数次抽卡抽到最好的一次,如果对专业的人来说这个时间,完全可以自行处理好一张,更符合自己预期的图片了。

当然,如果带着随便、是张差不多的图片就可以凑和,但自己又没有办法直接处理这个目的时候,那大可以进行抽卡尝试,能用就行了,这个确实是大大解决了从无到有的过程。当然专门处理图片的人员也能被快速的提供帮助的,特是还可以有工作流的加持。

纯属个人试玩,以上观点都不算数!!!