Gemini/GPT-4o/Grok的图像处理，没有想像的那么好，也没有那么糟

这几天GPT-4o，Gemini模型出来的时候，无意间总能刷到各种口号：再写不用PS了，人人都可以P图，各种风格视频生成太炸裂了。。。

你咋不说直接生成更炸裂？你要原视频转，那我问你，原视频怎么来？要不要有？我会无中生有吗？回答我。那我要不要会视频制作？嗯！你回答我。你说这些说人人都能造视频的，回答我！look in my eyes! tell me! why? why? baby why?

本段恶搞，无任何观点，不要盯着看，纯娱乐一下就行了。

既然大家都出不错的图片编辑功能，那要不G师傅一起切搓一下？两个人单挑太容易生死相博了，正好grok也有图片的功能了，拉进来大家一起站到赛道上吧。

方案

相同的指令生成图片，纯靠视觉检查生成图片的完成度，文字，风格一致性等。本来相计算时间的，一来自己懒，后来发现没必要。
对同一张图片，同样的提示词多轮编辑功能。一直还是视觉检查成品。
上点压力，带中文文字海报生成测试。
黑白照片上色，顺带调整修改
图片的细节修改。

不对最终的图片进行科学的分析，单纯的楼主视觉的主观感受。关于提到的生成时间，不考虑梯子的问题，grok最快，gemini其次，gpt-4o最慢。（仅仅只是速度）

准备图片和文字

一、相同生成图片的指令："生成一张现代城市街景，包含10个不同元素，需要出现'欢迎来到上海'中文标识，16:9比例，赛博朋克风格"

二、多轮图片编辑修改：

生成戴眼镜的亚洲女性程序员在咖啡厅工作，桌上放三台电子设备
将眼镜换成墨镜，咖啡杯改为星巴克logo，背景增加书架

三、中文文字海报生成：

生成春节促销海报，需包含以下元素：

- 主标题：龙年大吉 全场5折起
- 副标题：新春特惠截止2月15日
- 二维码位置预留
- 传统剪纸风格

注意文字排版美观，避免错字"

四、准备黑白照片，提示词：

"请对这张黑白照片进行以下处理：

1. 自然上色
2. 修复面部细节
3. 背景添加樱花树
4. 右下角添加'1950s Memory'艺术字"

五、图片的细节控制修改：

“将人物发型改为齐耳短发，衬衫换成高领毛衣，添加圆形金属框眼镜”

一、相同生成图片的指令

"生成一张现代城市街景，包含10个不同元素，需要出现'欢迎来到上海'中文标识，16:9比例，赛博朋克风格"

grok风格一致性还行，但好象跟赛博朋克风差一点，但是文字就完全乱出牌了，人物的细节也能不仔细观看。

Gemini风格接近赛博朋克风了，只是两次的风格区别有点大，文字一样不能看，第二个字数都对不上，好的地方是字没有叠到一块。

风格相近，文字也都对，门店的招牌小字虽然字不全正确，也没有叠在一块。

这一种GPT-4o完胜。另外两个不评了

二、多轮图片编辑修改

生成戴眼镜的亚洲女性程序员在咖啡厅工作，桌上放三台电子设备
将眼镜换成墨镜，咖啡杯改为星巴克logo，背景增加书架

Grok一开始的第一张人物右眼有问题，所以重新又生成了一张，一样还是人物右眼有同样的问题，手部细节不够好，电子设备少了一个，第二步修改的时候，星巴克和墨镜生成，效果还算良好，背景书架被它无视了。场景的一致性保持的不错。

Gemini的人物生成还行，手部细节也比Grok控制得好，桌上电子设备多了一个，第二步修改的时候星巴克、墨镜、书架也元素全部出来了。只是犯了把正题的答案写错了题目下面的错误，人物整体变了，桌子换了，桌上设备也变了。

手部细节无法看到，不好判断，三个电子设备的摆放正确，特别是设备的使用方向，跟我们日常摆放这三个设备的方向接近，杯子在手机屏幕上的倒影细节，双眼皮有一点点过份，第二步没有处理出来，再一次提一下GPT-4o的慢。

GPT-4o的修改图没能出来，这一轮不比。

三、中文文字海报生成：

生成春节促销海报，需包含以下元素：

- >> 主标题：龙年大吉 全场5折起
- >> 副标题：新春特惠截止2月15日
- >> 二维码位置预留
- >> 传统剪纸风格

>> 注意文字排版美观，避免错字"

Grok一开始出的英文版，然后我重新增加了中文提示，再生了一个中文的，干脆就每一个都生成了中英文两版，更好的区别方字，不得不多，英文的文字不错，中文第一步测试的里面正确多了，虽然小字还是抽象的。

Gemini文字不如Grok的效果好，但是海报设计上出彩，比上面的元素更丰富，效果也更突出，龙比Grok的逼真太多了，灯笼、浮雕的阴影立体感都正常渲染。

GPT-4o的文字处理依然独一档，剪纸风格也理解的比其它二位更准确，二维码位置预留理解到位，没有随便处理个二维码在上面。

这一轮我选GPT-4o !!!

四、准备黑白照片，提示词

请对这张黑白照片进行以下处理：

1. >> 自然上色
2. >> 修复面部细节
3. >> 背景添加樱花树
4. >> 右下角添加'1950s Memory'艺术字

一样的套路，Grok又丢了元素，第一次的时候上次丢了，面部细节、背景、文字都满足，人物稍微有一点变化，不过整体的一致性保持的还不错，猜换背景的时候一起把人物脸上的光影换掉了。

Gemini好象对于人像的保护很重要，原同样的图片总是提示“出了点问题”，然后图片就出不来了，偶尔有时候还不生成图片。退而求其次将刚刚生成的图片进行去色，再让它上色，结果是除了它没有给上色，其它部分内容照做了，但是效果不尽如人意，人变了，桌上的电脑也变了，设备的变更搞得时间都穿越了，就场景和人物的大概还能看得出来。

GPT-4o整体需要的元素都有，而且完成度也不错，不扣背景的阴影效果，只是完全换了另外一张照片，一样算答错题的套路。

这一轮我选Grok！！！

五、图片增加细节信息

将人物发型改为齐耳短发，衬衫换成高领毛衣，添加圆形金属框眼镜

Grok的毛衣、眼镜和维持原样风格都保持的不错，只是发型的齐耳理解有点偏差，是不是到耳就行了。

GPT-4o这波毛衣、眼镜、齐耳短发处理的不错，只是这把整个人换掉了，好比答案和解题思路都对，最后答在了别的题下面。

这一把我投票给Grok。Gemini一直不处理(不确定是不是因为人像)

最后

本来想再试试其它的方法的，比如两张照片的元素合成，基于一个线稿的框架进行发挥，奈何免费的次数限制让人头疼。

某些方面确实不错，人物的质感，相较于早期SD里面那些抽象的手。画面有时候也给了想象的空间，极低的成本让我的某个想法，快速可能的可视化了，相较于SD和midjourney来说，功能上的差距还是有不少的，特别是多次修改的时候的一致性，刚刚最好的应该是grok的毛衣眼镜了，把SD和MJ的局部重绘或其它插件功能拿过来，就有一种胜之不武的感觉了。

再说那些炸裂、燃爆的自媒体，看看就好了，我配图的时候也经常用AI生图，为了达到配合某个目的，重复调整和生成很多次同一张配图，有时候自媒体那儿看到的控制得很精细或者前面联动很精彩的一张，是经过了无数次抽卡抽到最好的一次，如果对专业的人来说这个时间，完全可以自行处理好一张，更符合自己预期的图片了。

当然，如果带着随便、是张差不多的图片就可以凑和，但自己又没有办法直接处理这个目的时候，那大可以进行抽卡尝试，能用就行了，这个确实是大大解决了从无到有的过程。当然专门处理图片的人员也能被快速的提供帮助的，特是还可以有工作流的加持。

纯属个人试玩，以上观点都不算数！！！