OpenAI 发布 GPT Image 1.5:全面升级
OpenAI 发布 GPT Image 1.5:全面升级 by 赛博禅心
刚刚,OpenAI 今天发布了新的图像模型:GPT Image 1.5
核心变化一句话:精准编辑,不崩全图
让它改哪,他就改哪,其他地方不乱动
同时,对比上一代模型 GPT Image 1.0:
• 更强的指令遵循 • 更好的细节保持 • 速度比上一代快4倍 • API 价格降了 20% 以上
今天开始,向所有 ChatGPT 用户推出。
另外经实测,这个模型在中文处理上比 NanoBanana 还是差了不少,本文也会详细说说
精准编辑
这是本次升级的核心
当你上传一张图片要求修改时,模型只改你要改的地方,光线、构图、人物外貌这些元素在多轮编辑中都能保持一致
看官方给的例子,这个模型擅长各种编辑操作:添加、删除、合成、混合、移植
三张输入图:两个男人、一只狗
第一步
把这两个男人和这只狗合成一张 2000 年代胶片相机风格的照片,他们在一个小孩的生日派对上,看起来很无聊
第二步
在背景加一群疯狂的小孩,到处扔东西、尖叫
前景的两个人和狗,基本没变
第三步
把左边的男人改成手绘复古动漫风格,狗改成毛绒玩具风格,右边的男人和背景保持不变
同一张图里,三种风格共存
左边是动漫,中间是毛绒玩具,右边是真人
这在之前几乎做不到
第四步
给他们都穿上 OpenAI 卫衣(参考另一张图的样式)
第五步
把两个男人去掉,只留下狗,放进一个 OpenAI 直播画面里
五轮编辑下来,狗的形象始终保持一致
实测
我先上传了山姆奥特曼的照片
创意转换
在 ChatGPT 里使用这个模型,可以看到新增了预设风格和创意模板,不用写提示词也能玩:电影海报、80 年代健身教练、魅力娃娃、装饰品、时尚广告、换装角色、油画、饮料广告....
看这个电影海报的例子
提示词:用这两个男人的照片,做一张老派好莱坞黄金时代风格的电影海报,电影叫「codex」。把他们的服装改成那个年代的风格。演员名字改成 Wojciech Zaremba(左)和 Greg Brockman(右),导演 Sam Altman,制片人 Fidji Simo,Feel the AGI Pictures 出品
人物面部特征保留了,服装、排版、文字都按要求生成
实测
指令遵循
相比旧版,新模型对指令的遵循更加可靠
看这个测试:画一个 6x6 的网格,每个格子里放不同的物品
提示词
做一个 6 列 x 6 行的网格:
• 第 1 行:希腊字母 beta、沙滩球、柠檬、机器人、鱼缸、青蛙 • 第 2 行:螳螂、名贵手表、浴缸、太阳镜、彩色蝴蝶、信封 • 第 3 行:邮票、相框、冒热气的饺子、「miracle」这个词、滑雪板、字母 Z • 第 4 行:马桶、地铁代币、静音图标、香水瓶、蜻蜓、滑板头盔 • 第 5 行:蓝牙图标、数字 13、绿色爱心、魔方、加拿大鹅、士兵头盔 • 第 6 行:白色狗、救生衣、绳结、键盘、纸巾盒、数字 14
新版结果:
旧版结果:
新版基本都对了,旧版数错格子、放错物品
这种「精确执行复杂指令」的能力,对做信息图、产品目录、教学材料这类场景很重要
实测
文字渲染
这个版本的模型,在文字渲染方面又进了一步,能够处理更密集、更小的文字
看这个测试:把一段 Markdown 渲染成报纸版面
表格、标题、正文都有,字还挺清楚的
然后让它换成另一篇文章的内容:
之前的图像模型,文字一多就糊成一团
实测
其他质量提升
模型在其他维度上也有改进,让输出更加即拿即用,比如渲染大量小脸时的效果,以及整体画面的自然程度
1970 年代伦敦街景
提示词
做一个 1970 年代伦敦切尔西区的街景,照片级真实感,全部对焦清晰,有很多很多人,还有一辆公交车,上面有「ImageGen 1.5」的广告,带 OpenAI logo,副标题是「Create what you imagine」。超写实的业余摄影风格,iPhone 随手拍的质感
新版:
旧版:
新版的人脸更自然,整体画面的年代感也更到位
实测
果然...还是不能有汉字
进步与局限
OpenAI 用最初发布时的很多案例重新测试了新模型。结果显示在各种场景下都有明显进步,但效果仍不完美
深海海报(进步明显)
提示词:创作一张深海生物海报,展示不同深度的生物,纵向海洋剖面图,精美的日本细腻动漫风格
新版:
旧版:
科学准确性上还有一些问题,但大约 70% 是正确的,画面更加生动,避免了过早裁切
仍有局限的地方
• 风格一致性:某些风格转换还不够稳定 • 多张脸:同时生成多个人脸时偶尔会出问题 • 多语言:非英语文字的渲染质量还有提升空间
API:GPT Image 1.5
API 版本拥有与 ChatGPT Images 完全相同的能力,相关的模型信息,可以在这里查看到https://platform.openai.com/docs/models/gpt-image-1.5
同时,GPT Image 1.5 的图像输入和输出成本比上一代降低了 20%
GPT Image 1.5 定价
对比 NanoBanana Pro,GPT Image 1.5 的 High 模式和 Google 2K 价格差不多
• 2K(2048×2048):$0.139 • 4K(4096×4096):$0.24
GPT Image 1.5 的 High 模式和 Google 2K 价格差不多,但还有 Low 和 Medium 两档可选
最后
今天开始,这个模型会向全球所有 ChatGPT 用户和 API 用户推出,不需要特别勾选
旧版 ChatGPT Images 可以在这个地方使用:https://chatgpt.com/g/g-6940a876d5f4819186b4668deabcd580-4o-imagegen
可以在 OpenAI Playground 试用:https://platform.openai.com/playground/images
提示词指南:https://cookbook.openai.com/examples/multimodal/image-gen-1.5-prompting_guide
原文链接