百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

谷歌P图神器来了!不用学不用教,输入一句话,分分钟给结果

wptr33 2025-06-12 16:44 30 浏览

Pine 发自 凹非寺

量子位 | 公众号 QbitAI

当你拍照片时,“模特不好好配合”怎么办?

没事!现在只用一句话就能后期P图了,还是能改变动作、表情的那种!

比如说你能轻松让鸟张开翅膀(输入“张开翅膀的鸟”即可)

又或者说,想要让一只站立的狗蹲下:

看起来还真不赖!而这个新的“P图”方法呢,名叫Imagic,是基于爆火的扩散模型(Diffusion Model)来实现的。

是的,又是扩散模型,它的能耐想必也不用多介绍了吧(那看那铺天盖地和它相关的论文就能佐证)

那在扩散模型加持下的Imagic到底有何厉害之处,话不多说,一起来看看吧!

多达6种功能

据不完全统计,Imagic的功能就有6种

改变姿势、变换构图、切换滤镜、多个对象编辑、添加对象、更改颜色……

先来看看这个P图神器改变姿势的效果,比如说输入一条站立的狗,通过变换提示文字,得到的效果是酱紫的~

或者说输入一个随意站立的人,输入口令,他就“乖乖听话,任你摆布”(手动狗头)了,甚至还能凭空出现一个水杯。

还没看够?那再来康康Imagic其他功能:改变颜色,或者增加对象,也可以多种功能同时使用。

总的来说,Imagic的厉害之处太多,这里就不一一详细展开了,效果可以看下图。

除了这么多功能之外,Imagic还有另外一个比较人性化的点,就是当你告诉它要如何“P图”后,它会随机生成几个不同的选项供你选择。

其实这种在真实图像上编辑的模型Imagic不是第一个,在此之前就已经有很多个类似的模型。

这时就会有网友问了,“Imagic有什么厉害的点呢?”

话不多说,直接上效果对比。

这里选取了比较常见的基于真实图像编辑的两个模型:SDEdit、Text2LIVE与Imagic作对比。

结果很显然,Imagic完成“P图指令”的效果很好,在细节上也丝毫不逊色其他模型。

(确实妙啊)

那Imagic是如何“击败”SDEdit、Text2LIVE,实现这样的效果呢?

是怎样实现的

千言万语汇成四个字:扩散模型,在论文的标题上它都赫然在列。

具体到Imagic中,扩散模型的作用是如何发挥出来的,来看看详细的“P图”过程。

整体来说分为三大步。

第一步是优化文本嵌入层。

具体来说,先给定输入的图像和目标文本,然后对目标文本进行编码,得到初始的嵌入层。

然后不断调整初始嵌入层,让其能够通过预先训练的扩散模型很好地重建输入图像。

这样一来,最终便会得到优化后的嵌入层(能够很好地重建输入图像)

第二步是对扩散模型进行微调,这时就要用到上一步已经优化之后的嵌入层,让嵌入层经过模型后重建输入图像。

在重建的过程,需要不断更改模型中损失函数的参数,以让模型适应优化后的输入层,直到能够很好地重建输入图像时为止,这样一来便得到了微调之后的模型。

第三步就要开始正式P图了。

值得一提的是,这一步除了输入初始的目标嵌入层(tgt)外,还会插入优化好的嵌入层(opt),它们的关系如下图。

通过变换参数,实际的效果如下图。

如果你想更加详细地了解Imagic,可以戳文末链接阅读论文原文。

研究团队

Imagic的六位作者均来自Google Research,论文有两位第一作者:Bahjat Kawar和Shiran Zada,均来自以色列。

值得一提的是,Bahjat Kawar还是一位以色列理工学院在读博士,他是在Google Research实习期间完成了这项研究。

而Shiran Zada今年5月刚加入Google Research,目前是计算机视觉研究员。

他曾在微软担任软件工程师以及技术主管的职务,主要负责网络安全相关的项目开发。

考链接:
[1]https://arxiv.org/abs/2210.09276
[2]https://twitter.com/Buntworthy/status/1582307817884889088
[3]https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关推荐

redis的八种使用场景

前言:redis是我们工作开发中,经常要打交道的,下面对redis的使用场景做总结介绍也是对redis举报的功能做梳理。缓存Redis最常见的用途是作为缓存,用于加速应用程序的响应速度。...

基于Redis的3种分布式ID生成策略

在分布式系统设计中,全局唯一ID是一个基础而关键的组件。随着业务规模扩大和系统架构向微服务演进,传统的单机自增ID已无法满足需求。高并发、高可用的分布式ID生成方案成为构建可靠分布式系统的必要条件。R...

基于OpenWrt系统路由器的模式切换与网页设计

摘要:目前商用WiFi路由器已应用到多个领域,商家通过给用户提供一个稳定免费WiFi热点达到吸引客户、提升服务的目标。传统路由器自带的Luci界面提供了工厂模式的Web界面,用户可通过该界面配置路...

这篇文章教你看明白 nginx-ingress 控制器

主机nginx一般nginx做主机反向代理(网关)有以下配置...

如何用redis实现注册中心

一句话总结使用Redis实现注册中心:服务注册...

爱可可老师24小时热门分享(2020.5.10)

No1.看自己以前写的代码是种什么体验?No2.DooM-chip!国外网友SylvainLefebvre自制的无CPU、无操作码、无指令计数器...No3.我认为CS学位可以更好,如...

Apportable:拯救程序员,IOS一秒变安卓

摘要:还在为了跨平台使用cocos2d-x吗,拯救objc程序员的奇葩来了,ApportableSDK:FreeAndroidsupportforcocos2d-iPhone。App...

JAVA实现超买超卖方案汇总,那个最适合你,一篇文章彻底讲透

以下是几种Java实现超买超卖问题的核心解决方案及代码示例,针对高并发场景下的库存扣减问题:方案一:Redis原子操作+Lua脚本(推荐)//使用Redis+Lua保证原子性publicbo...

3月26日更新 快速施法自动施法可独立设置

2016年3月26日DOTA2有一个79.6MB的更新主要是针对自动施法和快速施法的调整本来内容不多不少朋友都有自动施法和快速施法的困扰英文更新日志一些视觉BUG修复就不翻译了主要翻译自动施...

Redis 是如何提供服务的

在刚刚接触Redis的时候,最想要知道的是一个’setnameJhon’命令到达Redis服务器的时候,它是如何返回’OK’的?里面命令处理的流程如何,具体细节怎么样?你一定有问过自己...

lua _G、_VERSION使用

到这里我们已经把lua基础库中的函数介绍完了,除了函数外基础库中还有两个常量,一个是_G,另一个是_VERSION。_G是基础库本身,指向自己,这个变量很有意思,可以无限引用自己,最后得到的还是自己,...

China's top diplomat to chair third China-Pacific Island countries foreign ministers' meeting

BEIJING,May21(Xinhua)--ChineseForeignMinisterWangYi,alsoamemberofthePoliticalBureau...

移动工作交流工具Lua推出Insights数据分析产品

Lua是一个适用于各种职业人士的移动交流平台,它在今天推出了一项叫做Insights的全新功能。Insights是一个数据平台,客户可以在上面实时看到员工之间的交流情况,并分析这些情况对公司发展的影响...

Redis 7新武器:用Redis Stack实现向量搜索的极限压测

当传统关系型数据库还在为向量相似度搜索的性能挣扎时,Redis7的RedisStack...

Nginx/OpenResty详解,Nginx Lua编程,重定向与内部子请求

重定向与内部子请求Nginx的rewrite指令不仅可以在Nginx内部的server、location之间进行跳转,还可以进行外部链接的重定向。通过ngx_lua模块的Lua函数除了能实现Nginx...