百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

谷歌P图神器来了!不用学不用教,输入一句话,分分钟给结果

wptr33 2025-06-12 16:44 8 浏览

Pine 发自 凹非寺

量子位 | 公众号 QbitAI

当你拍照片时,“模特不好好配合”怎么办?

没事!现在只用一句话就能后期P图了,还是能改变动作、表情的那种!

比如说你能轻松让鸟张开翅膀(输入“张开翅膀的鸟”即可)

又或者说,想要让一只站立的狗蹲下:

看起来还真不赖!而这个新的“P图”方法呢,名叫Imagic,是基于爆火的扩散模型(Diffusion Model)来实现的。

是的,又是扩散模型,它的能耐想必也不用多介绍了吧(那看那铺天盖地和它相关的论文就能佐证)

那在扩散模型加持下的Imagic到底有何厉害之处,话不多说,一起来看看吧!

多达6种功能

据不完全统计,Imagic的功能就有6种

改变姿势、变换构图、切换滤镜、多个对象编辑、添加对象、更改颜色……

先来看看这个P图神器改变姿势的效果,比如说输入一条站立的狗,通过变换提示文字,得到的效果是酱紫的~

或者说输入一个随意站立的人,输入口令,他就“乖乖听话,任你摆布”(手动狗头)了,甚至还能凭空出现一个水杯。

还没看够?那再来康康Imagic其他功能:改变颜色,或者增加对象,也可以多种功能同时使用。

总的来说,Imagic的厉害之处太多,这里就不一一详细展开了,效果可以看下图。

除了这么多功能之外,Imagic还有另外一个比较人性化的点,就是当你告诉它要如何“P图”后,它会随机生成几个不同的选项供你选择。

其实这种在真实图像上编辑的模型Imagic不是第一个,在此之前就已经有很多个类似的模型。

这时就会有网友问了,“Imagic有什么厉害的点呢?”

话不多说,直接上效果对比。

这里选取了比较常见的基于真实图像编辑的两个模型:SDEdit、Text2LIVE与Imagic作对比。

结果很显然,Imagic完成“P图指令”的效果很好,在细节上也丝毫不逊色其他模型。

(确实妙啊)

那Imagic是如何“击败”SDEdit、Text2LIVE,实现这样的效果呢?

是怎样实现的

千言万语汇成四个字:扩散模型,在论文的标题上它都赫然在列。

具体到Imagic中,扩散模型的作用是如何发挥出来的,来看看详细的“P图”过程。

整体来说分为三大步。

第一步是优化文本嵌入层。

具体来说,先给定输入的图像和目标文本,然后对目标文本进行编码,得到初始的嵌入层。

然后不断调整初始嵌入层,让其能够通过预先训练的扩散模型很好地重建输入图像。

这样一来,最终便会得到优化后的嵌入层(能够很好地重建输入图像)

第二步是对扩散模型进行微调,这时就要用到上一步已经优化之后的嵌入层,让嵌入层经过模型后重建输入图像。

在重建的过程,需要不断更改模型中损失函数的参数,以让模型适应优化后的输入层,直到能够很好地重建输入图像时为止,这样一来便得到了微调之后的模型。

第三步就要开始正式P图了。

值得一提的是,这一步除了输入初始的目标嵌入层(tgt)外,还会插入优化好的嵌入层(opt),它们的关系如下图。

通过变换参数,实际的效果如下图。

如果你想更加详细地了解Imagic,可以戳文末链接阅读论文原文。

研究团队

Imagic的六位作者均来自Google Research,论文有两位第一作者:Bahjat Kawar和Shiran Zada,均来自以色列。

值得一提的是,Bahjat Kawar还是一位以色列理工学院在读博士,他是在Google Research实习期间完成了这项研究。

而Shiran Zada今年5月刚加入Google Research,目前是计算机视觉研究员。

他曾在微软担任软件工程师以及技术主管的职务,主要负责网络安全相关的项目开发。

考链接:
[1]https://arxiv.org/abs/2210.09276
[2]https://twitter.com/Buntworthy/status/1582307817884889088
[3]https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关推荐

Linux文件系统操作常用命令(linux文件内容操作命令)

在Linux系统中,有一些常用的文件系统操作命令,以下是这些命令的介绍和作用:#切换目录,其中./代表当前目录,../代表上一级目录cd#查看当前目录里的文件和文件夹ls#...

别小看tail 命令,它难倒了技术总监

我把自己以往的文章汇总成为了Github,欢迎各位大佬star...

lnav:基于 Linux 的高级控制台日志文件查看器

lnav是一款开源的控制台日志文件查看器,专为Linux和Unix-like系统设计。它通过自动检测日志文件的格式,提取时间戳、日志级别等关键信息,并将多个日志文件的内容按时间顺序合并显示,...

声明式与命令式代码(声明模式和命令模式)

编程范式中的术语和差异信不信由你,你可能已经以开发人员的身份使用了多种编程范例。因为没有什么比用编程理论招待朋友更有趣的了,所以这篇文章可以帮助您认识代码中的流行范例。命令式编程命令式编程是我们从As...

linux中的常用命令(linux常用命令和作用)

linux中的常用命令linux中的命令统称shell命令shell是一个命令行解释器,将用户命令解析为操作系统所能理解的指令,实现用户与操作系统的交互shell终端:我们平时输入命令,执行程序的那个...

提高工作效率的--Linux常用命令,能够决解95%以上的问题

点击上方关注,第一时间接受干货转发,点赞,收藏,不如一次关注评论区第一条注意查看回复:Linux命令获取linux常用命令大全pdf+Linux命令行大全pdf...

如何限制他人操作自己的电脑?(如何控制别人的电脑不让发现)

这段时间,小猪罗志祥正处于风口浪尖,具体是为啥?还不知道的小伙伴赶紧去补一下最近的娱乐圈八卦~简单来说,就是我们的小罗同事,以自己超强的体力,以及超强的时间管理能力,重新定义了「多人运动」的含义,重新...

最通俗易懂的命令模式讲解(命令模式百科)

我们先不讲什么是命令模式,先通过一个场景来引出命令模式,看看命令模式能解决什么样的问题。现在有一个渣男张三,他有还几个女朋友,你现在是不是还是单身狗,你就说你气不气?然后他需要每天分别叫几个女朋友起床...

互联网大厂后端必看!Spring Boot 中Runtime执行与停止命令?

你是否曾在使用SpringBoot开发项目时,遇到需要执行系统命令的场景?比如调用脚本进行文件处理,又或是启动外部程序?很多后端开发人员会使用Processexec=Runtime.get...

Linux 常用命令(linux常用的20个命令面试)

日志排查类操作命令...

Java字节码指令:if_icmpgt(0xA3)(java字节码使用的汇编语言)

if_icmpgt是Java字节码中的一条条件跳转指令,其全称是"IfIntegerCompareGreaterThan"。它用于比较两个整数值的大小。如果栈顶的第一个...

外贸干货|如何增加领英的曝光量和询盘

#跨境电商#...

golang执行linux命令(golang调用shell脚本)

需求需要通过openssl生成rsa秘钥,然后保存该秘钥。代码实例packagemainimport("io/ioutil""bytes"&...

LINUX磁盘挂载(linux磁盘挂载到windows)

1、使用root用户查看磁盘挂载情况:fdisk-l2、使用df查看当前磁盘挂载情况,根据和fdisk-l的结果进行对比,查看还有那些磁盘未使用3、挂载:mount磁盘挂载路径...

Linux命令学习——nl命令(linux ln命令的使用)

nl命令主要功能为每一个文件添加行号,每一个输入的文件添加行号后发送到标准输出。当没有文件或文件为-时,读取标准输入...