完美抠图王冰冰,字节 实习生 斥地的AI,实现4K60帧视频及时抠图,连头发丝都根根明显量子位九小时前关注Demo可试玩看这一头蓬松的秀发,加上帅气的作为,你以为是在绿幕前拍大片?

这其实是AI拿来视频实时抠图后的成就。

没想到吧,及时视频抠图,此刻能灵巧到每一根发丝。

换到alpha通道再看一眼,不消多说,德芙打钱吧。

这就是来自字节跳动 实习生 小哥的最新研究:及时高分辨率视频抠图大法。

无需任何辅助输入,把视频丢给这个名为RVM的AI,它分分钟就能帮你把人像高精度抠出,将配景替换成能够放肆二次加工的绿幕。

不信有这么丝滑?我们用线上Demo亲身尝试了一波。

相比之下,此刻在线会议软件里的抠图,一旦头发挡住脸,人就会褪色……

头发丝更是显着糊了。

难怪看得网友直言:不敢想象你们把这只AI塞进手机里的神情。

而今,这篇论文已经中选WACV 2022。

你也可能上手一试目前,RVM已经在GitHub上开源,并给出了两种试玩道路:

所以我们也从速上手试了试。

先来看看成效:

首先来点难度低的。

对于这种人物在画面中基本不移动的处境,RVM没关系说是再现的特别好,和人工抠图几乎无差别。

现在,王冰冰进入动森都毫不违和了。

因而开脑洞,也变得简单了很多……

咳咳,言归正传。人物动作幅度加大会若何呢?

应付多人舞蹈视频而言,RVM的再现也很nice。

即便动来动去、头发乱甩,也没有感导它的抠图成绩。

只有在人物浮现掩瞒的境遇下,才会浮现缺点。

对照先辈方法MODNet,的确有不小的进步。

不过我们也发明,假若视频的布景较暗,就会教化RVM的阐明。

比喻在这种背景亮光暗浊的环境下,抠图的成果就非常不尽人意了。

能够看到,博主老哥的头发满堂糊了。

并且身材的边界线也不够明了。

以是,假如你想本身拍视频试玩,就必然要选取亮光充裕的场景。

利用时光新闻那么如此的“魔法”,完全又是怎样实现的?

依例,我们先来扒一扒论文~

实际上,有关视频抠图的算法如今已不鲜见,其中大多数采取的是将视频中的每一帧行为单独图像来兑现抠图的想法。

分别与此,在这篇论文中,研究人员构建了一个轮回架构,诈欺上了视频的时间音信,在时间一致性和抠图质量上取得了显着刷新。

从上图中可能看出,RVM的网络架构包孕三个部门:特征索取编码器,用来索取单帧特征;

轮回解码器,用于汇总年华信息;

深度引导滤波模块,用于高分辨率上采样。

此中,轮回机制的引入使得AI没关系在一连的视频流中自我学习,从而会意到哪些音讯须要保留,哪些音讯可能淡忘掉。

整体而言,轮回解码器拔取了多尺度ConvGRU来群集光阴讯息。其界说如下:

在这个编码器-解码器网络中,AI会完成对高分辨率视频的下采样,然后再行使DGF对后果进行上采样。

除此之外,研究职员还提出了一种新的训练战略:同时行使抠图和语义支解宗旨数据集来训练网络。

这样做到好处在于:首先,人像抠图与人像分裂职分密切相关,AI必需学会从语义上理解场景,本事在定位人物主体方面具备鲁棒性。

其次,现有的大部分抠图数据集只供给确凿的alpha通道和前景讯息,因而必需对配景图像进行合成。但前景和配景的光照时常差异,这就影响了合成的成果。语义支解数据集的引入可以灵验防止过拟合。

结尾,语义瓜分数据集拥有更为厚实的训练数据。

源委这一番调教之后,RVM比前代们起来,有若何的更始?

从成果对照中就可以分明感应到了:

别的,与MODNet相比,RVM更轻更快。

从下面这张表格中没关系看出,在1080p视频上RVM的处理速度是最快的,在512×288上比BGMv2略慢,在4K视频上则比带FGF的MODNet慢一点。研究人员剖析,这是因为RVM除了alpha通道外还预判了远景。

更直观的数据是,在英伟达GTX 1080Ti上,RVM能以76FPS的速率处理4K视频,以104FPS的速率处理HD视频。

一作字节跳动演习生这篇论文是一作林山川在字节跳动演习时期杀青的。

他本科、硕士均结业于华盛顿大学,曾先后在Adobe、Facebook等大厂演习。

2021年3月-6月,林山川在字节跳动演习。8月刚刚入职微软。

事实上,林山川此前就曾仰仗AI抠图大法拿下CVPR 2021最佳弟子论文荣誉奖。

他以一作身份公布论文「Real-Time High-Resolution Background Matting」,提出了Background Matting V2主意。

这一办法不妨以30FPS的速度办理4K视频,以60FPS的速度办理HD视频。

值得一提的是,Background Matting这一系列主意不止一次中了CVPR。此前,第一代Background Matting就被CVPR 2020收录。

两次论文的通讯作者都是华盛顿大学副教授Ira Kemelmacher-Shlizerman,她的考究宗旨为计算机视觉、计算机图形、AR/VR等。

另外,本次论文的二举动Linjie Yang,他是字节跳动的查究科学家。本科毕业于清华大学,在香港中文大学得到博士学位。

对了,除了能在Colab上试用之外,你也可能在网页版上实时感受一下这只AI的成果,住址拿好:GitHub住址论文住址参考链接该文观点仅代表作者本人,36氪平台仅供给信息存储空间服务。