伴随着计算机科技的迅猛发展,“人工智能”强势崛起,从“高大上”走向“接地气”已经是成为不可逆转的趋势。人工智能可以解决农业、医疗保健、教育和世界经济发展中的许多问题,甚至重现影像资料。
百年前的北京是什么样子?近日,一位叫大谷Spitzer的微博网友,利用AI技术,将人民日报4年前发布的1920年北京黑白影像资料,做了修复工作。
| AI 是怎么修复老片的?
据报道,作者 @大谷 Spitzer 修复这个视频的过程,主要有三部分,分别是补帧(让视频更流畅)、上色(让黑白变彩色)和分辨率扩增(让视频变更清晰)。
具体到工具,@大谷 Spitzer 补帧用的是 DAIN,上色用的是 DeOldify,分辨率扩增用的是 ESRGAN。
补帧的DAIN,简单来说就是一个基于视频深度信息感知的时间帧插值算法。DAIN 算法不会直接生成画面,而是先通过获取视频深度信息,检测出物体遮挡情况。然后,从相邻像素收集上下文信息,来完成层次特征学习。最后,基于上述信息生成视频帧。
视频上色方面,他用到了 DeOldify,这是一个在深度学习圈非常热门的项目。DeOldify 基于一种名为 GAN(生成对抗网络)的技术。它通过两个神经网络相互博弈的方式来学习数据,能生成逼真的新内容,其中一个广为人知的应用,是可以换脸的 Deepfake。
分辨率扩增上,@大谷 Spitzer 用的是 ESRGAN,同样是 GAN 的应用。把一张图片放大超过其原本分辨率,是很多人经常会做的事。这样的结果是,图片会变得模糊,因此就有人去研究,怎么把图片发大超过分辨率,而不变得模糊。
除了@大谷 Spitzer,今年2月也有国外网友Denis Shiryaev利用一种增强程序Gigapixel AI,将1896年的古董电影《火车进站》,转变成了4K 60fps高清“大电影”。
它利用一种专有的插值算法,对图像做分析、识别其细节和结构,最后将额外的“信息”填充到图像中。
不仅如此,还需要弄清楚如何显示这些额外的像素,这就是插值过程的用武之地。插值估计每个新像素要显示什么内容,这个过程是基于它们周边的像素。对于这一点,有许多方法可以来衡量,包括最近邻 Nearest Neighbor方法、双线性插值 Bilinear Interpolation方法、双三次插值 Bicubic Interpolation。
思铺学院准备了丰富的人工智能相关项目,包括短期营地、科研训练、微创课题,对人工智能感兴趣的同学,可以咨询相关老师。