Lab多篇随笔入选CVPR,图片风格转换

1. 前言

  图片风格转换最早进入人们的视野,臆想就是Prisma这款来自俄国的网红App。他使用神经互连网(多层卷积神经互联网)将图片转换成为一定风格艺术照片。利用图片风格转换算法,大家可以将一个图纸放入以及教练好的神经网络模型举行预测结果取得风格大相径庭,独具特色的图形。随着iOS11苹果推出了CoreML,大家得以很轻松将陶冶好的这一个风格转换模型转换成为苹果的CoreML
Model,并接纳那么些模型来拓展图片风格转换。

图形风格转换 @Prisma

2. 图片风格转换算法介绍

  二〇一五年,德意志联邦共和国数学家 Gatys等人发表一篇名为《A Neural Algorithm of
Artistic
Style》的小说,打开了神经互连网在图像艺术创作的大门。小编选用VGG16模子对一张原图(Content
Image)和一张风格图(Style
Image)分别举行图像特征提取。通过行使对三种特色构造损失函数,对一张开始化图片进行损失值总结并汇报重绘图像获得生成图(Generated
Image)。然则这几个算法每五遍生成一张图片都亟需展开两回互连网陶冶,须求消耗的大运比较长。麻省理军事大学的Johnson[6]等人提议了飞跃风格转移算法,磨炼一个互连网,对于自由一张图片都可以变换成为互联网对应的作风。快捷转换算法包罗五个互联网。一个为图片转换互联网(Image
Transform Network),一个为损失互连网(Loss
Network)。在教练阶段选取大批量图片用七个互联网开展练习取得模型,在出口阶段套用模型将结果开展输出获得生成图。他们查获的互连网相对Gatys的模子得到生成图的快慢快上三个数据级。大家在Nokia上进展图片风格转换的时候可以选取Johnson的章程火速的生成风格图片,当然使用Gatys的措施也是足以的,可是在生成图片的时候会损耗越多的时候。

迅猛风格迁移算法

  上图即是飞速风格迁移算法的总体结构图,该算法包含图片转换网络和损失统计网络。其中图片转换互联网是一个多层卷积神经网络,它将一张输入的原来图片转换成为一张生成图片。损失计算网络是一个VGG-16互连网,用于总结图片转换互连网生成图片对于我们输入的风格图和原图之间的损失大小。通过测算生成图与原图的情节损失以及生成图与风格图的品格损失大小来判断生成图的质量。通过不断一个钱打二十四个结来压缩损失,反向传播到图片转换网络并对其进行优化,最后赢得合格的图样风格转换模型。而那个模型就可以被大家不停用来进行图纸到现实某一作风的更换。

图片 1

3. CoreML介绍

  CoreML 是 Apple 今年 WWDC
新生产面向开发者的机器学习框架。若是大家有一个MLModel大家得以简单的施用Model进行结果的预测,所有的MLModel都会有以下结构。

MLModel结构

  一般一个MLModel文件会包罗MLInput,MLModel,MLOutput三有些,大家将数据封装成为Input并交付给MLModel,模型会进行结果揣摸并出口预测结果Output,大家再将猜想的结果转换成为大家必要的数据类型。

腾讯AI Lab微信公众号前几日公布了其首先条音信,揭橥腾讯AI
Lab多篇杂文入选即将开幕的CVPR、ACL及ICML等超级会议。

4. 代码完结

  CoreML对图片的处理都亟需将图纸转换成为CVPixelBufferRef数据,那里提供一段UIImageCVPixelBufferRef的代码。

CVPixelBufferRef转换代码

  将图片转换成为CVPixelBufferRef而后放入模型进行处理生成Output并取得结果,结果也是一个CVPixelBufferRef的数据。

Output

  所以那里大家还须求将CVPixelBufferRef转回去UIImage,具体的贯彻代码如下:

image.png

越多具体的代码见项目。

在AI科技(science and technology)大本营公众号会话中输入“腾讯”,打包下载腾讯AI
Lab入选CVPR、ACL及ICML的杂谈。

5. 细节优化

腾讯AI实验室授权转发

5.1 合成图生效用果转换

有时大家会觉得合成图片的成效并不如意,如上边的以身作则图1跟2,大家能够看来2早就跟1差距分外的大了,一定程度上我会觉得风格过度了。这一个时候大家得以经过调整合成图的功能来换取全体构图的完整性,比如说图3的作风只有50%。大家可以看到图3成像会愈来愈具体而又有例外风味。别的还足以由此调整相比度,颜色饱和度来调整构图,那里就要求依照图片消耗更多的时间了。

示例图 @Fzliu

1. CVPR

IEEE Conference on Computer Vision and Pattern Recognition

IEEE国际总结机视觉与情势识别会议

十一月21日 – 26日 | 花旗国海陵岛

CVPR是近十年来计算机视觉领域举世最有影响力、内容最完善的一等学术会议,由五洲最大的非营利性专业技术学会IEEE(电气和电子工程师协会)主办。2017谷歌(Google)学术目标(谷歌Scholar)按杂文引用率排行,
CVPR位列总计机视觉领域良好。今年CVPR审核了2620篇小说,最终选定783篇,录取率29%,口头报告录取率仅2.65%。

腾讯AI
Lab总括机视觉经理刘威博士介绍到,“CVPR的口头报告一般是那儿当先的商量课题,在学术界和工业界都震慑很大,每年都集齐如加州伯克利分校州立大学和谷歌(谷歌)等环球最知名高校和科学和技术公司。”

腾讯AI Lab六篇杂文入选CVPR

论文一:Real Time Neural Style Transfer for Videos

本文用深度前向卷积神经互联网探索视频艺术风格的高效迁移,提议了一种崭新两帧协同磨炼体制,能维持视频时域一致性并清除闪烁跳动瑕疵,确保摄像风格迁移实时、高质、高效完毕。

* 此杂文后附详细解析

论文二:WSISA: Making Survival Prediction from Whole Slide
Histopathological Images

诗歌首次提出一种全尺寸、无标注、基于病理图片的患儿生存有效预测方法WSISA,在肺水肿和脑癌两类癌症的多个分歧数据库上质量均大于基于小块图像格局,有力帮助大数据时代的精准个性化诊疗。

论文三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional
Networks for Image Captioning

本着图像描述生成任务,SCA-CNN基于卷积互联网的多层特征来动态变化文书描述,进而建模文本生成进程中空间及通道上的注意力模型。

论文四:Deep Self-Taught Learning for Weakly Supervised Object
Localization

正文提议依靠检测器自身不断立异磨炼样本质量,不断增加检测器品质的一种全新方法,破解弱监督对象检测难点中陶冶样本性能低的瓶颈。

论文五:Diverse Image Annotation

本文提议了一种新的机动图像标注目标,即用少量多种性标签表达尽量多的图像信息,该目的丰硕利用标签之间的语义关系,使得自动标注结果与人类标注越发切近。

论文六:Exploiting Symmetry and/or Manhattan Properties for 3D Object
Structure Estimation from Single and Multiple Images

根据曼哈顿结构与对称消息,文中提出了单张图像三维重建及多张图像Structure
from Motion三维重建的新点子。

CVPR重点诗歌解析

CVPR选中的六篇小说,我们将首要分析《视频的实时神经风格迁移》(Real-提姆e
Neural Style Transfer for Videos)[1]那篇颇具立异的篇章。

在过去很长一段时间内,业界流行的图像滤镜日常只是对全局颜色属性的调动,比如亮度、色相、饱和度等。在二零一六年的CVPR,Gatys等人[2]首创性地提出将深度神经互联网应用于图像的艺术风格迁移,使得输入图像可以模拟如梵高的星空、莫奈的日出映像等任何项目的艺术风格,效果惊艳。

Gatys等人干活纵然得到了老大好的功能,可是缺点是按照优化,十分耗时;到2016
ECCV时,Johnson等人[3]提议了应用深度前向神经互连网替代优化进度,达成了实时的图像风格迁移,修图工具Prisma随之风靡一时。但一贯将图像风格迁移的点子应用到视频上,却会使得原本连贯的视频内容在差别帧中转化为区其他品格,造成视频的闪光跳动,严重影响观感体验。为了化解闪烁难题,Ruder等人[4]进入了对时域一致性的设想,指出了一种基于优化的视频艺术滤镜方法,但速度极慢远远达不到实时。

图片 2

腾讯AI
Lab数学家利用深度前向卷积神经网络,探索摄像艺术风格连忙迁移的或者,提出了一种全新的两帧协同练习体制,保持了摄像时域一致性,消除了闪烁跳动瑕疵,同时确保摄像风格迁移可以实时落成,兼顾了视频风格转换的高质量与高功效。

视频艺术滤镜模型如下图所示。通过损失互联网(Loss
Network)总括三番五次多个输入视频帧之间的损失来练习作风变换网络(Stylizing
Network)。其中空间损失(Spatial
Loss)同时描述了图像的情节损失以及风格损失;时间损失(Temporal
Loss)描述了多少个作风变换后的视频帧之间的年华一致性。

图片 3

文章相关散文

[1] Haozhi Huang, Hao Wang, Wenhan Luo, Lin Ma, Wenhao Jiang, Xiaolong
Zhu, Zhifeng Li, and Wei Liu. Real-Time Neural Style Transfer for
Videos. CVPR, 2017.

[2] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer
using convolutional neural networks. CVPR, 2016.

[3] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for
real-time style transfer and super-resolution. ECCV, 2016.

[4] M. Ruder, A. Dosovitskiy, and T. Brox. Artistic style transfer for
videos. German Conference on Pattern Recognition, 2016.

5.2 合成图颜色转换

图表风格转换在我看来有少数是特殊可是也是沉重的,那就是颜色的动迁。我么可以看到在示例图2中,合成图是采取梵高的星空转换出来的图样,全部图片纹理以及颜色进行了扭转。这么些时候假若我们盼望保留原图的水彩而未知合成图的纹路,就可以使用YUV颜色空间拓展更换。

示例图2

YUV是图表的一种多少格式,YUV中的“Y”表示图片的知道程度;“U”代表色度,也叫做饱和度;“V”代表浓度。从YUV的示例图大家可以很理解的看到他们的切切实实意思。

YUV示例

在那边大家可以看出里边U以及V可以很好代表图片的水彩,而Y代表了图片的多数情节。因而大家得以移植原图的U以及V到合成图上,就可以获得示例图2中的颜色转换合成图了。

2. ACL

Meetings of the Association for Computational Linguistics

国际总计机语言协会年会

七月30日 – 六月4日|加拿大柏林

ACL是测算语言学里最重大的国际会议,二零一九年是第55届。会议涵盖生物经济学、认知建模与心境语言学、交互式对话系统、机器翻译等各类领域,二零一九年有194
篇长随笔、107 篇短诗歌、21 个软件演示及 21
篇焦点演讲。在2017谷歌(谷歌(Google))学术目的(谷歌(Google) Scholar)按随笔引用率名次,
ACL是电脑语言学和自然语言处理领域最高级别国际学术年会。

腾讯AI
Lab副监护人俞栋认为,「自然语言的理解、表达、生成和转移平素是自然语言处理的骨干难题。近日有很多新的解决思路和办法。二〇一九年的ACL涉及自然语言处理的各方面,越发在语义分析、语义角色标注、基于语义和语法的自然语言生成、机器翻译和问答系统方向上都有一部分幽默的干活。」

腾讯AI
Lab老董张潼介绍到,「ACL早期拔取语法和规则分析自然语言,90年间后,随着以LDC(Linguistic
Data
Consortium)为表示的自然语言数据集建立扩展,总括自然语言方法在总括语言学里成效进一步大并改为主流。2000年后随着互连网急迅发展及以自然语言为主导的人机交互方式兴起,自然语言探究被授予极高应用价值。」

腾讯AI Lab三篇文章入选ACL

论文一:Modeling Source Syntax for Neural Machine Translation

正文提议将句法树转化为句法标签体系的轻量级方法,有效将源端句法信息引入神经互联网翻译系统,被验证能强烈提升翻译效果。

论文二:Chunk-Based Bi-Scale Decoder for Neural Machine Translation

本文引入一个外加组块神经互连网层,从组块到词的层系变化译文,辅助落成神经互连网翻译系统短语级其他建模,实验注明该办法在三种语言上都能肯定进步翻译效果。*
本文小编亦致谢前任职单位

论文三:Deep Pyramid Convolutional Neural Networks for Text
Categorization

作品提议了一种能有效发挥文本长距离关系的复杂度词粒度CNN。本文研讨了怎么强化词粒度CNN对文件举行全局表明,并找到了一种简单网络结构,通过增加网络深度提高准确度,但只是多扩张总括量。实验申明15层的DPCNN在三个心绪和大旨分类职责上高达了当下最佳结果。

6. 运转条件

  • Mac OS 10.12.6
  • Xcode 9 beta 6
  • Python 3.1
  • Tensorflow 1.0
  • Keras 2
  • Coremltools 0.4.0

3. ICML

International Conference on Machine Learning

国际机器学习大会

3月6日 – 11日|澳大长春芝加哥

机器学习是人造智能的主题技术,而ICML是机器学习最要害的五个集会之一(另一个是NIPS)。ICML源于1980年在Carnegie梅隆大学开办的机器学习商讨会,现由国际机器学习学会(IMLS)主办。2017谷歌(谷歌(Google))学术目的以「机器学习」关键词名次,ICML位列第一。

腾讯AI
Lab主管张潼博士介绍到,「很多经典随想和算法,如CRF,都是在ICML上首次指出的,那么些会议涉及机械学习有关的拥有商讨,包含近年卓殊热门的吃水学习、优化算法、计算模型和图模型等。在早期,ICML更尊重实验和利用,而NIPS更尊敬模型和算法,但多年来四个集会有些趋同。」

腾讯AI Lab四篇作品入选ICML

论文一:Scaling Up Sparse Support Vector Machines by Simultaneous
Feature and Sample Reduction

正文提出了首个能在模型磨炼开头前,同时检测和去除稀疏协助向量机中不活跃样本和特点的筛选算法,并从理论和尝试中验证其能不损失任何精度地把模型练习作用提高数个量级。

论文二:GSOS: Gauss-Seidel Operator Splitting Algorithm for Multi-Term
Nonsmooth Convex Composite Optimization

本文提出了求解多块非光滑复合凸优化问题的算子分化新算法,该算法采纳Gauss-Seidel迭代以及算子分歧的技巧处理不可分的非光滑正则项,并以实验求证了该算法的有效性。

论文三:Efficient Distributed Learning with Sparsity

本文提议了一个高维大数据中能更有效学习稀疏线性模型的分布式算法。在单个机器练习样本丰盛多时,该算法只需一轮通讯就能读书出总结最优误差模型;即便单个机器样本不足,学习总结最优误差模型的通讯代价只随机器数量对数曲线上涨,而不借助于任何规格数。

论文四:Projection-free Distributed Online Learning in Networks

本文提出了去中央化的分布式在线条件梯度算法。该算法将标准化梯度的免投影特性推广到分布式在线场景,解决了观念算法要求复杂的阴影操作难点,能高效处理去中央化的流式数据。

腾讯AI
Lab于二零一六年五月树立,专注于机器学习、总计机视觉、语音识别和自然语言了解多少个领域「基础探究」,及内容、游戏、社交和平台工具型四大AI「应用探索」。腾讯AI
Lab首席营业官及第一首长是机械学习和大数据我们张潼学士(详情可点链接),副负责人及拉合尔实验室主任是语音识别及深度学习专家俞栋硕士。方今团队有50余位AI数学家及200多位应用工程师。

图片 4

图片 5

7. Demo

此间我将长存的风格转换模型集合在一齐写了一个作风转换Demo,具体能够见截图:

shoot1.jpeg

shoot2.jpeg

shoot3.jpeg

shoot4.jpeg

shoot5.jpeg

shoot6.jpeg

Demo地址:https://github.com/kingandyoga/StyleTransfer-iOS

8. 参考文献

  • [1]. Ethan Chan and Rishabh Bhargava. Show, Divide and Neural:
    Weighted Style Transfer[D]. Stanford University,2016
  • [2]. Leon A. Gatys, Alexander S. Ecker,Matthias Bethge. A Neural
    Algorithm of Artistic Style[D]. Germany,2015
  • [3]. Justin Johnson, Alexandre Alahi, Li Fei-Fei. Perceptual
    Losses for Real-Time Style Transfer and Super-Resolution[D].
    Stanford University,2016
  • [4]. Leon A.Gatys, Matthias Bethge, Aaron Hertzmann, Eli
    Shechtman.Preserving Color in Neural Artistic Style
    Transfer[D].Germany,2016
  • [5]. Apple Core ML documentation
    (https://developer.apple.com/documentation/coreml)
  • [6]. Style Transfer
    Sample(https://github.com/fzliu/style-transfer)
  • [7]. MLModelZoo

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图