[机器学习实战] 深度学习为黑白图像着彩色_深度学习,读取黑白照片并进行彩色显示-程序员宅基地

技术标签: 机器学习  图像处理  深度学习  神经网络  AI学习、实践记录  

深度学习增强了视觉和语言处理等“认知”任务,连谷歌都转向了基于神经网络的语言翻译,如此火爆的原因或许是它不需要掌握各个领域的特定知识就能取得想要的结果。当然,海量GPUs并行计算硬件加上设计良好的框架如TensorFlow,也加速了AI革命崛起。本文将讨论另一个“认知”任务:利用深度学习使黑白图像变为彩色

本文基于最近的一篇文章:
https://arxiv.org/pdf/1603.08511.pdf这里写链接内容
假设你已经对神经网络损失函数有所了解……


目标任务

用一张黑白照片,制作出它的彩色版本。直觉上,这个想法相当简单。根据照片的内容,知道它的颜色应该是什么。比如,树叶一般是绿色的,天空是蓝色的,云朵是白色的等等。我们需要做的就是使计算机能实现它。


以前的工作和存在的问题

过去主要利用了深度学习,他们用回归来预测每一个像素的颜色,然而结果却不尽如人意,色彩平淡枯燥。

Figure 1.0 Results of a regression based model. Left: Input to the model. Right: Output of the model
Figure 1.0 Results of a regression based model. Left: Input to the model. Right: Output of the model

以前的作品使用均方误差(Mean Squared Error ,MSE)作为训练模型的损失函数,作者指出,MSE将尝试“平均”出颜色,以获得最小的平均误差,这将导致平淡的外观。于是作者改变思路,将图片着色变为分类问题。

模型的输入输出

作者使用了LAB色彩空间模式(最常见的使RGB)。在LAB方案中,L通道记录了光强值,另外两个通道则记录了一组对抗色,绿-红 和 蓝-黄。关于LAB你可以在这里了解更多。

使用LAB颜色空间的一个很有利的原因是它能使光强值保持分离。好处是黑白图片可以被当作L通道,这样模型在预测时就不必学习如何保持光强。(使用RGB则必须)。这样,模型只需学习怎样将图像彩色化,从而专注于关键步骤。

模型输出的AB通道值,可以被直接应用到黑白图像是上得到彩色图片。

该模型是一个相当标准的卷积神经网络,作者并没有用池化层,取而代之的是使用上/下采样层。

颜色量化

通过上面简短的介绍,作者采用了分类模型取代回归模型。因此,类型的数量需要做修正,作者选取了313个AB对作为分类可能数量。虽然看起来这有点少,但也可以使用一些方法来确保能出现更多颜色。(文末有介绍)

损失函数

作者使用的损失函数是标准的交叉熵(Cross Entropy)。Z 是像素的真实类型,Z^ 是模型的输出。

Equation 1.0 Standard Cross Entropy
Equation 1.0 Standard Cross Entropy

作者还指出,颜色值在分类中会出现不均衡,使用交叉熵作为损失函数在分类不均衡上不能很好地发挥作用,通常具有较少示例的类具有更高的权重。而不饱和色 灰色和浅蓝色 想比其他会更加丰富广泛,因为它们常常出现在背景色中。所以作者提出了一种权重方案。

Equation 1.1 Weighing scheme
Equation 1.1 Weighing scheme

作者从ImageNet数据库中计算〜p,即类的分布。Q 则是类型数量(313),λ 取 0.5 效果不错。需要注意的是,作者对〜p进行了平滑处理,在这里我将跳过,感兴趣可以阅读原作。

所以考虑权重后,我们的损失函数最终如下:


Equation 1.3 Loss function after weighing scheme

v( ) 只是每个类的权重值,h 和 w 分别是图像的高度和宽度。

根据类型预测颜色

直接用313个色彩分类会使图象很粗糙,只有少数能与真实色彩相匹配。

作者为了从预测模型中得到更多样化的色彩范围,又加了一步后续处理。

Equation 2.0 Calculating color from class probabilities
Equation 2.0 Calculating color from class probabilities

H 是一个函数,Z 是模型的输出,T 是一个超参数(hyper-parameter),作者实验了如下一些不同的值。


Figure 1.0 Effect of different values of T

这是很巧妙地一步,原因是模型的输出是一组概率值,相比只取最大概率所对应的颜色值(就像做图片分类一样),上述函数试图利用 模型输出一组概率值 的全部信息来计算颜色,因此效果更好。

训练框架

训练这样一个神经网络分为两部分。首先 训练数据正向传播通过模型,计算输出得到预测结果。然后计算 H 的的倒数来计算损失(loss)。

结果

实验结果图片是非常鲜艳的,在大多数情况下与现实相差无几。但也要注意有时与真实环境会有偏差,但语义(semantically correct)上仍是正确的(模型能为目标赋予正确的颜色)。


Figure 2.0 Comparison between different colouring frameworks

Colouring Legacy Black & White Photos


Figure 2.1 Colouring photos that were originally taken in Black & White

结论

在本文中,我们讨论了一种使用修改版的损失函数对图像进行着色的新方法。 我们讨论了如何通过超参数来控制 vibrancy,以及为什么 类型的重新平衡( class rebalancing) 在自然图像着色方面起着重要的作用。

译自:https://hackernoon.com/colorising-black-white-photos-using-deep-learning-4da22a05f531
github:https://github.com/richzhang/colorization

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/soulmeetliang/article/details/78002962

智能推荐

18个顶级人工智能平台-程序员宅基地

文章浏览阅读1w次,点赞2次,收藏27次。来源:机器人小妹  很多时候企业拥有重复,乏味且困难的工作流程,这些流程往往会减慢生产速度并增加运营成本。为了降低生产成本,企业别无选择,只能自动化某些功能以降低生产成本。  通过数字化..._人工智能平台

electron热加载_electron-reloader-程序员宅基地

文章浏览阅读2.2k次。热加载能够在每次保存修改的代码后自动刷新 electron 应用界面,而不必每次去手动操作重新运行,这极大的提升了开发效率。安装 electron 热加载插件热加载虽然很方便,但是不是每个 electron 项目必须的,所以想要舒服的开发 electron 就只能给 electron 项目单独的安装热加载插件[electron-reloader]:// 在项目的根目录下安装 electron-reloader,国内建议使用 cnpm 代替 npmnpm install electron-relo._electron-reloader

android 11.0 去掉recovery模式UI页面的选项_android recovery 删除 部分菜单-程序员宅基地

文章浏览阅读942次。在11.0 进行定制化开发,会根据需要去掉recovery模式的一些选项 就是在device.cpp去掉一些选项就可以了。_android recovery 删除 部分菜单

mnn linux编译_mnn 编译linux-程序员宅基地

文章浏览阅读3.7k次。https://www.yuque.com/mnn/cn/cvrt_linux_mac基础依赖这些依赖是无关编译选项的基础编译依赖• cmake(3.10 以上)• protobuf (3.0 以上)• 指protobuf库以及protobuf编译器。版本号使用 protoc --version 打印出来。• 在某些Linux发行版上这两个包是分开发布的,需要手动安装• Ubuntu需要分别安装 libprotobuf-dev 以及 protobuf-compiler 两个包•..._mnn 编译linux

利用CSS3制作淡入淡出动画效果_css3入场效果淡入淡出-程序员宅基地

文章浏览阅读1.8k次。CSS3新增动画属性“@-webkit-keyframes”,从字面就可以看出其含义——关键帧,这与Flash中的含义一致。利用CSS3制作动画效果其原理与Flash一样,我们需要定义关键帧处的状态效果,由CSS3来驱动产生动画效果。下面讲解一下如何利用CSS3制作淡入淡出的动画效果。具体实例可参考刚进入本站时的淡入效果。1. 定义动画,名称为fadeIn@-webkit-keyf_css3入场效果淡入淡出

计算机软件又必须包括什么,计算机系统应包括硬件和软件两个子系统,硬件和软件又必须依次分别包括______?...-程序员宅基地

文章浏览阅读2.8k次。计算机系统应包括硬件和软件两个子系统,硬件和软件又必须依次分别包括中央处理器和系统软件。按人的要求接收和存储信息,自动进行数据处理和计算,并输出结果信息的机器系统。计算机是脑力的延伸和扩充,是近代科学的重大成就之一。计算机系统由硬件(子)系统和软件(子)系统组成。前者是借助电、磁、光、机械等原理构成的各种物理部件的有机组合,是系统赖以工作的实体。后者是各种程序和文件,用于指挥全系统按指定的要求进行..._计算机系统包括硬件系统和软件系统 软件又必须包括

随便推点

进程调度(一)——FIFO算法_进程调度fifo算法代码-程序员宅基地

文章浏览阅读7.9k次,点赞3次,收藏22次。一 定义这是最早出现的置换算法。该算法总是淘汰最先进入内存的页面,即选择在内存中驻留时间最久的页面予以淘汰。该算法实现简单,只需把一个进程已调入内存的页面,按先后次序链接成一个队列,并设置一个指针,称为替换指针,使它总是指向最老的页面。但该算法与进程实际运行的规律不相适应,因为在进程中,有些页面经常被访问,比如,含有全局变量、常用函数、例程等的页面,FIFO 算法并不能保证这些页面不被淘汰。这里,我_进程调度fifo算法代码

mysql rownum写法_mysql应用之类似oracle rownum写法-程序员宅基地

文章浏览阅读133次。rownum是oracle才有的写法,rownum在oracle中可以用于取第一条数据,或者批量写数据时限定批量写的数量等mysql取第一条数据写法SELECT * FROM t order by id LIMIT 1;oracle取第一条数据写法SELECT * FROM t where rownum =1 order by id;ok,上面是mysql和oracle取第一条数据的写法对比,不过..._mysql 替换@rownum的写法

eclipse安装教程_ecjelm-程序员宅基地

文章浏览阅读790次,点赞3次,收藏4次。官网下载下载链接:http://www.eclipse.org/downloads/点击Download下载完成后双击运行我选择第2个,看自己需要(我选择企业级应用,如果只是单纯学习java选第一个就行)进入下一步后选择jre和安装路径修改jvm/jre的时候也可以选择本地的(点后面的文件夹进去),但是我们没有11版本的,所以还是用他的吧选择接受安装中安装过程中如果有其他界面弹出就点accept就行..._ecjelm

Linux常用网络命令_ifconfig 删除vlan-程序员宅基地

文章浏览阅读245次。原文链接:https://linux.cn/article-7801-1.htmlifconfigping <IP地址>:发送ICMP echo消息到某个主机traceroute <IP地址>:用于跟踪IP包的路由路由:netstat -r: 打印路由表route add :添加静态路由路径routed:控制动态路由的BSD守护程序。运行RIP路由协议gat..._ifconfig 删除vlan

redux_redux redis-程序员宅基地

文章浏览阅读224次。reduxredux里要求把数据都放在公共的存储区域叫store里面,组件中尽量少放数据,假如绿色的组件要给很多灰色的组件传值,绿色的组件只需要改变store里面对应的数据就行了,接着灰色的组件会自动感知到store里的数据发生了改变,store只要有变化,灰色的组件就会自动从store里重新取数据,这样绿色组件的数据就很方便的传到其它灰色组件里了。redux就是把公用的数据放在公共的区域去存..._redux redis

linux 解压zip大文件(解决乱码问题)_linux 7za解压中文乱码-程序员宅基地

文章浏览阅读2.2k次,点赞3次,收藏6次。unzip版本不支持4G以上的压缩包所以要使用p7zip:Linux一个高压缩率软件wget http://sourceforge.net/projects/p7zip/files/p7zip/9.20.1/p7zip_9.20.1_src_all.tar.bz2tar jxvf p7zip_9.20.1_src_all.tar.bz2cd p7zip_9.20.1make && make install 如果安装失败,看一下报错是不是因为没有下载gcc 和 gcc ++(p7_linux 7za解压中文乱码