计算机视觉及其图像处理操作-程序员宅基地

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

作者丨吃猫的鱼python @CSDN

编辑丨3D视觉开发者社区

目

录

content

一、什么是计算机视觉

二、图片处理基础操作

图片处理：读入图像
图片处理：显示图像
图片处理：图像保存

三、图像处理入门基础

图像成像原理介绍
图像分类

四、像素处理操作

读取像素
修改像素
使用python中的numpy修改像素点

五、获取图像属性

形状
像素数目
图像类型

六、图像ROI

七、通道的拆分与合并

一、什么是计算机视觉

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领域中各种智能/自主系统中不可分割的一部分。由于它的重要性，一些先进国家，例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题，即所谓的重大挑战（grand challenge）。

计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号，纹理和颜色建模，几何处理和推理，以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。

我们目前如果是在校学生，对于计算机视觉和机器学习的相关知识的学习是非常有用的，无论是对于自己的工作前景还是相关论文的撰写都是非常有用的，而且目前对于计算机的相关知识已经设计到了各个专业领域，其中包括医学领域（计算机视觉分析CT成像）、电学领域（使用matlab及相关领域画图）、人脸识别和车牌识别等等。而且有想要做交叉学科的对于计算机可以和任意领域及进行无障碍交叉。

由于我这个理工男的语文功底并不好，语言组织能力不强，所以我们今天就啰嗦到这里，总结一下就是计算机视觉及机器学习等和计算机相关的东西特别重要！

二、图片处理基础操作

首先我们来看一段简单的计算机视觉相关代码：

import cv2img=cv2.imread('path')#path指图片相关路径cv2.imshow('Demo',img)cv2.nameWindow('Demo')cv2.waitKey(0)cv2.destroyAllWindows()

这段代码就可以在计算机中显示出img的相关图像。接下来我们讲解一下每一步的相关操作。

图片处理：读入图像

相关函数：image=cv2.imread(文件名相关路径[显示控制参数])

文件名：完整的路径。

其中参数包括：

cv.IMREAD_UNCHANGED ：表示和原图像一致

cv.IMREAD_GRAYSCALE : 表示将原图像转化为灰色图像。

cv.IMREAD_COLOR：表示将原图像转化为彩色图像。

例如：

cv2.imread(‘d:\image.jpg’,cv.IMREAD_UNCHANGED)

图片处理：显示图像

相关函数：None=cv2.imshow(窗口名，图像名)

例如：

cv2.imshow（“demo”，image）

但是在OpenCV中我们图像显示还是要加上相关约束：

retval=cv2.waitKey([delay])

如果没有这个限制，那么显示的图像就会一闪而过，就会发生错误。

其中delay参数包括：

dealy=0，无限等待图像显示，直到关闭。也是waitKey的默认数值。

delay<0,等待键盘点击结束图像显示，也就是说当我们敲击键盘的时候，图像结束显示。

delay>0,等待delay毫秒后结束图像显示。

最后我们还需要显示

cv2.destroyAllWindows（）

把图像从内存中彻底删除。

图片处理：图像保存

相关函数：retval=cv2.imwrite(文件地址，文件名)
例如

cv2.imwrite(‘D:\test.jpg’,img)

将img保存到了路径D:\test.jpg

三、图像处理入门基础

图像成像原理介绍

首先我们第一个要深深深深的刻在脑子里的概念就是：

——图片是由像素点构成的

生动一点表示就是这样：

这样就可以完美的展示出计算机图像的成像原理，就是用一个个有颜色的像素点拼接而成的。

图像分类

图像一般分为三类：

一、二值图像
二值图像表示的意思就是每一个像素点只由0和1构成，0表示黑色，1表示白色，而且这里的黑色和白色是纯黑和纯白。所以我们看到的图像也就是这个样子。我们以官网丽娜为例子。

二、灰度图像
灰度图像就是一个8位的位图。什么意思呢？就是说00000001一直到11111111，这就是二进制表示。如果表示成我们常用的十进制就是0-255。其中0就表示纯黑色，255就表示纯白色，中间就是处于纯黑色到纯白色的相关颜色。我们还是以丽娜为例。

灰度图像一块像素点：

三、彩色图像（RGB）

计算机中所有的颜色都可以由R（红色通道）、G（绿色通道）、B（蓝色通道）来组成，其中每一个通道都有0-255个像素颜色组成。比如说R=234，G=252，B=4就表示黄色。显示出来的也是黄色。所以说彩色图像由三个面构成，分别对应R,G,B。我们还是以丽娜为例子：

所以说我们就可以知道复杂程度排序的话就是：彩色图像-灰度图像-二值图像。所以我们在进行人脸项目或者是车牌识别项目中最最最常用的操作就是将彩色图像转化为灰度图像，然后将灰度图像转为最简单的二值图像。

四、像素处理操作

读取像素

相关函数：返回值=图像（位置参数）我们先以灰度图像，返回灰度值：

p=img[88,142]
print§

这里我们就可以返回图片坐标[88，142]处的灰度值。

然后我们以彩色图像为例子：

我们知道彩色图像由BGR三个通道的值构成。那么我们需要返回三个数值：

blue=img[78，125，0]
green=img[78,125,1]
red=img[78,125,2]
print（blue,green,red）

这样我们就返回了这三个数值。

修改像素

直接暴力修改。

对于灰度图像， img[88，99]=255

对于彩色图像，

img[88，99，0]=255

img][88，99，1]=255

img[88，99，2]=255这里也可以写成

img[88，99]=[255，255，255]等同于上方。

改动多个像素点

例如还是以彩色图像为例子：

i[100：150，100：150]=[255，255，255]

意思也就是将图像横坐标100到150和纵坐标100到150的这个区间全部用白色替代。

使用python中的numpy修改像素点

读取像素

相关函数：返回值=图像.item（位置参数）

我们以灰度图像为例：

o=img,item(88，142)

print(o)

对于彩色图像我们还是：

blue=img.item(88，142，0)

green=img.item(88，142，1)

red=img.item(88，142，2)

然后print(blue，green，red)

修改像素

图像名.itemset（位置，新的数值）

我们以灰度图像为例子：

img.itemset((88，99)，255)

对于BGR图像：

img.itemset((88，99，0)，255)

img.itemset((88，99，1)，255)

img.itemset((88，99，2)，255)

import cv2
import numpy as np 
i=cv2.imread('path',cv2.IMREAD_UNCHANGED)
print(i.item(100，100))
i.itemset((100，100),255)
print(i,item(100，100))

通过这段代码我们就可以看得出来像素的更改。
对于彩色图像也是一样。

五、获取图像属性

形状

shape可以获取图像的形状，返回值包含行数、列数通道数的元组。

灰度图像返回行数列数
彩色图像返回行数、列数、通道数。

import cv2
img1=cv2.imread('灰度图像')
print(img1.shape)

像素数目

size可以获取图像的像素数目。

灰度图像：行数列数
彩色图像：行数列数*通道数

图像类型

dtype返回的是图像的数据类型

import cv2
img=cv2.imread('图像名称')
print(img.dtype)

六、图像ROI

ROI（region of interest）表示感兴趣区域

从被处理的图像中以方框、圆、椭圆或者不规则多边形等方式勾勒出需要处理的区域。
可以通过各种算子（operator）和函数来求ROI，并进行下一步操作。

import cv2
import numpy as np
a=cv2.imread('path')
b=np.ones((101，101，3))
b=a[220:400,250:350]
a[0:101,0:101]=b
cv2.imshow('o',a)
cv2.waitKey()
cv2.destroyAllWindows()

我们还可以将感兴趣的图像加入到别的图像当中。

七、通道的拆分与合并

拆分

import cv2
img=cv2.imread('图像名')
b = img[ : , : , 0 ]
g = img[ : , : , 1 ]
r = img[ : , : , 2 ]

我们在OpenCV中有专门拆分通道的函数：
cv2.split(img)

import cv2
import numpy as np
a=cv2.imread("image\lenacolor.png")
b,g,r=cv2.split(a)
cv2.imshow("B",b)
cv2.imshow("G",g)
cv2.imshow("R",r)
cv2.waitKey()
cv2.destroyAllWindows()

合并

import cv2
import numpy as np
a=cv2.imread("image\lenacolor.png")
b,g,r=cv2.split(a)
m=cv2.merge([b,g,r])
cv2.imshow("merge",m)
cv2.waitKey()
cv2.destroyAllWindows()

我们将上方的拆分图像进行merge合并就可以得到以下结果：

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

本文链接：https://blog.csdn.net/qq_42722197/article/details/131039763

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

解决win10/win8/8.1 64位操作系统MT65xx preloader线刷驱动无法安装_mt65驱动-程序员宅基地

文章浏览阅读1.3w次。转载自 http://www.miui.com/thread-2003672-1-1.html 当手机在刷错包或者误修改删除系统文件后会出现无法开机或者是移动定制（联通合约机）版想刷标准版，这时就会用到线刷，首先就是安装线刷驱动。在XP和win7上线刷是比较方便的，用那个驱动自动安装版，直接就可以安装好，完成线刷。不过现在也有好多机友换成了win8/8.1系统，再使用这个_mt65驱动

SonarQube简介及客户端集成_sonar的客户端区别-程序员宅基地

文章浏览阅读1k次。SonarQube是一个代码质量管理平台，可以扫描监测代码并给出质量评价及修改建议，通过插件机制支持25+中开发语言，可以很容易与gradle\maven\jenkins等工具进行集成，是非常流行的代码质量管控平台。通CheckStyle、findbugs等工具定位不同，SonarQube定位于平台，有完善的管理机制及强大的管理页面，并通过插件支持checkstyle及findbugs等既有的流..._sonar的客户端区别

元学习系列（六）：神经图灵机详细分析_神经图灵机方法改进-程序员宅基地

文章浏览阅读3.4k次，点赞2次，收藏27次。神经图灵机是LSTM、GRU的改进版本，本质上依然包含一个外部记忆结构、可对记忆进行读写操作，主要针对读写操作进行了改进，或者说提出了一种新的读写操作思路。神经图灵机之所以叫这个名字是因为它通过深度学习模型模拟了图灵机，但是我觉得如果先去介绍图灵机的概念，就会搞得很混乱，所以这里主要从神经图灵机改进了LSTM的哪些方面入手进行讲解，同时，由于模型的结构比较复杂，为了让思路更清晰，这次也会分开几..._神经图灵机方法改进

【机器学习】机器学习模型迭代方法(Python)-程序员宅基地

文章浏览阅读2.8k次。一、模型迭代方法机器学习模型在实际应用的场景，通常要根据新增的数据下进行模型的迭代，常见的模型迭代方法有以下几种：1、全量数据重新训练一个模型，直接合并历史训练数据与新增的数据，模型直接离线学习全量数据，学习得到一个全新的模型。优缺点：这也是实际最为常见的模型迭代方式，通常模型效果也是最好的，但这样模型迭代比较耗时，资源耗费比较多，实时性较差，特别是在大数据场景更为困难；2、模型融合的方法，将旧模..._模型迭代

base64图片打成Zip包上传，以及服务端解压的简单实现_base64可以装换zip吗-程序员宅基地

文章浏览阅读2.3k次。1、前言上传图片一般采用异步上传的方式，但是异步上传带来不好的地方，就如果图片有改变或者删除，图片服务器端就会造成浪费。所以有时候就会和参数同步提交。笔者喜欢base64图片一起上传，但是图片过多时就会出现数据丢失等异常。因为tomcat的post请求默认是2M的长度限制。2、解决办法有两种：① 修改tomcat的servel.xml的配置文件，设置 maxPostSize=..._base64可以装换zip吗

Opencv自然场景文本识别系统（源码＆教程）_opencv自然场景实时识别文字-程序员宅基地

文章浏览阅读1k次，点赞17次，收藏22次。Opencv自然场景文本识别系统（源码＆教程）_opencv自然场景实时识别文字

随便推点

ESXi 快速复制虚拟机脚本_exsi6.7快速克隆centos-程序员宅基地

文章浏览阅读1.3k次。拷贝虚拟机文件时间比较长，因为虚拟机 flat 文件很大，所以要等。脚本完成后，以复制虚拟机文件夹。将以下脚本内容写入文件。_exsi6.7快速克隆centos

好友推荐—基于关系的java和spark代码实现_本关任务:使用 spark core 知识完成 " 好友推荐 " 的程序。-程序员宅基地

文章浏览阅读2k次。本文主要实现基于二度好友的推荐。数学公式参考于：http://blog.csdn.net/qq_14950717/article/details/52197565测试数据为自己随手画的关系图把图片整理成文本信息如下：a b c d e f yb c a f gc a b dd c a e h q re f h d af e a b gg h f bh e g i di j m n ..._本关任务:使用 spark core 知识完成 " 好友推荐 " 的程序。

南京大学-高级程序设计复习总结_南京大学高级程序设计-程序员宅基地

文章浏览阅读367次。南京大学高级程序设计期末复习总结，c++面向对象编程_南京大学高级程序设计

4.朴素贝叶斯分类器实现－matlab_朴素贝叶斯 matlab训练和测试输出-程序员宅基地

文章浏览阅读3.1k次，点赞2次，收藏12次。实现朴素贝叶斯分类器，并且根据李航《统计机器学习》第四章提供的数据训练与测试，结果与书中一致分别实现了朴素贝叶斯以及带有laplace平滑的朴素贝叶斯%书中例题实现朴素贝叶斯%特征1的取值集合A1=[1;2;3];%特征2的取值集合A2=[4;5;6];%S M LAValues={A1;A2};%Y的取值集合YValue=[-1;1];%数据集和T=[ 1,4,-1;..._朴素贝叶斯 matlab训练和测试输出

Markdown 文本换行_markdowntext 换行-程序员宅基地

文章浏览阅读1.6k次。Markdown 文本换行_markdowntext 换行

错误:0xC0000022 在运行 Microsoft Windows 非核心版本的计算机上,运行”slui.exe 0x2a 0xC0000022″以显示错误文本_错误: 0xc0000022 在运行 microsoft windows 非核心版本的计算机上,运行-程序员宅基地

文章浏览阅读6.7w次，点赞2次，收藏37次。win10 2016长期服务版激活错误解决方法：打开“注册表编辑器”；（Windows + R然后输入Regedit）修改SkipRearm的值为1：（在HKEY_LOCAL_MACHINE–》SOFTWARE–》Microsoft–》Windows NT–》CurrentVersion–》SoftwareProtectionPlatform里面，将SkipRearm的值修改为1）重..._错误: 0xc0000022 在运行 microsoft windows 非核心版本的计算机上,运行“slui.ex