如何通过人工神经网络实现图像识别

作者:王虹 www.yuediqu.com    2025-05-19
有没有可以参考的用MATLAB神经网络实现图像识别的源代码~

水果识别。我以前做过,但不是根据BP神经网络。
你可以根据每一个水果的弧度 面积 色素比等判断出每一个水果。

神经网络实现图像识别的过程很复杂。但是大概过程很容易理解。我也是节选一篇图像识别技术的文章,大概说一下。
图像识别技术主要是通过卷积神经网络来实现的。这种神经网络的优势在于,它利用了“同一图像中相邻像素的强关联性和强相似度”这一原理。具体而言就是,在一张图像中的两个相邻像素,比图像中两个分开的像素更具有关联性。但是,在一个常规的神经网络中,每个像素都被连接到了单独的神经元。这样一来,计算负担自然加重了。卷积神经网络通过削减许多不必要的连接来解决图像识别技术中的这一问题。运用图像识别技术中的术语来说就是,卷积神经网络按照关联程度筛选不必要的连接,进而使图像识别过程在计算上更具有可操作性。卷积神经网络有意地限制了图像识别时候的连接,让一个神经元只接受来自之前图层的小分段的输入(假设是3×3或5×5像素),避免了过重的计算负担。因此,每一个神经元只需要负责处理图像的一小部分。大大加快了速度和准确率。
卷积神经网络在实施的过程中,实际上是分为两层,一个是卷积层,一个是汇聚层,简单理解就是
卷积层将图片分散成一个一个或者3*3/5*5的小像素块,然后把这些输出值排列在图组中,用数字表示照片中各个区域的内容,数轴分别代表高度、宽度和颜色。那么,我们就得到了每一个图块的三维数值表达。汇聚层是将这个三维(或是四维)图组的空间维度与采样函数结合起来,输出一个仅包含了图像中相对重要的部分的联合数组。这一联合数组不仅能使卷积神经网络计算负担最小化,还能有效避免过度拟合的问题。
以上大概就是使用卷积神经网络进行图像识别的过程。具体可以关注ATYUN人工智能平台的文章:揭秘图像识别技术,机器如何利用卷积神经网络“看见”这个世界

人工神经网络(Artificial Neural Networks)(简称ANN)系统从20 世纪40 年代末诞生至今仅短短半个多世纪,但由于他具有信息的分布存储、并行处理以及自学习能力等优点,已经在信息处理、模式识别、智能控制及系统建模等领域得到越来越广泛的应用。尤其是基于误差反向传播(Error Back Propagation)算法的多层前馈网络(Multiple-Layer Feedforward Network)(简称BP 网络),可以以任意精度逼近任意的连续函数,所以广泛应用于非线性建模、函数逼近、模式分类等方面。


目标识别是模式识别领域的一项传统的课题,这是因为目标识别不是一个孤立的问题,而是模式识别领域中大多数课题都会遇到的基本问题,并且在不同的课题中,由于具体的条件不同,解决的方法也不尽相同,因而目标识别的研究仍具有理论和实践意义。这里讨论的是将要识别的目标物体用成像头(红外或可见光等)摄入后形成的图像信号序列送入计算机,用神经网络识别图像的问题。


一、BP 神经网络


BP 网络是采用Widrow-Hoff 学习算法和非线性可微转移函数的多层网络。一个典型的BP 网络采用的是梯度下降算法,也就是Widrow-Hoff 算法所规定的。backpropagation 就是指的为非线性多层网络计算梯度的方法。一个典型的BP 网络结构如图所示。

我们将它用向量图表示如下图所示。

其中:对于第k 个模式对,输出层单元的j 的加权输入为

该单元的实际输出为

而隐含层单元i 的加权输入为

该单元的实际输出为

函数f 为可微分递减函数

其算法描述如下:

(1)初始化网络及学习参数,如设置网络初始权矩阵、学习因子等。

(2)提供训练模式,训练网络,直到满足学习要求。

(3)前向传播过程:对给定训练模式输入,计算网络的输出模式,并与期望模式比较,若有误差,则执行(4);否则,返回(2)。

(4)后向传播过程:a. 计算同一层单元的误差;b. 修正权值和阈值;c. 返回(2)


二、 BP 网络隐层个数的选择

对于含有一个隐层的三层BP 网络可以实现输入到输出的任何非线性映射。增加网络隐层数可以降低误差,提高精度,但同时也使网络复杂化,增加网络的训练时间。误差精度的提高也可以通过增加隐层结点数来实现。一般情况下,应优先考虑增加隐含层的结点数。


三、隐含层神经元个数的选择

当用神经网络实现网络映射时,隐含层神经元个数直接影响着神经网络的学习能力和归纳能力。隐含层神经元数目较少时,网络每次学习的时间较短,但有可能因为学习不足导致网络无法记住全部学习内容;隐含层神经元数目较大时,学习能力增强,网络每次学习的时间较长,网络的存储容量随之变大,导致网络对未知输入的归纳能力下降,因为对隐含层神经元个数的选择尚无理论上的指导,一般凭经验确定。


四、神经网络图像识别系统

人工神经网络方法实现模式识别,可处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变,神经网络方法的缺点是其模型在不断丰富完善中,目前能识别的模式类还不够多,神经网络方法允许样品有较大的缺损和畸变,其运行速度快,自适应性能好,具有较高的分辨率。

神经网络的图像识别系统是神经网络模式识别系统的一种,原理是一致的。一般神经网络图像识别系统由预处理,特征提取和神经网络分类器组成。预处理就是将原始数据中的无用信息删除,平滑,二值化和进行幅度归一化等。神经网络图像识别系统中的特征提取部分不一定存在,这样就分为两大类:① 有特征提取部分的:这一类系统实际上是传统方法与神经网络方法技术的结合,这种方法可以充分利用人的经验来获取模式特征以及神经网络分类能力来识别目标图像。特征提取必须能反应整个图像的特征。但它的抗干扰能力不如第2类。② 无特征提取部分的:省去特征抽取,整副图像直接作为神经网络的输入,这种方式下,系统的神经网络结构的复杂度大大增加了,输入模式维数的增加导致了网络规模的庞大。此外,神经网络结构需要完全自己消除模式变形的影响。但是网络的抗干扰性能好,识别率高。

当BP 网用于分类时,首先要选择各类的样本进行训练,每类样本的个数要近似相等。其原因在于一方面防止训练后网络对样本多的类别响应过于敏感,而对样本数少的类别不敏感。另一方面可以大幅度提高训练速度,避免网络陷入局部最小点。

由于BP 网络不具有不变识别的能力,所以要使网络对模式的平移、旋转、伸缩具有不变性,要尽可能选择各种可能情况的样本。例如要选择不同姿态、不同方位、不同角度、不同背景等有代表性的样本,这样可以保证网络有较高的识别率。

构造神经网络分类器首先要选择适当的网络结构:神经网络分类器的输入就是图像的特征向量;神经网络分类器的输出节点应该是类别数。隐层数要选好,每层神经元数要合适,目前有很多采用一层隐层的网络结构。然后要选择适当的学习算法,这样才会有很好的识别效果。在学习阶段应该用大量的样本进行训练学习,通过样本的大量学习对神经网络的各层网络的连接权值进行修正,使其对样本有正确的识别结果,这就像人记数字一样,网络中的神经元就像是人脑细胞,权值的改变就像是人脑细胞的相互作用的改变,神经网络在样本学习中就像人记数字一样,学习样本时的网络权值调整就相当于人记住各个数字的形象,网络权值就是网络记住的内容,网络学习阶段就像人由不认识数字到认识数字反复学习过程是一样的。神经网络是按整个特征向量的整体来记忆图像的,只要大多数特征符合曾学习过的样本就可识别为同一类别,所以当样本存在较大噪声时神经网络分类器仍可正确识别。在图像识别阶段,只要将图像的点阵向量作为神经网络分类器的输入,经过网络的计算,分类器的输出就是识别结果。


五、仿真实验

1、实验对象

本实验用MATLAB 完成了对神经网络的训练和图像识别模拟。从实验数据库中选择0~9 这十个数字的BMP 格式的目标图像。图像大小为16×8 像素,每个目标图像分别加10%、20%、30%、40%、50%大小的随机噪声,共产生60 个图像样本。将样本分为两个部分,一部分用于训练,另一部分用于测试。实验中用于训练的样本为40个,用于测试的样本为20 个。随机噪声调用函数randn(m,n)产生。

2、网络结构

本试验采用三层的BP 网络,输入层神经元个数等于样本图像的象素个数16×8 个。隐含层选24 个神经元,这是在试验中试出的较理想的隐层结点数。输出层神经元个数就是要识别的模式数目,此例中有10 个模式,所以输出层神经元选择10 个,10 个神经元与10 个模式一一对应。

3、基于MATLAB 语言的网络训练与仿真

建立并初始化网络

% ================
S1 = 24;% 隐层神经元数目S1 选为24
[R,Q] = size(numdata);
[S2,Q] = size(targets);
F = numdata;
P=double(F);
net = newff(minmax(P),[S1 S2],{'logsig'
'logsig'},'traingda','learngdm')

这里numdata 为训练样本矩阵,大小为128×40, targets 为对应的目标输出矩阵,大小为10×40。

newff(PR,[S1 S2…SN],{TF1 TF2…TFN},BTF,BLF,PF)为MATLAB 函数库中建立一个N 层

前向BP 网络的函数,函数的自变量PR 表示网络输入矢量取值范围的矩阵[Pmin max];S1~SN 为各层神经元的个数;TF1~TFN 用于指定各层神经元的传递函数;BTF 用于指定网络的训练函数;BLF 用于指定权值和阀值的学习函数;PF 用于指定网络的性能函数,缺省值为‘mse’。

设置训练参数

net.performFcn = 'sse'; %平方和误差
性能函数
net.trainParam.goal = 0.1; %平方和误
差目标
net.trainParam.show = 20; %进程显示
频率
net.trainParam.epochs = 5000;%最大训
练步数
net.trainParam.mc = 0.95; %动量常数
网络训练
net=init(net);%初始化网络
[net,tr] = train(net,P,T);%网络训练
对训练好的网络进行仿真
D=sim(net,P);
A = sim(net,B);

B 为测试样本向量集,128×20 的点阵。D 为网络对训练样本的识别结果,A 为测试样本的网络识别结果。实验结果表明:网络对训练样本和对测试样本的识别率均为100%。如图为64579五个数字添加50%随机噪声后网络的识别结果。

六、总结

从上述的试验中已经可以看出,采用神经网络识别是切实可行的,给出的例子只是简单的数字识别实验,要想在网络模式下识别复杂的目标图像则需要降低网络规模,增加识别能力,原理是一样的。



神经网络实现图像识别的过程很复杂。但是大概过程很容易理解。我也是节选一篇图像识别技术的文章,大概说一下。

图像识别技术主要是通过卷积神经网络来实现的。这种神经网络的优势在于,它利用了“同一图像中相邻像素的强关联性和强相似度”这一原理。具体而言就是,在一张图像中的两个相邻像素,比图像中两个分开的像素更具有关联性。但是,在一个常规的神经网络中,每个像素都被连接到了单独的神经元。这样一来,计算负担自然加重了。卷积神经网络通过削减许多不必要的连接来解决图像识别技术中的这一问题。运用图像识别技术中的术语来说就是,卷积神经网络按照关联程度筛选不必要的连接,进而使图像识别过程在计算上更具有可操作性。卷积神经网络有意地限制了图像识别时候的连接,让一个神经元只接受来自之前图层的小分段的输入(假设是3×3或5×5像素),避免了过重的计算负担。因此,每一个神经元只需要负责处理图像的一小部分。大大加快了速度和准确率。

卷积神经网络在实施的过程中,实际上是分为两层,一个是卷积层,一个是汇聚层,简单理解就是

卷积层将图片分散成一个一个或者3*3/5*5的小像素块,然后把这些输出值排列在图组中,用数字表示照片中各个区域的内容,数轴分别代表高度、宽度和颜色。那么,我们就得到了每一个图块的三维数值表达。汇聚层是将这个三维(或是四维)图组的空间维度与采样函数结合起来,输出一个仅包含了图像中相对重要的部分的联合数组。这一联合数组不仅能使卷积神经网络计算负担最小化,还能有效避免过度拟合的问题。

以上大概就是使用卷积神经网络进行图像识别的过程。具体可以关注ATYUN人工智能平台的文章:揭秘图像识别技术,机器如何利用卷积神经网络“看见”这个世界



1. 神经元个数的设计:第二层就比第一层少一半的神经元,基本没有起到压缩维度的作用。这个问题中的图像比较简单,觉得压缩到20-50维左右比较合适;
2. 既然是一个分类问题,顶层的至少还得有一个分类器吧。。。通常用softmax就行了,比较简单,求解也容易。当然别的分类器,SVM,Random Forest都可以。

另外,建议图像问题最好神经网的层数多一些,这个问题至少有两个隐层效果会比较的好。


相关问答:

#19113061311#:人工智能识别图像是从输入到输出的神经网络过程
权倩败: 通过与预先设定的标签进行比对,神经网络能够给出图像所属类别的概率分布,从而完成图像识别任务。例如,在人脸识别应用中,神经网络能够识别出输入图像中的人脸,并将其与数据库中的记录进行匹配,实现身份认证或安全监控等功能。整个过程是高度自动化的,并且随着技术的不断进步,识别的准确性和效率也在持续...

#19113061311#:人工智能中的图像识别技术
权倩败: 获取信息:首先,计算机需要获取图像信息,这通常通过摄像头、扫描仪等设备完成。信息预处理:获取图像后,需要进行预处理,如去噪、增强对比度等,以提高图像质量。特征抽取与选择:在预处理后,计算机将抽取图像中的关键特征,这些特征将用于后续的识别过程。设计分类器与分类决策:根据抽取的特征,计算机将...

#19113061311#:如何用ai通过人脸识别
权倩败: 5. 模型训练:使用训练数据集和对应的特征编码来训练人脸识别模型。常用的模型有人工神经网络(ANN)、支持向量机(SVM)、卷积神经网络(CNN)等。6. 人脸匹配:将新的人脸图像通过模型进行识别或验证。提取新图像的特征,并与数据库中已有的模型进行比较,通过计算相似度或距离来确定是否匹配。7. 验证...

#19113061311#:人工智能识别方法
权倩败: 人工智能识别方法是基于计算机算法和数据分析技术,通过模拟人类的识别过程,实现对图像、声音、文本等信息的自动识别和分类。在图像识别领域,人工智能可以通过深度学习技术,训练出能够识别各种图像特征的神经网络模型。例如,在人脸识别中,通过输入大量的人脸图像数据,模型可以学习到人脸的特征,进而实现对人脸...

#19113061311#:AlphaGo的神奇全靠它,详解人工神经网络!
权倩败: 例如,用于手写识别的一个神经网络是被可由一个输入图像的像素被激活的一组输入神经元所定义的。在通过函数(由网络的设计者确定)进行加权和变换之后,这些神经元被激活然后被传递到其他神经元。重复这一过程,直到最后一个输出神经元被激活。这样决定了被读取的字。它的构筑理念是受到人或其他动物神经...

#19113061311#:如何用ai通过人脸识别
权倩败: 使用人工智能进行人脸识别可以通过以下步骤实现:1. 数据收集:收集一定数量的人脸图像作为训练数据,图像可能包含各种不同的人和姿势。这些图像应包括正面、侧面、不同角度和不同表情的人脸。2. 数据预处理:对收集到的图像进行处理,如调整大小、裁剪、去除背景等,以确保图像质量一致,减少噪声和干扰。3....

#19113061311#:人工智能入门课之图像识别技术的介绍
权倩败: 首先,收集大量图像数据进行预处理,构建深度神经网络进行训练,调整参数以准确识别不同类别的图像。通过训练后的模型对待识别图像进行输入,输出类别标签,实现自动识别。以名人识别为例,过程包括数据收集、预处理、特征提取、模型训练与优化、模型评估与调整以及名人识别。技术不仅限于名人识别,还可应用于物体...

#19113061311#:人脸识别是靠什么技术实现的?
权倩败: 不同品牌机型采用的面部识别技术方案不同,面部识别效果也会不一样;目前vivo\/iQOO系列手机,仅NEX双屏版采用3D人脸识别技术,其余机型均采用Face Wake面部识别,通过识别面部特征点,与录入信息进行匹配从而实现解锁。注:3D人脸识别技术介绍:3D人脸识别技术能实现面部信息的立体捕捉,通过识别面部的立体特征...

#19113061311#:图像识别有哪些方法?
权倩败: 二、深度神经网络(DNN)是一种多层神经网络结构,可以处理大规模图像数据。通过多层次的神经元结构,DNN可以对图像进行多级特征提取,从而实现更为精准的图像识别。其广泛应用于图像分类、目标检测等任务。三、支持向量机(SVM)是一种监督学习算法,常用于图像分类任务。SVM通过找到能够将不同类别图像分隔开...

#19113061311#:人工智能-图像识别
权倩败: 模式识别是人工智能和信息科学关键部分,涉及数据分类。图像识别技术主要通过分类器设计实现高识别率,分类决策则在特征空间中进行图像分类。神经网络与非线性降维技术在图像识别中广泛应用。神经网络通过模拟生物神经网络,实现图像识别与分类。非线性降维技术在高维数据处理中展现强大效能,有效降低复杂度,提高...