神经网络学习笔记

李维强-15级 · 发表于 2015-10-14 22:34:03

经过万老师介绍，我发现神经网络是一把利器，感觉很高大上，但是单从入门的角度来讲，在数学上的难度并不难。
在此我特地开贴记录下我学习的过程

李维强-15级 · 发表于 2015-10-15 21:35:29

本帖最后由李维强-15级于 2015-10-15 21:37 编辑

我想你现在可能很想知道，一个人工神经细胞究竟是一个什么样的东西？但是，它实际上什么东西也不像; 它只是一种抽象。还是让我们来察看一下图2吧，这是表示一个人工神经细胞的一种形式。

　　图中，左边几个灰底圆中所标字母w代表浮点数，称为权重（weight，或权值，权数）。进入人工神经细胞的每一个input(输入)都与一个权重w相联系，正是这些权重将决定神经网络的整体活跃性。你现在暂时可以设想所有这些权重都被设置到了-１和１之间的一个随机小数。因为权重可正可负，故能对与它关联的输入施加不同的影响，如果权重为正，就会有激发（excitory）作用，权重为负，则会有抑制（inhibitory）作用。当输入信号进入神经细胞时，它们的值将与它们对应的权重相乘，作为图中大圆的输入。大圆的‘核’是一个函数，叫激励函数(activation function)，它把所有这些新的、经过权重调整后的输入全部加起来，形成单个的激励值(activation value)。激励值也是一浮点数，且同样可正可负。然后，再根据激励值来产生函数的输出也即神经细胞的输出：如果激励值超过某个阀值（作为例子我们假设阀值为1.0），就会产生一个值为1的信号输出；如果激励值小于阀值1.0，则输出一个0。这是人工神经细胞激励函数的一种最简单的类型。在这里，从激励值产生输出值是一个阶跃函数[译注2]。看一看图3后你就能猜到为什么有这样的名称。

[译注2] 由图可知阶跃函数是一元的，而激励函数既然能把多个输入相加应为多元，故需加以区别。
如果到目前为止你对这些还没有获得很多感觉，那也不必担心。窍门就是: 不要企图去感觉它，暂时就随波逐流地跟我一起向前走吧。在经历本章的若干处后，你最终就会开始弄清楚它们的意义。而现在，就放松一点继续读下去吧。
3.1 现在需要一些数学了（Now for Some Math）
　　今后讨论中，我将尽量把数学降低到绝对少量，但学习一些数学记号对下面还是很有用的。我将把数学一点一点地喂给你，在到达有关章节时向你介绍一些新概念。我希望采用这样的方式能使你的头脑能更舒适地吸收所有的概念，并使你在开发神经网络的每个阶段都能看到怎样把数学应用到工作中。现在首先让我们来看一看，怎样把我在此之前告诉你的所有知识用数学方式表达出来。
　　一个人工神经细胞(从现在开始，我将把“人工神经细胞”简称它为“神经细胞”) 可以有任意n个输入，n代表总数。可以用下面的数学表达式来代表所有n个输入：

x1, x2, x3, x4, x5, ..., xn

同样 n 个权重可表达为:

w1, w2, w3, w4, w5 ..., wn

请记住，激励值就是所有输入与它们对应权重的之乘积之总和，因此，现在就可以写为:

a = w1x1 + w2x2 + w3x3 + w4x4 + w5x5 +...+ wnxn

以这种方式写下的求和式，我在第5章“建立一个更好的遗传算法”中已提到，可以用希腊字母Σ来简化：

译注：
神经网络的各个输入，以及为各个神经细胞的权重设置，都可以看作一个n维的向量。你在许多技术文献中常常可以看到是以这样的方式来引用的。

　下面我们来考察在程序中应该怎样实现？假设输入数组和权重数组均已初始化为x[n]和w[n]，则求和的代码如下:
double activation = 0;
for(int i=0; i<n; ++i)
{
activation += x * w;
}
　　图4以图形的方式表示了此方程。请别忘记，如果激励值超过了阀值，神经细胞就输出1; 如果激活小于阀值，则神经细胞的输出为0。这和一个生物神经细胞的兴奋和抑制是等价的。我们假设一个神经细胞有5个输入，他们的权重w都初始化成正负1之间的随机值(-1 < w < 1) 。表2说明了激励值的求和计算过程。

图4 神经细胞的激励函数

如果我们假定激活所需阀值=1，则因激励值1.1 > 激活阀值１，所以这个神经细胞将输出1。
在进一步读下去之前，请你一定要确切弄懂激励函数怎样计算。

表2 神经细胞激励值的计算

输入	权重	输入与权重的乘积	运行后总和
1	0.5	0.5	0.5
0	-0.2	0	0.5
1	-0.3	-0.3	0.2
1	0.9	0.9	1.1
0	0.1	0	1.1

3.2 行，我知道什么是神经细胞了，但用它来干什么呢？
　　大脑里的生物神经细胞和其他的神经细胞是相互连接在一起的。为了创建一个人工神经网络，人工神经细胞也要以同样方式相互连接在一起。为此可以有许多不同的连接方式，其中最容易理解并且也是最广泛地使用的，就是如图5所示那样，把神经细胞一层一层地连结在一起。这一种类型的神经网络就叫前馈网络（feedforword network）。这一名称的由来，就是因为网络的每一层神经细胞的输出都向前馈送（feed）到了它们的下一层（在图中是画在它的上面的那一层)，直到获得整个网络的输出为止。

　　　　图5 一个前馈网络

　由图可知，网络共有三层（译注：输入层不是神经细胞，神经细胞只有两层）。输入层中的每个输入都馈送到了隐藏层，作为该层每一个神经细胞的输入；然后，从隐藏层的每个神经细胞的输出都连到了它下一层（即输出层）的每一个神经细胞。图中仅仅画了一个隐藏层，作为前馈网络，一般地可以有任意多个隐藏层。但在对付你将处理的大多数问题时一层通常是足够的。事实上，有一些问题甚至根本不需要任何隐藏单元，你只要把那些输入直接连结到输出神经细胞就行了。另外，我为图5选择的神经细胞的个数也是完全任意的。每一层实际都可以有任何数目的神经细胞，这完全取决于要解决的问题的复杂性。但神经细胞数目愈多，网络的工作速度也就愈低，由于这一缘故，以及为了其他的几种原因（我将在第9章作出解释），网络的规模总是要求保持尽可能的小。

　　到此我能想象你或许已对所有这些信息感到有些茫然了。我认为，在这种情况下，我能做的最好的事情，就是向你介绍一个神经网络在现实世界中的实际应用例子，它有望使你自己的大脑神经细胞得到兴奋！不错吧？好的，下面就来了...

　你可能已听到或读到过神经网络常常用来作模式识别。这是因为它们善于把一种输入状态（它所企图识别的模式）映射到一种输出状态（它曾被训练用来识别的模式）。

　　下面我们来看它是怎么完成的。我们以字符识别作为例子。设想有一个由8x8个格子组成的一块面板。每一个格子里放了一个小灯，每个小灯都可独立地被打开（格子变亮）或关闭（格子变黑），这样面板就可以用来显示十个数字符号。图6显示了数字“4”。

图6 用于字符显示的矩阵格点
　　要解决这一问题，我们必需设计一个神经网络，它接收面板的状态作为输入，然后输出一个1或0；输出1代表ANN确认已显示了数字“4”，而输出0表示没有显示“4”。因此，神经网络需要有64个输入(每一个输入代表面板的一个具体格点) 和由许多神经细胞组成的一个隐藏层，还有仅有一个神经细胞的输出层，隐藏层的所有输出都馈送到它。我真希望你能在你的头脑中画出这个图来，因为要我为你把所有这些小圆和连线统统画出来确实不是一桩愉快的事<一笑>。

　　一旦神经网络体系创建成功后，它必须接受训练来认出数字“4”。为此可用这样一种方法来完成：先把神经网的所有权重初始化为任意值。然后给它一系列的输入，在本例中，就是代表面板不同配置的输入。对每一种输入配置，我们检查它的输出是什么，并调整相应的权重。如果我们送给网络的输入模式不是“4”，则我们知道网络应该输出一个0。因此每个非“4”字符时的网络权重应进行调节，使得它的输出趋向于0。当代表“4”的模式输送给网络时，则应把权重调整到使输出趋向于1。

　　如果你考虑一下这个网络，你就会知道要把输出增加到10是很容易的。然后通过训练，就可以使网络能识别0到9 的所有数字。但为什么我们到此停止呢？我们还可以进一步增加输出，使网络能识别字母表中的全部字符。这本质上就是手写体识别的工作原理。对每个字符，网络都需要接受许多训练，使它认识此文字的各种不同的版本。到最后，网络不单能认识已经训练的笔迹，还显示了它有显著的归纳和推广能力。也就是说，如果所写文字换了一种笔迹，它和训练集中所有字迹都略有不同，网络仍然有很大几率来认出它。正是这种归纳推广能力，使得神经网络已经成为能够用于无数应用的一种无价的工具，从人脸识别、医学诊断，直到跑马赛的预测，另外还有电脑游戏中的bot（作为游戏角色的机器人）的导航，或者硬件的robot（真正的机器人）的导航。

　这种类型的训练称作有监督的学习（supervised learnig），用来训练的数据称为训练集（training set）。调整权重可以采用许多不同的方法。对本类问题最常用的方法就是反向传播（backpropagation，简称backprop或BP）方法。有关反向传播问题，我将会在本书的后面，当你已能训练神经网络来识别鼠标走势时，再来进行讨论。在本章剩余部分我将集中注意力来考察另外的一种训练方式，即根本不需要任何导师来监督的训练，或称无监督学习（unsupervised learnig）。

李维强-15级 · 发表于 2015-10-15 21:40:53

本帖最后由李维强-15级于 2015-10-15 21:51 编辑

4. 聪明的扫雷机工程（Smart Minesweeper Project）

我要向你介绍的第一个完整例子，是怎么使用神经网络来控制具有人工智能的扫雷机的行为。扫雷机工作在一个很简单的环境中，那里只有扫雷机以及随机散布的许多地雷。

图7　运行中的演示程序。

尽管书上图形画成了黑白色，但当你运行程序时性能最好的扫雷机将显现为红色。地雷，你可能已经猜到，就是那些小方形。工程的目标是创建一个网络，它不需要从我们这里得到任何帮助，就能自己进行演化（evolve）去寻找地雷。为了实现这一功能，网络的权重将被编码到基因组中，并用一个遗传算法来演化它们。

怎么样，很酷吧？

首先让我解释人工神经网络（ANN）的体系结构。我们需要决定输入的数目、输出的数目、还有隐藏层的数目和每个隐藏层中隐藏单元的数目。

4.1 选择输出（Choosing the Outputs）

那么，人工神经网络怎样控制扫雷机的行动呢？问得很好！我们把扫雷机想象成和坦克车一样，通过左右2个能转动的履带式轮轨（track）来行动的。见图案9.8。

图8 扫雷机的控制

　扫雷机向前行进的速度，以及向左、向右转弯的角度，都是通过改变2个履带轮的相对速度来实现的。因此，神经网络需要2个输出，1个是左侧履带轮的速度，另一个是右侧履带轮的速度。

　啊，但是...,我听见你在嘀咕了。如果网络只能输出一个１或一个０，我们怎么能控制车轨移动的快慢呢？ 你是对的；如果利用以前描述的阶跃函数来决定输出，我们就根本无法控制扫雷机实际移动。幸好，我有一套戏法，让我卷起袖子来，把激励函数的输出由阶跃式改变成为在０－１之间连续变化的形式，这样就可以供扫雷机神经细胞使用了。为此，有几种函数都能做到这样，我们使用的是一个被称为逻辑斯蒂S形函数（logistic sigmoid function）[译注1]。该函数所实现的功能，本质上说，就是把神经细胞原有的阶跃式输出曲线钝化为一光滑曲线，后者绕y轴0.5处点对称[译注2]，如图9所示。

[译注1] logistic有’计算的’或’符号逻辑的’等意思在内，和’逻辑的(logic)’意义不同。
[译注2] 点对称图形绕对称点转180度后能与原图重合。若f(x)以原点为点对称,则有f(-x)=-f(x)

图9　S形曲线。

当神经细胞的激励值趋于正、负无穷时，S形函数分别趋于１或０。负的激励值对应的函数值都<0.5; 正激励值对应的函数值都>0.5。S形函数用数学表达式写出来则为:

　这个方程看上去可能会吓唬一些人，但其实很简单。e是数学常数，近似等于2.7183，a是神经细胞的激励值，它是函数的自变量，而p是一个用来控制曲线形状变化快慢或陡峭性的参数。p通常设定为1。当p赋以较大值时，曲线就显得平坦，反之，就会使曲线变为陡峭。见图10。很低的p值所生成的函数就和阶跃函数近似。P值的大小用来控制何时使神经网络由低变高开始翻转有很大作用，但是在本例子中我们将它保持为１。

注：“S型”的英文原名Sigmoid 或Sigmoidal 原来是根据希腊字“Sigma”得来的，但非常巧它也可以说成是曲线的一种形状。

图7。10 不同的S形响应曲线。

4.2 选择输入（Choosing the Inputs）

　　上面我们已经把输出安排好了，现在我们来考虑输入，确定网络需要什么样的输入？为此，我们必须想象一下扫雷机的具体细节：需要什么样的信息才能使它朝地雷前进？你可能想到的第一个输入信息清单是：

扫雷机的位置(x1,y1)
与扫雷机最靠近的地雷的位置(x2,y2)
代表扫雷机前进方向的向量(x3,y3)

　　这样一共得到6个输入。但是，要网络使用这些输入，工作起来就非常困难，因为，网络在像我们希望的那样执行工作之前，必须寻找所有6个输入之间的数学关系，而这有相当工作量。可以把此作为一个练习倒是很理想的：去试试如何给出最少数量的输入而仍能为网络传达解决问题所需要的全部信息。你的网络使用的输入愈少，网络所要求的神经细胞数目也愈少。而较少的神经细胞就意味更快速的训练和更少的计算，有利于网络更高速度的工作。

只要作少量的额外考虑，就能够把输入的个数减少为4，这就是图11中所画出的两个向量的４个参数。
把神经网络的所有输入进行规范化是一种好想法。这里的意思并不是说每个输入都要改变大小使它们都在0～1间，而是说每一个输入应该受到同等重视。例如，拿我们已经讨论过的扫雷机输入为例。瞄准向量或视线向量（look-at vector）总是一个规范化向量，即长度等于1，分量x和y都在0～1间。但从扫雷机到达其最近地雷的向量就可能很大，其中的一个分量甚至有可能和窗体的宽度或高度一样大。如果这个数据以它的原始状态输入到网络，网络对有较大值的输入将显得更灵敏，由此就会使网络性能变差。因此，在信息输入到神经网络中去之前，数据应预先定比（scaled）和标准化（standardized），使它们大小相似（similar）。在本特例中，由扫雷机引到与其最接近地雷的向量需要进行规范化（normalized）。这样可以使扫雷机的性能得到改良。

图11 选择输入。

小技巧：
有时，你把输入数据重新换算（rescale）一下，使它以0点为中心，就能从你的神经网络获得最好的性能。这一小窍门在你设计网络时永远值得一试。但我在扫雷机工程中没有采用这一方法，这是因为我想使用一种更直觉的方法。

4.3 隐藏的神经细胞要多少？（How many Hidden Neurons?）

到此我们已把输入、输出神经细胞的数目和种类确定下来了，下一步是确定隐藏层的数目，并确定每个隐藏层中神经细胞必须有多少？但遗憾的是，还没有一种确切的规则可用来计算这些。它们的开发又需要凭个人的“感觉”了。某些书上和文章中确实给过一些提纲性的东西,告诉你如何去决定隐藏神经细胞个数，但业内专家们的一致看法是：你只能把任何建议当作不可全信的东西，主要还要靠自己的不断尝试和失败中获得经验。但你通常会发现，你所遇到的大多数问题都只要用一个隐藏层就能解决。所以，本领的高低就在于如何为这一隐藏层确定最合适的神经细胞数目了。显然，个数是愈少愈好，因为我前面已经提及，数目少的神经细胞能够造就快速的网络。通常，为了确定出一个最优总数，我总是在隐藏层中采用不同数目的神经细胞来进行试验。我在本章所编写的神经网络工程的第一版本中一共使用了10个隐藏神经细胞（当然，我的这个数字也不一定是最好的<一笑>）。你应围绕这个数字的附近来做游戏，并观察隐藏层神经细胞的数目对扫雷机的演化会产生什么样的影响。不管怎样，理论已经够了，让我们拿一个具体程序来看看吧！你可以在本书所附光盘的Chapter7/Smart Sweepers v1.0文件夹中找到本章下面几页即将描述的所有程序的源码。