第一章_数学基础
# 第一章 数学基础
深度学习通常又需要哪些数学基础?深度学习里的数学到底难在哪里?通常初学者都会有这些问题,在网络推荐及书本推荐里,经常看到会列出一系列数学科目,比如微积分、线性代数、概率论、复变函数、数值计算、优化理论、信息论等等。这些数学知识有相关性,但实际上按照这样的知识范围来学习,学习成本会很久,而且会很枯燥,本章我们通过选举一些数学基础里容易混淆的一些概念做以介绍,帮助大家更好的理清这些易混淆概念之间的关系。
# 1.1 向量和矩阵
# 1.1.1 标量、向量、矩阵、张量之间的联系
标量(scalar)
一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。
向量(vector)
一个向量表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称,比如xx。向量中的元素可以通过带脚标的斜体表示。向量
矩阵(matrix)
矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵中的一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称,比如
张量(tensor)
在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。使用
四者之间关系
标量是0阶张量,向量是一阶张量。举例:
标量就是知道棍子的长度,但是你不会知道棍子指向哪儿。
向量就是不但知道棍子的长度,还知道棍子指向前面还是后面。
张量就是不但知道棍子的长度,也知道棍子指向前面还是后面,还能知道这棍子又向上/下和左/右偏转了多少。
# 1.1.2 张量与矩阵的区别
- 从代数角度讲, 矩阵它是向量的推广。向量可以看成一维的“表格”(即分量按照顺序排成一排), 矩阵是二维的“表格”(分量按照纵横位置排列), 那么
阶张量就是所谓的 维的“表格”。 张量的严格定义是利用线性映射来描述。 - 从几何角度讲, 矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。
- 张量可以用3×3矩阵形式来表达。
- 表示标量的数和表示向量的三维数组也可分别看作1×1,1×3的矩阵。
# 1.1.3 矩阵和向量相乘结果
若使用爱因斯坦求和约定(Einstein summation convention),矩阵
# 1.1.4 向量和矩阵的范数归纳
向量的范数(norm)
定义一个向量为:
- 向量的1范数:向量的各个元素的绝对值之和,上述向量
的1范数结果就是:29。
- 向量的2范数:向量的每个元素的平方和再开平方根,上述
的2范数结果就是:15。
- 向量的负无穷范数:向量的所有元素的绝对值中最小的:上述向量
的负无穷范数结果就是:5。
- 向量的正无穷范数:向量的所有元素的绝对值中最大的:上述向量
的正无穷范数结果就是:10。
- 向量的p范数:
矩阵的范数
定义一个矩阵
矩阵的范数定义为
当向量取不同范数时, 相应得到了不同的矩阵范数。
矩阵的1范数(列范数):矩阵的每一列上的元
素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵
的1范数先得到 ,再取最大的最终结果就是:9。矩阵的2范数:矩阵
的最大特征值开平方根,上述矩阵 的2范数得到的最终结果是:10.0623。
其中,
矩阵的无穷范数(行范数):矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵
的行范数先得到 ,再取最大的最终结果就是:16。; 矩阵的核范数:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵A最终结果就是:10.9287。
矩阵的L0范数:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0元素越多,也就越稀疏,上述矩阵
最终结果就是:6。矩阵的L1范数:矩阵中的每个元素绝对值之和,它是L0范数的最优凸近似,因此它也可以表示稀疏,上述矩阵
最终结果就是:22。矩阵的F范数:矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2范数,它的优点在于它是一个凸函数,可以求导求解,易于计算,上述矩阵A最终结果就是:10.0995。
- 矩阵的L21范数:矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数),很容易看出它是介于L1和L2之间的一种范数,上述矩阵
最终结果就是:17.1559。 - 矩阵的 p范数
# 1.1.5 如何判断一个矩阵为正定
判定一个矩阵是否为正定,通常有以下几个方面:
- 顺序主子式全大于0;
- 存在可逆矩阵
使 等于该矩阵; - 正惯性指数等于
; - 合同于单位矩阵
(即:规范形为 ) - 标准形中主对角元素全为正;
- 特征值全为正;
- 是某基的度量矩阵。
# 1.2 导数和偏导数
# 1.2.1 导数偏导计算
导数定义:
导数(derivative)代表了在自变量变化趋于无穷小的时候,函数值的变化与自变量的变化的比值。几何意义是这个点的切线。物理意义是该时刻的(瞬时)变化率。
注意:在一元函数中,只有一个自变量变动,也就是说只存在一个方向的变化率,这也就是为什么一元函数没有偏导数的原因。在物理学中有平均速度和瞬时速度之说。平均速度有
其中
其中
实际上,上式表示的是路程
则称此极限为函数
通俗地说,导数就是曲线在某一点切线的斜率。
偏导数:
既然谈到偏导数(partial derivative),那就至少涉及到两个自变量。以两个自变量为例,
注意:直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。
设函数
函数的极限
偏导数在求解时可以将另外一个变量看做常数,利用普通的求导方式求解,比如
某点
# 1.2.2 导数和偏导数有什么区别?
导数和偏导没有本质区别,如果极限存在,都是当自变量的变化量趋于0时,函数值的变化量与自变量变化量比值的极限。
- 一元函数,一个
对应一个 ,导数只有一个。 - 二元函数,一个
对应一个 和一个 ,有两个导数:一个是 对 的导数,一个是 对 的导数,称之为偏导。 - 求偏导时要注意,对一个变量求导,则视另一个变量为常数,只对改变量求导,从而将偏导的求解转化成了一元函数的求导。
# 1.3 特征值和特征向量
# 1.3.1 特征值分解与特征向量
特征值分解可以得到特征值(eigenvalues)与特征向量(eigenvectors);
特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么。
如果说一个向量
是方阵 的特征向量,将一定可以表示成下面的形式:
其中,
# 1.3.2 奇异值与特征值有什么关系
那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵
这里
这里的
右边的三个矩阵相乘的结果将会是一个接近于
# 1.4 概率分布与随机变量
# 1.4.1 机器学习为什么要使用概率
事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。
机器学习除了处理不确定量,也需处理随机量。不确定性和随机性可能来自多个方面,使用概率论来量化不确定性。
概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。
例如在机器学习(Andrew Ng)的课中,会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设,用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件,单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的,因为某些单词几乎总是同时出现。然而,最终结果是,这个简单的假设对结果的影响并不大,且无论如何都可以让我们快速判别垃圾邮件。
# 1.4.2 变量与随机变量有什么区别
随机变量(random variable)
表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例。
随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。
变量与随机变量的区别:
当变量的取值的概率不是1时,变量就变成了随机变量;当随机变量取值的概率为1时,随机变量就变成了变量。
比如:
当变量值为100的概率为1的话,那么 就是确定了的,不会再有变化,除非有进一步运算. 当变量 的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。
# 1.4.3 随机变量与概率分布的联系
一个随机变量仅仅表示一个可能取得的状态,还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法,就是 概率分布(probability distribution).
随机变量可以分为离散型随机变量和连续型随机变量。
相应的描述其概率分布的函数是
概率质量函数(Probability Mass Function, PMF):描述离散型随机变量的概率分布,通常用大写字母
概率密度函数(Probability Density Function, PDF):描述连续型随机变量的概率分布,通常用小写字母
# 1.4.4 离散型随机变量和概率质量函数
PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。
- 一般而言,
表示时 的概率. - 有时候为了防止混淆,要明确写出随机变量的名称
x - 有时候需要先定义一个随机变量,然后制定它遵循的概率分布x服从
x
PMF 可以同时作用于多个随机变量,即联合概率分布(joint probability distribution)
如果一个函数
的定义域必须是x的所有可能状态的集合 x, . . 我们把这一条性质称之为 归一化的(normalized)
# 1.4.5 连续型随机变量和概率密度函数
如果一个函数
的定义域必须是x的所有可能状态的集合。 . 注意,我们并不要求$ p(x)≤1$,因为此处 不是表示的对应此状态具体的概率,而是概率的一个相对大小(密度)。具体的概率,需要积分去求。 , 积分下来,总和还是1,概率之和还是1.
注:PDF
# 1.4.6 举例理解条件概率
条件概率公式如下:
图1.1 条件概率文氏图示意
根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是
举例:一对夫妻有两个小孩,已知其中一个是女孩,则另一个是女孩子的概率是多少?(面试、笔试都碰到过)
穷举法:已知其中一个是女孩,那么样本空间为男女,女女,女男,则另外一个仍然是女生的概率就是1/3。
条件概率法:
这里大家可能会误解,男女和女男是同一种情况,但实际上类似姐弟和兄妹是不同情况。
# 1.4.7 联合概率与边缘概率联系区别
区别:
联合概率:联合概率指类似于
边缘概率:边缘概率是某个事件发生的概率,而与其它事件无关。边缘概率指类似于
联系:
联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。
# 1.4.8 条件概率的链式法则
由条件概率的定义,可直接得出下面的乘法公式:
乘法公式 设
# 1.4.9 独立性和条件独立性
独立性
两个随机变量
条件有时为不独立的事件之间带来独立,有时也会把本来独立的事件,因为此条件的存在,而失去独立性。
举例:
条件独立性
给定
举例定义如下事件:
:明天下雨;
:今天的地面是湿的;
:今天是否下雨;
事件的成立,对 和 均有影响,然而,在 事件成立的前提下,今天的地面情况对明天是否下雨没有影响。
# 1.5 常见概率分布
# 1.5.1 Bernoulli分布
Bernoulli分布(伯努利分布,0-1分布)是单个二值随机变量分布, 单参数
其期望和方差为:
适用范围: 伯努利分布适合对离散型随机变量建模.
Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中
补充二项分布、多项分布:
二项分布,通俗点硬币抛多次。二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。
多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。
# 1.5.2 高斯分布
高斯也叫正态分布(Normal Distribution), 概率度函数如下:
正态分布中,±1
此外, 令
其中,
# 1.5.3 何时采用正态分布
问: 何时采用正态分布? 答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:
- 中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
- 正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.
正态分布的推广:
正态分布可以推广到
# 1.5.4 指数分布
深度学习中, 指数分布用来描述在
# 1.5.5 Laplace 分布(拉普拉斯分布)
一个联系紧密的概率分布是 Laplace 分布(Laplace distribution),它允许我们在任意一点
# 1.5.6 Dirac分布和经验分布
Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克
Dirac 分布经常作为 经验分布(empirical distribution)的一个组成部分出现
当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了采样来源.
适用范围: 狄拉克δ函数适合对连续型随机变量的经验分布.
# 1.6 期望、方差、协方差、相关系数
# 1.6.1 期望
在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。
- 线性运算:
- 推广形式:
- 函数期望:设
为 的函数,则 的期望为- 离散函数:
- 连续函数:
- 离散函数:
注意:
- 函数的期望大于等于期望的函数(Jensen(詹森)不等式,即
- 一般情况下,乘积的期望不等于期望的乘积。
- 如果
和 相互独立,则 。
# 1.6.2 方差
概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差是一种特殊的期望。定义为:
方差性质:
1)
2)常数的方差为0;
3)方差不满足线性性质;
4)如果和 相互独立,
# 1.6.3 协方差
协方差是衡量两个变量线性相关性强度及变量尺度。 两个随机变量的协方差定义为:
方差是一种特殊的协方差。当
协方差性质:
1)独立变量的协方差为0。
2)协方差计算公式:
3)特殊情况:
# 1.6.4 相关系数
相关系数是研究变量之间线性相关程度的量。两个随机变量的相关系数定义为:
相关系数的性质:
1)有界性。相关系数的取值范围是 [-1,1],可以看成无量纲的协方差。
2)值越接近1,说明两个变量正相关性(线性)越强。越接近-1,说明负相关性越强,当为0时,表示两个变量没有相关性。
# 参考文献
[1]Ian,Goodfellow,Yoshua,Bengio,Aaron...深度学习[M],人民邮电出版,2017
[2]周志华.机器学习[M].清华大学出版社,2016.
[3]同济大学数学系.高等数学(第七版)[M],高等教育出版社,2014.
[4]盛骤,试式千,潘承毅等编. 概率论与数理统计(第4版)[M],高等教育出版社,2008