Prml1.2学习笔记—似然函数

上节从最简单的随机变量扯到宇宙原理（汗）。今天接着上次扯。

关于均值，方差标准差什么的，没有什么好说的。

值得一提是书中提到的关于随机变量的变换，

在满足x=g(y)的情况下，概率密度函数存在着变量的代换，这里比较需要注意的变量代换的下标。

离散型与连续型随机变量的期望公式，也比较简单，但是需要注意边缘分布与联合分布下的对某一随机变量的期望求解。

特别是条件分布的条件期望：

关于条件期望的形式，非常容易出错，貌似之前我经常写错f(x)的位置

这里需要记得，关于条件期望，是指首先是条件概率，即在条件y下x发生的概率，然后在x发生的情况下，再去对x进行函数变换。

上次本来说要好好谈一谈协方差，但是自己对协方差的理解感觉也需要演化，于是推一推，现在且先记得协方差衡量的是两个变量之间的相关性就可以了。

之后贝叶斯公式再次出现了，不过换了两个变量，变得得更有意义了

这里的w即是我们在机器学习过程中所需要优化和拟合的模型的参数，而D则是训练集。从贝叶斯的角度来理解，我们的目标是在给定了训练集的情况下，预测参数，也就是计算P(w|D)，而根据等式的右边，我们可以通过对于P(D|w)的计算来完成，P(D|w)是指在给定的参数下，训练数据出现的概率。

也就是说，刚一开始，我们要优化的目标是看到数据，想一想，这样的数据可能对应着什么的参数，但是反过来思考，什么样的参数会产生这样的数据呢。

P(D|w)就是传说中大名顶顶的似然函数。

在贝叶斯学派和频率学派的做法，似然函数都起着非常重要的作用。

对于频率学派而言，w的值是固定，他的值，需要通过估计来求得，而估计的过程则需要考虑所有可能出现的数据集。

而对于贝叶斯学派而言，我们的数据集只有一份，即是目前眼前看到手中持有的那一份，因此参数的不确定性就表示为参数w的分布。

频率学派的做法一般是最大似然，即求maximize P(D|w)，而通常的作法是求最大似然的负log值，这个负log值被称为error funcion，或者损失函数。

因为log函数是单调递减函数，因此最大似然，也就意味着最小错误。

在最简单的线性回归，如果我们最错误建模为是由于高斯噪声出现的，那么对高斯分布，进行反向log运算，再进行一些简单的变化后，就能够得到最常见的损失函数的形式。

20 11 月, 2014

gfgkmn