非参数估计

简介

非参数估计参数估计(即,监督参数估计非监督参数估计)共同构成了概率密度估计方法。非参数估计是一种对先验知识要求最少,完全依靠训练数据进行估计,而且可以用于任意形状密度估计的方法。常见的非参数估计方法有以下几种:

直方图

把数据的值域分成若干相等的区间,数据按照区间分为若干组,每组形成一个矩形区域,矩形的高和该组数据的数量成正比,其底为所属区间,将这些矩形依次排列组成的图行就是直方图。它提供数据一个直观的形象,但只适合低纬数据,当维度较高时,直方图所需的空间将随维度的增加呈指数级增加。

核密度估计

原理和直方图类似,是一种平滑的无参数密度估计方法。对于=于一组数据,把数据的值域分为若干相等的区间,每个区间称为一个bin,数据就按区间分成若干组,每组数据的个数比上总参数个数的比率就是每个bin的概率值。相对于直方图,它多了一个用于平滑数据的核函数。并且密度估计方法适用于中小规模的数据集,可以很快产生一个渐进无偏的密度估计,有良好概率统计性质。具体来说,如果数据为$X_{1},X_{2},… …X_{3}$,在任意点的X的一种核密度估计为:
$$ f(x) = \frac{1}{nh}\mathbf{\sum^n_{i=1}}K(\frac{x-\mathbf{x_i}}{h}) $$
这里K(x)称为核函数(Kernel function),它通常满足对称性以及
$$ \int K(x){\rm d}x=1 $$
可以看出,核函数是一种权函数,该个估计利用数据点x_{i}到x的距离来决定x_{i}在估计点x的密度时所起的作用,距离x越近的样本所起的作用越大,其权值越大。式子中的h表示带宽,h越大,估计密度函数就越平滑,但偏差可能比较大。如果h选择的比较小,那么估计的密度曲线和样本拟合的比较好,但是可能很不光滑,一般以均方误差最小为选择原则。需要说明的是,核密度估计也可以扩展到多维空间,当x为d维空间向量时,多核密度估计可以表示为:
$$ f(x)=\frac{1}{nh^d}\mathbf{\sum ^n_{i=1}}K(\frac{x-\mathbf{x_{i}}}{h}) $$
常用的核函数有:

  • 高斯
  • 余弦
  • 均匀
  • 三角等式

K临近估计

核密度估计的加权时以数据点到x的欧式距离为基准来进行的,而K临近估计是无论欧氏距离是多少,只要是离x点的最近的k个点其中之一就可以加权。即K临近密度估计可以表示为下列形式:
$$ f(x)=\frac{k-1}{2n\mathbf{d_{k}}(x)} $$
其中$d_{k}(x)$表示点x到所有样本点的欧式距离,而且$d_{1}(x)<=d_{2}(x)<=……<=d_{k}(x)​$,显然k的取值决定了估计密度曲线的光滑程度,k越大越光滑