模式识别基础知识_模式识别学什么-程序员宅基地

技术标签: 人工智能  

模式识别基础知识

本文章主要介绍了模式识别的基本概论和统计决策方法(贝叶斯决策)和概率密度函数估计

一、概论

1.1 模式与模式识别

模式:指需要识别且可测量的对象的描述

模式识别:利用机器(计算机)模仿人脑对现实世界各种事物进行描述、分类、判断和识别的过程。

样本:所研究对象的一个个体

样本集:若干样本集合

类或类别:在所有样本上定义的一个子集,处于同一类的样本在我们所关心的某种性质上是不可分的

特征:指用于表征样本的观测

已知样本:指事先知道类别标号的样本

未知样本:指类别标号未知但特征已知的样本

1.2 模式识别的主要方法

实现的方法可以基于知识的方法和基于数据的方法两大类

  • 基于知识的方法:更具人们已知的关于研究对象的知识,整理出若干描述特征与类别间的关系的准则,建立一定的计算机推理系统,对未知样本通过这知识推理决策其类别
    • AI专家系统
    • 句法(结构)模式识别
  • 基于数据的方法:收集一定数量的一直样本,用这些样本作为训练集来训练一定的模式识别机器,使之在训练后能够对未知样本进行分类
    • 统计模式识别的方法
      • 确定样本的特征——收集已知样本——训练模式识别机器——对未知样本进行分类
    • 人工神经网络
    • 支持向量机

模式识别研究范畴

  • 基于数据的模式识别方法适用于已知对象的某些特征与我们所感兴趣的类别性质有关,但无法确切描述这种关系的情况
  • 基于知识的方法是发呢类和特征之间的关系完全可以确切的描述出来
  • 若二者的关系完全随机,即不存在规律性练习,应用模式识别也为u发的到有意义的结果。

1.3 监督模式识别与非监督模式识别

监督模式识别
  • 已知类别,并且能够获得类别已知的训练样本,这种情况下建立分类器的问题属于监督学习问题,称为监督学习
非监督模式识别(聚类)
  • 实现并不知道类别,更没有类别已知的样本,根据样本特征将样本聚成几个类,使属于同一类的样本在一定意义上是相似的,而不同类别之间的样本有较大差异。这种学习过程称作非监督模式识别

1.4 模式识别系统举例

分类器的设计

1.5 模式识别系统的典型构成

一个模式识别系统通常包括原始数据的获取和预处理、特征提取与选择、分类获聚类、后处理四个主要部分

  • 有已知样本情况:监督模式识别

    • 信息获取与预处理——特征提取与选择——分类器设计(训练)

      ​ ——分类决策(识别)

  • 无已知样本情况::非监督模式识别

    • 信息获取与预处理——特征提取与选择——聚类(自学习)——结果解释

监督模式识别和非监督模式识别的区别——训练样本

  • 监督识别需要训练数据,根据训练样本设计分类器
  • 而非监督模式识别不需要训练数据,是根据样本的相似性来进行分类的

特征提取与选择、分类器设计和聚类分析,乙级分类器和聚类结果的性能评价方法等是各种模式识别系统中具有共性的步骤,是整个系统的核心,也是模式识别学科研究的主要内容

二、统计决策方法

2.1 贝叶斯决策基础

  • 两个先验知识:

    • 先验概率:
      P ( w 1 ) 和 P ( w 2 ) P(w_1)和P(w_2) P(w1)P(w2)

    • 类条件概率:
      P ( x ∣ w 1 ) 和 P ( x ∣ w 2 ) P(x|w_1)和P(x|w_2) P(xw1)P(xw2)

  • 后验概率:
    P ( w i ∣ x ) = P ( x ∣ w i ) P ( w i ) P ( x ) P(w_i|x)=\frac{P(x|w_i)P(w_i)}{P(x)} P(wix)=P(x)P(xwi)P(wi)

  • 根据后验概率进行决策,这个决策过程就是贝叶斯决策

  • 先验概率:
    P ( w i ) P(w_i) P(wi)
    预先一直的或者可以估计的模式识别系统位于某种类型的概率。根据大量统计确定某类事物出现的比例,如P(男生)

  • 类条件概率:
    P ( x ∣ w i ) P(x|w_i) P(xwi)
    类别状态为wi时,样本x出现的概率密度

  • 全概率:
    P ( x ) P(x) P(x)
    样本x在所有类别里出现的概率之和,也称为x的全概率在两类问题的情况下:
    p ( x ) = ∑ p ( x ∣ w j ) P ( w j ) , j = 1 , 2 p(x)=\sum p(x|w_j)P(w_j) ,j=1,2 p(x)=p(xwj)P(wj),j=1,2

  • 后验概率:$ P(w_i|x) $

    • 一个具体事物属于某种类别的概率
    • 后验概率涉及一个具体事物,而先验概率是泛指一类事物,因此P(男生|X)和P(男生)是两个不同的概念
  • 贝叶斯公式
    P ( w i ∣ D ) = P ( D ∣ w i ) P ( w i ) P ( D ) P(w_i|D)=\frac{P(D|w_i)P(w_i)}{P(D)} P(wiD)=P(D)P(Dwi)P(wi)

  • 贝叶斯公示的两个创新点:

    • 用概率表示所有形式的不确定性
    • 引入了“先验”与“后验”的概念
  • 贝叶斯决策

    • 在类条件概率和先验概率已知(或者可以估计)的情况下,通过贝叶斯公式比较样本属于两类的后验概率,将类别决策为厚颜概率大的一类,这样做的目的是为了使总体错误率最小

2.2 最小错误率贝叶斯决策

1、最小错误率

错误率是指平均错误率,其表达式为:
P ( e ) = ∫ P ( e , x ) d x = ∫ P ( e ∣ x ) p ( x ) d x P(e)=\int{P(e,x)dx}=\int{P(e|x)p(x)dx} P(e)=P(e,x)dx=P(ex)p(x)dx
对错误率求最小值可以写成:
m i n P ( e ) = ∫ P ( e , x ) d x = ∫ P ( e ∣ x ) p ( x ) d x minP(e)=\int{P(e,x)dx}=\int{P(e|x)p(x)}dx minP(e)=P(e,x)dx=P(ex)p(x)dx
在这里插入图片描述
在这里插入图片描述

2、最小错误率的贝叶斯决策规则的多种等价形式

1) P ( w i ) = m a x P ( w j ∣ x ) − > x ∈ w i P(w_i)=maxP(w_j|x)->x\in w_i P(wi)=maxP(wjx)>xwi

2) p ( x ∣ w i ) P ( w i ) = m a x p ( x ∣ w j ) P ( w j ) — > x ∈ w i p(x|w_i)P(w_i)=max p(x|w_j)P(w_j) —>x\in w_i p(xwi)P(wi)=maxp(xwj)P(wj)>xwi

3) l ( x ) = p ( x ∣ w i ) p ( x ∣ w I ) > P ( w 2 ) P ( w 1 ) − > x ∈ w i l(x)=\frac{p(x|w_i)}{p(x|w_I)}>\frac{P(w_2)}{P(w_1)} ->x\in w_i l(x)=p(xwI)p(xwi)>P(w1)P(w2)>xwi

l ( x ) = p ( x ∣ w i ) p ( x ∣ w I ) < P ( w 2 ) P ( w 1 ) − > x ∈ w i l(x)=\frac{p(x|w_i)}{p(x|w_I)}<\frac{P(w_2)}{P(w_1)} ->x\in w_i l(x)=p(xwI)p(xwi)<P(w1)P(w2)>xwi 其中,l(x)为似然比, P ( w 2 ) P ( w 1 ) \frac{P(w_2)}{P(w_1)} P(w1)P(w2) 为似然比阈值

4) h ( x ) = − ln ⁡ l ( x ) = − ln ⁡ p ( x ∣ w 1 ) + l n p ( x ∣ w 2 ) < ln ⁡ P ( w 1 ) P ( w 2 ) − > x ∈ w 1 h(x)=-\ln l(x)=-\ln p(x|w_1)+ln p(x|w_2)<\ln \frac{P(w_1)}{P(w_2)}->x\in w_1 h(x)=lnl(x)=lnp(xw1)+lnp(xw2)<lnP(w2)P(w1)>xw1

h ( x ) = − ln ⁡ l ( x ) = − ln ⁡ p ( x ∣ w 1 ) + l n p ( x ∣ w 2 ) > ln ⁡ P ( w 1 ) P ( w 2 ) − > x ∈ w 2 h(x)=-\ln l(x)=-\ln p(x|w_1)+ln p(x|w_2)>\ln \frac{P(w_1)}{P(w_2)}->x\in w_2 h(x)=lnl(x)=lnp(xw1)+lnp(xw2)>lnP(w2)P(w1)>xw2

2.3 最小风险贝叶斯决策

1、最小风险贝叶斯决策就是考虑各种错误造成不同时的算是造成的

(1)观察 x x x是d维随机向量 x = [ x 1 , x 2 , . . . , x d ] T x=[x_1,x_2,...,x_d]T x=[x1,x2,...,xd]T

(2)状态空间 Ω \Omega Ω由c个自然状态组成。 Ω = { w 1 , w 2 , . . . w c } \Omega=\{w_1,w_2,...w_c\} Ω={ w1,w2,...wc}

(3)决策空间由a个决策 α , i = { 1 , 2 , . . . , a } 组成 \alpha,i=\{1,2,...,a\}组成 α,i={ 1,2,...,a}组成 γ = { α 1 , α 2 , . . . . , α a } \gamma=\{\alpha_1,\alpha_2,....,\alpha_a\} γ={ α1,α2,....,αa}

a和c不同

(4)损失函数: λ ( α i , w j ) , i = 1 , 2... a , j = 1 , 2 , . . . c \lambda(\alpha_i,w_j),i=1,2...a,j=1,2,...c λ(αi,wj),i=1,2...a,j=1,2,...c

2、条件期望损失

R ( α i ∣ x ) = E [ λ ( α i , w j ) ] = ∑ j = 1 c λ ( α i , w j ) P ( w j ∣ x ) , i = 1 , 2 , . . . a R(\alpha_i|x)=E[\lambda(\alpha_i,w_j)]=\sum_{j=1}^{c}\lambda(\alpha_i,w_j)P(w_j|x),i=1,2,...a R(αix)=E[λ(αi,wj)]=j=1cλ(αi,wj)P(wjx),i=1,2,...a

  • 此式考虑的是对样本x采集表中某一种决策 a i a_i ai时的损失的加权平均值
3、期望风险

R = ∫ R ( α ( x ) ∣ x ) p ( x ) d x R=\int R(\alpha(x)|x)p(x)dx R=R(α(x)x)p(x)dx
期望风险R反应对整个特征空间所有x的取值都采用相应的决策所带来的平均风险;

而条件风险 R ( a i ) ∣ x R(a_i)|x R(ai)x只是反映了对某一x的取值采取决策 a i a_i ai 所带来的风险

如果在采取每一个决策或行动时,都使条件风险最小,则 对所有的x做出决策时,其期望风险也必然最小。

4、最小风险贝叶斯决策规则

如果在采取每一个决策或行动时,都使条件风险最小,则对所有的x做出决策时,其期望风险也必然最小,这样的决策就是最小贝叶斯决策

2.4 贝叶斯分类器

我们对样本进行分类决策的过程其实就是建立分类器的过程

利用贝叶斯原理对样本进行分类的过程就是建立贝叶斯分类器的过程

1、贝叶斯分类器的原理:
  • 通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,选择具有最大后验概率的类作为该对象所属的类

在设计贝叶斯分类器的时候,主要包含两步:

(1)判别函数:用于表达决策测规则的某些函数称为判别函数

(2)决策面:对于c类分类问题,按照决策规则可以把d维特征空间分成c个决策域,将划分决策域的边界称为决策面。

2、两类问题

(1)判别函数
g ( x ) = g 1 ( x ) − g 2 ( x ) g(x)=g_1(x)-g_2(x) g(x)=g1(x)g2(x)

{ g ( x ) > 0 , 决策为 x ∈ w 1 g ( x ) < 0 , 决策为 x ∈ w 2 \begin{cases}g(x)>0,决策为x \in w_1 \\ g(x)<0,决策为x\in w_2\end{cases} { g(x)>0,决策为xw1g(x)<0,决策为xw2

  • 基于最小错误率的判别函数:

    P ( w 1 ∣ x ) = P ( x ∣ w 1 ) P ( w 1 ) P ( x ) P(w_1|x)=\frac{P(x|w_1)P(w_1)}{P(x)} P(w1x)=P(x)P(xw1)P(w1)

a 、 g ( x ) = P ( w 1 ∣ x ) − P ( w 2 ∣ x ) a、g(x)=P(w_1|x)-P(w_2|x) ag(x)=P(w1x)P(w2x)
b 、 g ( x ) = p ( x ∣ w 1 ) P ( w 1 ) − p ( x ∣ w 2 ) P ( w 2 ) b、g(x)=p(x|w_1)P(w_1)-p(x|w_2)P(w_2) bg(x)=p(xw1)P(w1)p(xw2)P(w2)
c 、 g ( x ) = ln ⁡ p ( x ∣ w 1 ) p ( x ∣ w 2 ) + ln ⁡ P ( w 1 ) P ( w 2 ) c、g(x)=\ln \frac{p(x|w_1)}{p(x|w_2)}+\ln \frac{P(w_1)}{P(w_2)} cg(x)=lnp(xw2)p(xw1)+lnP(w2)P(w1)

(2)决策面方程

两个决策区域在决策面上的判别函数是相等的

g ( x ) = 0 g(x)=0 g(x)=0

(3)设计分类器的网络结构

3、多类问题

判别函数——>决策面方程——>设计分类器

(1)判别函数

  • 写出多个判别函数,通常定义一组判别函数 g i ( x ) g_i(x) gi(x) i = 1 , 2 , . . . c i=1,2,...c i=1,2,...c,也就是每一类别都对应一个判别函数。

  • 定义判别规则的时候,如果对于一切j不等于i, g i ( x ) > g j ( x ) g_i(x)>g_j(x) gi(x)>gj(x)都成立,则将x归为 w i w_i wi类。

  • 在最小错误率的判别规则下的判别函数

    g i ( x ) = P ( w i ∣ x ) g_i(x)=P(w_i|x) gi(x)=P(wix)

    g i ( x ) = p ( x ∣ w i ) p ( w i ) g_i(x)=p(x|w_i)p(w_i) gi(x)=p(xwi)p(wi)

    g i ( x ) = ln ⁡ p ( x ∣ w i ) + ln ⁡ P ( w i ) g_i(x)=\ln p(x|w_i)+\ln P(w_i) gi(x)=lnp(xwi)+lnP(wi)

(2)决策面方程

在多类问题里,特征空间被分为多个决策区域,相邻两个决策区域之间是由决策面分隔开的,所以相邻两个决策区域在决策面上的判别函数相等

(3)分类器设计

多类问题的分类器可以看作是一个计算c个判别函数,对c个判别函数进行比较,并选取与最大判别值对应的类别的网络和机器

例题
在这里插入图片描述
在这里插入图片描述

2.5 正态分布时的决策统计

一个贝叶斯分类器的机构可以由类条件概率密度 p ( x ∣ w i ) p(x|w_i) p(xwi)回我先验概率 P ( w i ) P(w_i) P(wi)来决定,而类条件概率密度在统计决策理论中起着重要的作用,在概率密度函数里面,正态分布,也被称为高斯分布 ,是人们研究最多的分布之一。

1、为什么要用正态分布函数
  • 在客观世界中很多随机变量都服从或近似服从正态分布,对很多数据都可以做出正太分布的假设
  • 另一个原因是正态分布在数学上具有很多好的性质,十分有利于数学分析。
2、正态分布的基础知识
1、单变量正态分布

概率密度定义为:
p ( x ) = 1 2 π e x p [ − 1 2 ( x − μ σ ) 2 ] p(x)=\frac{1}{\sqrt{2\pi}}exp[-\frac{1}{2}(\frac{x-\mu}{\sigma})^2 ] p(x)=2π 1exp[21(σxμ)2]
x为一维向量

μ \mu μ为随机变量x的数学期望(均值)
μ = E ( x ) = ∫ − ∞ ∞ x p ( x ) d x \mu=E(x)=\int_{-\infty}^{\infty}xp(x)dx μ=E(x)=xp(x)dx
σ 2 \sigma^2 σ2为随机变量的方差; σ \sigma σ为均方差(标准差)
σ 2 = ∫ − ∞ ∞ ( x − μ ) 2 p ( x ) d x \sigma^2=\int_{-\infty}^{\infty}(x-\mu)^2p(x)dx σ2=(xμ)2p(x)dx

  • 概率密度函数 p ( w i ∣ x ) 或 p ( x ) p(w_i|x)或p(x) p(wix)p(x)完全由两个参数 μ 和 σ \mu和\sigma μσ决定

满足下列关系式:
p ( X ) ≥ 0 − ∞ < x < ∞ ∫ − ∞ ∞ p ( x ) d x = 1 p(X)\geq0 -\infty<x<\infty \\ \int_{-\infty}^{\infty}p(x)dx=1 p(X)0<x<p(x)dx=1

  • 正态分布的样本主要集中在均值附近,其分散程度可以用标准差来表征,越大分散程度越大。
  • 从正态分布的总体中抽取样本,约应95%的样本落在区间 ( μ − 2 σ , μ + 2 σ ) (\mu-2\sigma,\mu+2\sigma) (μ2σ,μ+2σ)
2、多元正态分布

多元正态分布是由均值向量 μ 和 Σ \mu和\Sigma μΣ协方差矩阵完全决定的

(1)多元正态分布的概率密度表示
p ( X ) = 1 ( 2 π ) d 2 ∣ ∑ ∣ 1 2 e x p [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] p(X)=\frac{1}{(2\pi)^\frac{d}{2}|\sum|^\frac{1}{2}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1} (x-\mu)] p(X)=(2π)2d211exp[21(xμ)TΣ1(xμ)]
在这里插入图片描述

(2)多元正态分布的性质

  • 多元正太分布由均值向量和协方差矩阵完全决定;

  • 从正态分布总体中抽取的样本大部分落在由 μ 和 Σ \mu和\Sigma μΣ确定的一个区域里,这个区域的中心由均值向量 μ \mu μ决定,区域的大小由协方差矩阵 Σ \Sigma Σ决定

  • 等密度点的轨迹位——超椭球面

    从多元正态分布概率密度函数式可以看出,指数项为常数时,密度值不变(等密度)
    ( x − μ ) T Σ − 1 ( x − μ ) = 常数 p ( X ) = 1 ( 2 π ) d 2 ∣ ∑ ∣ 1 2 e x p [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] (x-\mu)^T\Sigma^{-1}(x-\mu)=常数 \\ p(X)=\frac{1}{(2\pi)^\frac{d}{2}|\sum|^\frac{1}{2}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1} (x-\mu)] (xμ)TΣ1(xμ)=常数p(X)=(2π)2d211exp[21(xμ)TΣ1(xμ)]
    上式的解是一个超椭球面。

3、正态分布模型下的最小错误率贝叶斯决策

多类判别函数: g i ( x ) = ln ⁡ p ( x ∣ w i ) + ln ⁡ P ( w i ) g_i(x)=\ln p(x|w_i)+\ln P(w_i) gi(x)=lnp(xwi)+lnP(wi)

正态分布函数: p ( x ) = 1 ( 2 π ) d 2 ∣ ∑ ∣ 1 2 e x p [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] p(x)=\frac{1}{(2\pi)^\frac{d}{2}|\sum|^\frac{1}{2}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1} (x-\mu)] p(x)=(2π)2d211exp[21(xμ)TΣ1(xμ)]

判别函数: g i ( x ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − u i ) − d 2 ln ⁡ 2 π − 1 2 ln ⁡ ∣ Σ i ∣ + ln ⁡ P ( w i ) g_i(x)=-\frac{1}{2}(x-\mu_i)^T\Sigma_i^{-1}(x-u_i)-\frac{d}{2}\ln 2\pi-\frac{1}{2}\ln |\Sigma_i|+\ln P(w_i) gi(x)=21(xμi)TΣi1(xui)2dln2π21lnΣi+lnP(wi)

决策面方程: g i ( x ) = g j ( x ) g_i(x)=g_j(x) gi(x)=gj(x)

第一种情况: Σ = σ 2 I , i = 1 , 2 , L , c \Sigma=\sigma^2I,i=1,2,L,c Σ=σ2I,i=1,2,L,c
  • 每类的协方差矩阵相等并且是对角矩阵,类被各特征间相互独立,具有相等的方差 σ 2 \sigma^2 σ2,它们的协方差元素为0。

  • 从几何上看,各类样本落入以 μ i \mu_i μi为中心,永阳大小的超球体内。

  • 判别函数简化为:
    g i ( x ) = ( x − μ i ) T ( x − μ i ) 2 σ 2 + ln ⁡ P ( w i ) g_i(x)=\frac{(x-\mu_i)^T(x-\mu_i)}{2\sigma^2}+\ln P(w_i) gi(x)=2σ2(xμi)T(xμi)+lnP(wi)
    式中 ( x − μ i ) T ( x − μ ) = ∣ ∣ x − μ i ∣ ∣ 2 = ∑ j = 1 d ( x j − μ i j ) 2 , i = 1 , L , c (x-\mu_i)^T(x-\mu)=||x-\mu_i||^2=\sum_{j=1}^{d}(x_j-\mu_{ij})^2,i=1,L,c (xμi)T(xμ)=∣∣xμi2=j=1d(xjμij)2,i=1,L,c

1、各类的先验概率相等

  • 如果m各类型的先验概率 p ( w i ) , i = 1 , 2 , . . . , m p(w_i),i=1,2,...,m p(wi),i=1,2,...,m都相等,则可忽略判别函数中的 ln ⁡ p ( w i ) \ln p(w_i) lnp(wi)。使判别函数更加简化;
  • 相邻两类的决策面为超平面,并且与两类均值点连线 ( μ i − μ j ) (\mu_i-\mu_j) (μiμj)垂直,它们的交点恰好与 μ i − μ j \mu_i-\mu_j μiμj中点重合
  • 当对某一模式样本x进行分类时,只要计算样本到各类中心(均值向量)的欧氏距离的平方 ∣ ∣ x − μ i ∣ ∣ 2 || x-\mu_i||^2 ∣∣xμi2,然后把x归到 m i n ∣ ∣ x − μ i ∣ ∣ min||x-\mu_i|| min∣∣xμi∣∣的类,这种分类器称为最小距离分类器

2、各类的先验概率不相等

  • 判别函数 g i ( x ) 是 x 的线性函数 g_i(x)是x的线性函数 gi(x)x的线性函数
  • 决策面为由 g i ( x ) − g j ( x ) = 0 g_i(x)-g_j(x)=0 gi(x)gj(x)=0所确定的一个超平面,并且于两类均值点连线 μ i − μ j \mu_i-\mu_j μiμj垂直,它们的交点向先验概率小的那个类型均值点偏移。
  • 决策规则是要求对某个待分类的x,分别计算 g i ( x ) , i = 1 , 2 , . . . , c g_i(x),i=1,2,...,c gi(x),i=1,2,...,c。若: g k ( x ) = m a x g i ( x ) 则决策 x ∈ w k g_k(x)=max g_i(x)则决策x\in w_k gk(x)=maxgi(x)则决策xwk
第二种情况: Σ i = Σ \Sigma_i=\Sigma Σi=Σ
  • 它表示各类的协方差矩阵都相等,但各类的均值向量是任意的;

  • 从几何上来看,相当于各类样本集中于以该类均值为中心同样大小和形状的超椭球内。

  • 此时的判别函数为:
    g i ( x ) = − ( x − μ i ) T Σ − 1 ( x − μ i ) 2 + ln ⁡ P ( w i ) g_i(x)=-\frac{(x-\mu_i)^T\Sigma^{-1}(x-\mu_i)}{2}+\ln P(w_i) gi(x)=2(xμi)TΣ1(xμi)+lnP(wi)

1、各类的先验概率相等:

  • 盘被函数是线性的,如果m各类型的先验概率 p ( w i ) , i = 1 , 2 , . . . , m p(w_i),i=1,2,...,m p(wi),i=1,2,...,m都相等,则可忽略判别函数中的 ln ⁡ p ( w i ) \ln p(w_i) lnp(wi)。使判别函数更加简化;
  • 相邻两类的决策面为超平面,并且与两类均值点连线 ( μ i − μ j ) (\mu_i-\mu_j) (μiμj)垂直,相交于中点但并不与两类均值点连线垂直
  • 决策规则简化为:对x进行分类,只要计算出x到每类样本均值点的马氏距离的平方,最后把x归于距离最小的那个类别

2、各类的先验概率不相等

  • 判别函数是线性的
  • 相邻两类的决策面为超平面,于两类均值点连线 ( μ i − μ j ) (\mu_i-\mu_j) (μiμj)相交,但并不与两类均值点连线垂直,远离可能性较大的均值。
第三种情况: Σ i ≠ Σ \Sigma_i \neq\Sigma Σi=Σ
  • 它表示各类的协方差矩阵不相等,这是最一般的情况

  • 此时的判别函数为:
    d i ( x ) = − 1 2 ( x − μ i ) T Σ − 1 − 1 2 ln ⁡ Σ i + l n P ( w i ) d_i(x)=-\frac{1}{2}(x-\mu_i)^T\Sigma^{-1}-\frac{1}{2}\ln \Sigma_i+lnP(w_i) di(x)=21(xμi)TΣ121lnΣi+lnP(wi)
    在两类问题中,对应的判定面为超二次曲面

三、概率密度函数估计

3.1 引言

1、存在的问题:

  • 不知道先验概率 P ( w i ) P(w_i) P(wi)和类条件概率 p ( x ∣ w i ) p(x|w_i) p(xwi)
  • 估计先验概率 P ( w i ) P(w_i) P(wi)通常没有太大困难;
  • 最大困难在于估计类条件概率密度函数 p ( x ∣ w i ) p(x|w_i) p(xwi),因为训练样本不够多,如果特征的维数较大,会产生比较困难的多重积分计算复杂度问题。
  • 就是要寻找某种有效的方法,能利用现有的信息设计出正确的分类器。

2、问题的解决:

  • 目标:

    利用已知的笼统和模糊的知识+训练样本——>设计分类器

  • 方法:
    利用训练样本估计先验概率和条件密度函数,并把这些估计的结果当作实际的先验概率和条件密度函数,然后再设计分类器。

3、参数估计的方法:

  • 最大似然估计
  • 贝叶斯估计

两种方法的区别:

  • 最大似然估计把待估计的参数看作是确定的量,只是其取值未知;
  • 贝叶斯估计是把待估计的参数看作符合某种先验概率分布的随机变量

4、参数估计的分类

  • 监督参数估计―—样本所属类别(标签)已知,样本的类条件概率密度函数的形式已知,但参数未知(例如,已知高斯分布,但参数或未知),即已知规律但未知参数
  • 非监督参数估计―—已知总体概率密度函数的形式,但样本所属类别未知,要求推断出概率密度函数的某些参数,称为非监督参数估计。

5、参数估计的基本概念

  • 统计量——每一种训练样本都包含着总体的某种信息,一个训练样本集X包含总体的全部信息,针对不同的参数估计要求构造某种函数以便从样本集X中抽取有关信息,这种函数称为统计量。
  • 参数空间——所有未知参数的可能取值的集合称为参数空间,记为 Θ \Theta Θ
  • 点估计、估计量和估计值——估计总体分布的一个或几个具体参数叫点估计。针对某未知参数 θ i \theta_i θi构造一个统计量作为 θ i \theta_i θi估计,称 θ ^ i \widehat\theta_i θ i θ i \theta_i θi的估计量; θ ^ i \widehat\theta_i θ i的值叫做 θ i \theta_i θi的估计值。

3.2最大似然估计

1、最大似然估计的基本问题

​ 在一类中独立地按照概率密度 p ( x ∣ θ ) p(x|\theta) p(xθ)抽取样本集X,用来估计出未知参数 θ \theta θ

  • 基本假设:
    • 参数 θ \theta θ是未知的确定性的量;
    • 样本集按照类别 w i w_i wi分为c个样本子集,这些样本都是从
      类条件概率密度为 p ( x ∣ w j ) p(x|w_j) p(xwj)的总体中独立抽取的。
    • 类条件概率密度 p ( x ∣ w j ) p(x|w_j) p(xwj)具有某种确定的函数形式,只是其中的参数 θ \theta θ未知。
      不同类别的参数在函数上是独立的(非耦合),可以分别对每一类进行处理。

2、基本概念和原理
已知某一类样本集包含N个样本,X={x,x2, …x}待估计的未知参数为0,由于假设样本是独立抽取的,那么
p ( X ∣ θ ) = p ( x 1 , x 2 , . . . . . . . x N ∣ θ ) = ∏ k = 1 N p ( x k ∣ θ ) p(X|\theta)= p(x_1,x_2,.......x_N|\theta)=\prod_{k=1}^{N}p(x_k|\theta) p(Xθ)=p(x1,x2,.......xNθ)=k=1Np(xkθ)

看做是参数 θ \theta θ的函数,称联合概率密度 p ( X ∣ θ ) p(X|\theta) p(Xθ)为样本集X下的似然函数,通常我们把这个函数用 l ( θ ) l(\theta) l(θ)来表示。

为了便于分析(指数分布以及对数函数单调性,还可以定义对数似然函数:
H ( θ ) = ln ⁡ ∏ k = 1 N [ p ( x k ∣ θ ) = ∑ k = 1 N ln ⁡ p ( x k ∣ θ ) H(\theta)= \ln \prod_{k=1}^{N}[p(x_k|\theta)=\sum_{k=1}^{N} \ln p(x _k|\theta) H(θ)=lnk=1N[p(xkθ)=k=1Nlnp(xkθ)

向量参数 θ \theta θ的最大似然估计,就是使 p ( X ∣ θ ) p(X| \theta) p(Xθ)达到最大值的那个参数估计向量 θ ^ \widehat\theta θ

最有可能出现的样本<——>似然函数最大的样本

3、最大似然估计量

最有可能出现的样本就等价于似然函数最大的样本,所以使似然函数值最大的 θ ^ \widehat \theta θ 是样本集X的函数,记作 θ ^ = d ( x 1 , x 2 , … , x N ) \widehat \theta= d(x_1,x_2,… ,x_N) θ =d(x1,x2,,xN),它就是我们要求的最大似然估计量。

估计值

估计值就是使似然函数 l ( θ ) l( \theta) l(θ)最大化所对应的 θ \theta θ值,记作:
θ ^ = a r g m a x l ( θ ) \widehat \theta=arg max l(\theta) θ =argmaxl(θ)

4、极大似然估计的求解

  • 求解方法:根据已知的样本集X,使似然函数取极大值时得到的参数,就是我们要找的估计量。

  • 一维变量参数的求解:

    • 在似然函数连续、可微的条件下,并且只有一个参数变量的情况下,即 θ \theta θ为一维参数,求 θ \theta θ就是求解如下微分方程的解:
      d l ( θ ) / d θ 或 d H ( θ ) / d ( θ ) = 0 dl(\theta)/d\theta 或 dH(\theta)/d(\theta)=0 dl(θ)/dθdH(θ)/d(θ)=0
  • 多维变量参数的求解:

    • 若未知参数不止一个,即是由多个未知参数组成的向量时,求解似然函数的最大值,就需要对参数向量 θ \theta θ的每一维分量分别求偏导,即用下面的梯度算子:
    • 在这里插入图片描述
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_53182191/article/details/128875546

智能推荐

Spring Cloud Ribbon 原理_spring cloud ribbon原理-程序员宅基地

文章浏览阅读810次。Spring Cloud Ribbon Rule _spring cloud ribbon原理

spring bean的生命周期-程序员宅基地

文章浏览阅读805次。spring bean的生命周期(1)实例化Bean:对于BeanFactory容器,当客户向容器请求一个尚未初始化的bean时,或初始化bean的时候需要注入另一个尚未初始化的依赖时,容器就会调用createBean进行实例化。对于ApplicationContext容器,当容器启动结束后,通过获取BeanDefinition对象中的信息,实例化所有的bean。(2)设置对象属性(依..._springbean的生命周期 csdn

Linux学习——vi编辑器的使用(内附快捷键的使用)(超详细)_linux中vi编辑器的使用-程序员宅基地

文章浏览阅读3.8w次,点赞53次,收藏324次。vi编辑器的使用(内附快捷键的使用)(超详细)JunLeon——go big or go home前言:vi编辑器是Linux系统下标准的编辑器。那么简单的理解,就像是Windows下的记事本。补充:vim是vi的升级版,代码补完、编译及错误跳转等方便编程的功能特别丰富,在程序员中被广泛使用。一、vi 命令的使用命令格式: vi 文件名示例: vi a.txt注意:直接输入vi,可以查看vi的版本等信息,还可以直接编辑,但是退出时需要加上文件名,例如 :wq a.tx_linux中vi编辑器的使用

脉冲神经网络原理及应用,脉冲神经网络发展前景_为什么说脉冲神经网络是感知机、前馈网络之后的第三代网络?-程序员宅基地

文章浏览阅读958次。脉冲神经网络(SNN-SpikingNeuronNetworks)经常被誉为第三代人工神经网络。第一代神经网络是感知器,它是一个简单的神经元模型并且只能处理二进制数据。第二代神经网络包括比较广泛,包括应用较多的BP神经网络。但是从本质来讲,这些神经网络都是基于神经脉冲的频率进行编码(ratecoded)。脉冲神经网络,其模拟神经元更加接近实际,除此之外,把时间信息的影响也考虑其中。_为什么说脉冲神经网络是感知机、前馈网络之后的第三代网络?

YUV图像格式详解-程序员宅基地

文章浏览阅读1.2k次,点赞5次,收藏24次。相对于常见且直观的RGB颜色编码,YUV的产生自有其意义,它基于人眼对亮度比色彩的敏感度更高的特点,使用Y、U、V三个分量来表示颜色,并通过降低U、V分量的采样率,尽可能保证图像质量的情况下,做到如下3点:占用更低的存储空间数据传输效率更高兼容黑白与彩色显示具体是怎么做到的,本博文一一讲解_yuv

太原理工java实验报告_太原理工大学-JAVA实验报告.doc-程序员宅基地

文章浏览阅读809次。太原理工大学-JAVA实验报告本科实验报告课程名称: java语言程序设计实验地点: 明向校区综合实验楼专业班级: 软件1302学号:学生姓名: 李国涛指导教师: 李君婵时间:2014年 12 月 31 日实验名称Java语言基础实验目的和要求:通过实验,掌握Java语言程序设计的基本方法。学会Java语言中标示符的命名..._太原理工大学java实验报告

随便推点

英语基本语法_英语基础语法-程序员宅基地

文章浏览阅读1.4w次,点赞8次,收藏40次。1. 名词   名词可以分为专有名词(Proper Nouns)和普通名词 (Common Nouns),专有名词是某个(些)人,地方,机构等专有的名称,如Beijing,China等。普通名词是一类人或东西或是一个抽象概念的名词,如: book,sadness等。普通名词又可分为下面四类:  1)个体名词(Individual Nouns):表示某类人或东西中的个体,如:gun。  2)集体..._英语基础语法

busybox构建根文件系统_busybox mount-程序员宅基地

文章浏览阅读1.3k次,点赞2次,收藏14次。rootfs有两种格式:nfs方式启动的文件夹形式的rootfs和用来烧录的镜像形式的rootfs。一、busybox移植1、busybox下载busybox是一..._busybox mount

sass-loader版本过高_sass loader-程序员宅基地

文章浏览阅读8.6k次,点赞11次,收藏20次。今天在学习狂神的vue实战上手的时候运行项目就死了,配置了半天终于好了第一个错误:Module build failed: TypeError: loaderContext.getResolve is not a functionsass-loader版本太高 解决:(1和2选一个)修改配置文件,重新安装//1.修改sass-loader的版本为^7.3.1//2.重新安装配置环境npm install卸载当前,重新下载// 卸载当前版本npm uninstall sass_sass loader

C程序设计第五版(谭浩强)-第四章习题_1、什么是算术运算?什么是关系运算?什么是逻辑运算?-程序员宅基地

文章浏览阅读1.7k次,点赞5次,收藏12次。1、什么是算术运算?什么是关系运算?什么是逻辑运算?算术运算:即“四则运算”,是加法、减法、乘法和除法四种运算的统称;关系运算:所谓“关系运算”就是“比较运算”,将两个数值进行比较,判断其比较的结果是否符合给定的条件;逻辑运算:逻辑运算又称布尔运算,有与、或、非三种基本逻辑运算;2、C语言中如何表示“真”和“假”?系统如何判断一个量的“真”和“假”?C语言编译系统在表示逻辑运算结..._1、什么是算术运算?什么是关系运算?什么是逻辑运算?

iptables-程序员宅基地

文章浏览阅读65次。iptables介绍和禁icmpnetfilter --> iptables 防火墙名字是netfilter iptables是命令1.filter(过滤包,用的最多的,)内建三个链: 1.INPUT作用于进入本机的包 2.OUTPUT作用于本机送出的包 3.FORWARD作用于那些跟本机无关的包2.nat (主要用处是..._linux iptables 计数器 实现在哪

Win7/10-Anaconda3-【Python3.7】详细安装教程_python3.7版本的anaconda-程序员宅基地

文章浏览阅读1.1w次,点赞19次,收藏89次。Win7/10-Anaconda3-【Python3.7】详细安装教程一.资源下载二.安装过程2.1 详细过程2.2 环境变量三.检查是否安装成功3.1 检查开始菜单3.2 cmd控制台检查一.资源下载第一种方式(镜像下载)由于Anaconda3-python3.7属于老版本的,所以 Anaconda官网已经不存在了,大家可以去清华镜像下载自己所需要的,为什么去清华镜像下载呢?因为下载的快呀~链接: 清华镜像-Anaconda3-python3.7-5.3.1这个版本.第二种方式这个_python3.7版本的anaconda