逻辑回归

    1 逻辑回归
    2. 交叉熵损失函数
        2.1 交叉熵
        2.2 相对熵
        2.3 交叉熵损失函数

1 逻辑回归

逻辑回归/对数几率回归(Logistic/Logit Regression)实际是一种分类学习方法,用于因变量是二分类(0/1,True/False,Yes/No)的情况。

这种方法直接对分类可能性进行建模,无需实现假设数据分布,用线性回归模型的预测结果逼近真实标记的对数几率,可得到近似概率预测。

对数几率函数(Logistic function)是一种Sigmoid函数(S形函数),将  z=wTx+b值转化为一个接近 0或 1 的 y 值,并且输出值在  z=0附件变化很陡。

令 

把逻辑回归看做用线性回归模型的预测结果逼近真实标记的对数几率,根据  (1):

根据 ( 8 ) (8) (8),定义损失函数:

合并为下式:

2. 交叉熵损失函数

2.1 交叉熵

交叉熵可衡量在真实分布下使用非真实分布所指定的策略消除系统的不确定性所需要付出代价,定义如下:

2.2 相对熵

相对熵(relative entropy)又称KL散度(Kullback-Leibler divergence),用来衡量两个概率分布之间的差异,定义如下:

信息熵为完美编码,交叉熵不完美编码,相对熵(KL散度)是两者的差值(即差异),即交叉熵减去信息熵。

KL散度大于等于0,并且越接近0说明p与q这两个分布越接近,当且仅当 p 与 q相等时KL散度等于0。

机器学习的过程就是希望在训练数据上模型学到的分布 Pmodel​和真实数据的分布 Preal​越接近越好,但由于没有真实数据的分布,只能希望模型学到的分布和训练数据的分布  Ptrain​尽量相同。

最小化模型分布 Pmodel​与训练数据上的分布 Ptrain​的差异等价于最小化这两个分布间的KL散度KL(Ptraining​∣∣Pmodel​)


2.3 交叉熵损失函数

在二分类中, p为实际值, q 为预测值,用  p分布拟合 q分布,则

上式与逻辑回归的损失函数( 11式)形式是一致的。