交叉熵损失(Cross Entropy Loss)学习笔记

  在分类任务中,我们通常使用交叉熵作为损失函数,首先给出交叉熵的计算公式:
二分类中:
L = 1 N ∑ i L i = 1 N ∑ i − [ y i l o g ( p i ) + ( 1 − y i ) ⋅ l o g ( 1 − p i ) ] \mathcal{L}=\frac1{N}\sum_{i}L_i=\frac1{N}\sum_{i}-[y_ilog(p_i)+(1-y_i)\cdot log(1-p_i)] L=N1iLi=N1i[yilog(pi)+(1yi)log(1pi)]  其中, y i y_i yi表示样本的label, p i p_i pi表示第i个样本预测为正类的概率。
多分类中:
L = 1 N ∑ i = − 1 N ∑ i ∑ c = 1 M y i c l o g ( p i c ) \mathcal{L}=\frac1{N}\sum_{i}=-\frac1{N}\sum_{i}\sum_{c=1}^{M}y_{ic}log(p_{ic}) L=N1i=N1ic=1Myiclog(pic)  其中,M是样本类别的数量, y i c y_{ic} yic是样本i的label取等于c取1,否则取0, p i c p_{ic} pic第i个样本预测属于类别c的概率。
  那么交叉熵为什么好呢,举一个例子:

预测值 label 是否正确
0.3 0.3 0.4 0 0 1 (democrat)
0.3 0.4 0.3 0 1 0 (republican)
0.1 0.2 0.7 1 0 0 (other)

  如果使用分类误差作为损失函数,该神经网络的分类误差为 1/3,请注意,这个net只是勉强正确地完成了前两个样本,并且在第三个样本上相差甚远。看这个例子:

预测值 label 是否正确
0.1 0.2 0.7 0 0 1 (democrat)
0.1 0.7 0.2 0 1 0 (republican)
0.3 0.4 0.3 1 0 0 (other)

  这个net的分类误差也是1/3,但是它很明显比上面那两个更好,对于前两个样本它很好的完成了分类,对于第三个样本则比较勉强,我们发现,分类误差是一种非常粗略的性能度量标准。
  对于这两个net我们计算交叉熵的值分别是1.37和0.54,第二个net的损失就比较小,这是符合逻辑的,相比于分类误差,交叉熵会更精细。同样我们也可以计算均方误差(MSE)作为损失,它的公式为: M S E = 1 n ∑ i n ( y i ^ − y i ) 2 MSE=\frac1n\sum_i^n(\hat{y_i}-y_i)^2 MSE=n1in(yi^yi)2  计算出来的值分别是0.81和0.34。但是相比于交叉熵,MSE过于强调不正确的输出,如果使用softmax层进行分类,反向传播的方法训练网络,有可能出现训练停滞不前的情况。

本文的例子来自Why You Should Use Cross-Entropy Error Instead Of Classification Error Or Mean Squared Error For Neural Network Classifier Training

最近更新

  1. TCP协议是安全的吗?

    2023-12-24 19:02:03       19 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-24 19:02:03       20 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-24 19:02:03       20 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-24 19:02:03       20 阅读

热门阅读

  1. 3.架构设计系列:高并发系统的设计目标

    2023-12-24 19:02:03       38 阅读
  2. 《微信小程序开发从入门到实战》学习六十一

    2023-12-24 19:02:03       48 阅读
  3. 常见的基因表达度量单位(ChatGPT)

    2023-12-24 19:02:03       39 阅读
  4. 基于llama-index对embedding模型进行微调

    2023-12-24 19:02:03       35 阅读
  5. 这30个人工智能工具我打赌你一定不知道

    2023-12-24 19:02:03       160 阅读
  6. 工业机器人主要组成部分及其作用

    2023-12-24 19:02:03       40 阅读
  7. 力扣题目学习笔记(OC + Swift)20. 有效的括号

    2023-12-24 19:02:03       40 阅读
  8. 【Kafka每日一问】kafka三种压缩方式差别?

    2023-12-24 19:02:03       31 阅读
  9. oracle 触发器 怎么返回处理错误到客户端

    2023-12-24 19:02:03       39 阅读
  10. MySQL数据的备份与恢复

    2023-12-24 19:02:03       35 阅读
  11. Mysql sql_mode参数配置

    2023-12-24 19:02:03       38 阅读