深度学习中的MSE与MAE

news/2024/12/24 2:57:02 标签: 深度学习, 人工智能

有空再把内容补上来

均方误差(Mean Squared Error,MSE)和平均绝对误差(Mean Absolute Error,MAE)是深度学习中常用的两种损失函数,用于衡量模型预测结果与真实标签之间的差异,以下是对它们的详细介绍:

定义

  • 均方误差(MSE):是预测值与真实值之差的平方和的平均值,其数学表达式为,其中为样本数量,为第个样本的真实值,为第个样本的预测值。
  • 平均绝对误差(MAE):是预测值与真实值之差的绝对值的平均值,其数学表达式为。

特点

  • MSE
    • 对误差的平方惩罚:由于是误差的平方,所以对较大误差的惩罚更严重。这使得模型在训练过程中会更加关注那些预测误差较大的样本,从而促使模型尽可能地减小这些大误差,以降低整体的损失值。
    • 梯度计算特性:其梯度与误差成正比,即误差越大,梯度越大,模型参数更新的幅度也就越大。这在训练初期有助于模型快速调整参数,找到一个大致合适的解。
    • 连续可导:在数学上具有良好的性质,处处连续可导,便于使用基于梯度的优化算法进行求解,如随机梯度下降(SGD)等。
  • MAE
    • 对误差的线性惩罚:采用绝对值来衡量误差,对误差的惩罚是线性的,无论误差大小,其惩罚力度相对较为均匀。这使得模型在训练过程中对所有样本的误差都给予相对平等的关注,不会因为个别大误差样本而过度调整参数。
    • 鲁棒性较好:对异常值或离群点的敏感度相对较低,因为它不会像 MSE 那样对大误差进行平方放大。所以在数据存在一些噪声或异常值的情况下,MAE 能够提供更稳定的损失度量,使模型的训练更加稳健。
    • 梯度不连续:在误差为 0 处不可导,这在使用一些基于梯度的优化算法时可能会带来一些问题,例如可能导致梯度更新不稳定或收敛速度变慢。

适用场景

  • MSE
    • 回归问题:在大多数回归任务中,如预测房价、股票价格等,MSE 是一种常用的损失函数。它能够使模型更加关注预测的准确性,尤其是对于那些需要精确数值预测的场景。
    • 对精度要求高的任务:当对预测结果的精度要求较高,希望模型尽可能减小预测误差时,MSE 是一个合适的选择。例如在一些科学计算或工程应用中,需要对物理量进行精确预测,此时 MSE 可以帮助模型更好地拟合数据。
  • MAE
    • 存在异常值的情况:当数据集中存在较多异常值或离群点时,MAE 更能体现模型的整体性能。因为它对异常值的不敏感性,使得模型在面对这些干扰因素时能够保持相对稳定的训练和评估。
    • 鲁棒性要求高的任务:在一些对模型鲁棒性要求较高的场景中,如医疗诊断、金融风险评估等,MAE 可以提供更可靠的损失度量。这些领域的数据往往存在一定的不确定性和噪声,MAE 能够帮助模型更好地应对这些情况,做出相对稳定的预测。


http://www.niftyadmin.cn/n/5797244.html

相关文章

robots协议

robots协议,也称为爬虫协议、爬虫规则、机器人协议等,其全称是“网络爬虫排除标准”(Robots Exclusion Protocol)。以下是对robots协议的详细介绍: 一、定义与功能 robots协议是指网站可以建立一个名为robots.txt的文…

我的个人博客正式上线了!

我的个人博客终于上线啦点此访问 经过一番折腾,我的个人博客终于上线啦!这是一个属于我自己的小天地,可以用来记录生活点滴、技术分享以及一些随想。 在这里,我想分享一下搭建博客的整个过程和心得体会。 为什么要搭建博客&…

与乐鑫相约 CES 2025|创新技术引领物联网与嵌入式未来

2025 国际消费电子产品展览会 (International Consumer Electronics Show, CES) 将于 2025 年 1 月 7 至 10 日在美国拉斯维加斯盛大开幕。作为全球规模最大、水准最高,且影响力最广的消费电子类科技盛会,CES 每年都吸引着全球行业领袖、开发者和技术爱好…

【计算机视觉基础CV-图像分类】02-入门详解图像分类、经典数据集、比赛与冠军图像模型演进史

前言 图像分类(Image Classification)是计算机视觉(Computer Vision)中一项基础且核心的任务。简单来说,就是让计算机从给定的类别集合中,为一张输入图片分配一个正确的类别标签。这个过程听起来直观&…

流式处理,为什么Flink比Spark Streaming好?

1 、反压机制 Flink 在数据传输过程中使用了分布式阻塞队列,一个阻塞队列中,当队列满了以后发送者会被天然阻塞住,这种阻塞功能相当于给这个阻塞队列提供了反压的能力。 Spark Streaming 为了实现反压这个功能,在原来的架构基…

从零玩转CanMV-K230(4)-小核Linux驱动开发参考

前言 K230 芯片是一款基于 RISC-V 架构的端侧 AIoT 芯片,包含两个核心: CPU 1: RISC-V 处理器,1.6GHz,32KB I-cache, 32KB D-cache, 256KB L2 Cache,128bit RVV 1.0扩展 CPU 0: RISC-V 处理器,0.8GHz&am…

《深入浅出 Servlet:Java Web 开发的基石》(二)

ServletConfig(熟练) ServletConfig对象对应web.xml文件中的<servlet>元素。例如你想获取当前Servlet在web.xml文件中的配置名&#xff0c;那么可以使用servletConfig.getServletName()方法获取&#xff01; 你不能自己去创建ServletConfig对象&#xff0c;Servlet的in…

使用Docker启用MySQL8.0.11

目录 一、Docker减小镜像大小的方式 1、基础镜像选择 2、减少镜像层数 3、清理无用文件和缓存 4、优化文件复制&#xff08;COPY和ADD指令&#xff09; 二、Docker镜像多阶段构建 1、什么是dockers镜像多阶段构建 1.1 概念介绍 1.2 构建过程和优势 2、怎样在Dockerfil…