二维码

培训深度学习模型所需的最小样本量是多少?CNN?

5047 人阅读 | 时间:2018年12月02日 10:11
确实,样本大小取决于问题的性质和实现的体系结构。但是,平均而言,用于培训深度学习框架的典型样本量是多少?
例如,在用于逐帧视频处理的卷积神经网络(CNN)中,是否存在对最小值的粗略估计。训练模型所需的样本?
给出“一刀切”的答案真的很难(如果不是不可能的话)。您需要的培训数据量取决于实验的许多不同方面:
  • 你试图分开的课程有多么不同?例如,如果你只是想对黑色和白色图像进行分类,那么你只需要很少的训练样例!但是,如果您正在尝试解决ImageNet,那么您需要每班1000个示例的训练数据。

  • 你有多积极地增加训练数据?(Sander Dieleman的博客文章“用深度神经网络分类浮游生物”给出了数据增加的一个很好的介绍;他谈了一个关于'深度神经网需要多少数据'的问题)

  • 你可以使用预先训练过的砝码来初始化网的下层吗?(例如使用从ImageNet训练的重量)

  • 你打算使用批量标准化吗?它可以帮助减少所需的数据量。

  • 在文献中讨论了大量关于从小型训练数据集中获取最大优势的方法的“技巧”。

所有答案11 

给出“一刀切”的答案真的很难(如果不是不可能的话)。您需要的培训数据量取决于实验的许多不同方面:
  • 你试图分开的课程有多么不同?例如,如果你只是想对黑色和白色图像进行分类,那么你只需要很少的训练样例!但是,如果您正在尝试解决ImageNet,那么您需要每班1000个示例的训练数据。

  • 你有多积极地增加训练数据?(Sander Dieleman的博客文章“用深度神经网络分类浮游生物”给出了数据增加的一个很好的介绍;他谈了一个关于'深度神经网需要多少数据'的问题)

  • 你可以使用预先训练过的砝码来初始化网的下层吗?(例如使用从ImageNet训练的重量)

  • 你打算使用批量标准化吗?它可以帮助减少所需的数据量。

  • 在文献中讨论了大量关于从小型训练数据集中获取最大优势的方法的“技巧”。

根据具体情况,它可能会有所不同,在某些情况下,如果研究是在海啸上,您可能无法收集30个样本来训练系统。因此,训练样本量没有最小值或最大值。通常,更多的培训样本可以确保更好的系统性能,但要确保不要过度训练您的网络。
根据Yaser S. Abu-Mostafa(电气工程和计算机科学教授)的说法,要获得正确的结果,您必须拥有至少10倍自由度的数据。
对于具有3个权重的神经网络的示例,您应该具有30个数据点。
这些问题完全取决于数据样本的域和质量。我确实记得,在过去,看到一个评论,即一个中等复杂的问题需要大约1,000个决策树的培训案例(来自Quinlan,在ID3时期)。
培训深度学习模型所需的最小样本量是多少?CNN?
2年前
Sivasathivel Kandasamy
添加了答案
这是一个非常研究的话题。决定样本量的因素有:
  1. 有问题的分类器

  2. 考虑的功能数量

  3. 数据的统计特征

数据的统计特征取决于其选择的分布。假设不同的域具有不同的数据分布,可以说所需的训练样本的数量取决于域/应用。
但是,我必须说......这不像你应该有10倍的自由度......这不是真的!当数据多于要求时,分类器倾向于过度拟合或仅仅忽略样本。也许,他可能已经给出了这个经验法则,为他的学生节省了一些精力......!
在MNIST上执行并转换到可以使用博客本身中标识的线性分类器解决的问题。
在实际情况中,需要更多数据来训练深度模型,因为您希望看到模型的概括能力。没有人可以告诉你你需要多少数据,因为答案是“它是不可知的”问题的复杂性和模型实现的原因。
数据的大小不是很重要。重要的是您拥有的样本的变化。这就是数据增加提高CNN模型准确性和推广的原因。但是,如果您的模型过度拟合,则需要有额外的训练数据。如果您的模型不适合n个样本,那么您只能获得额外的高质量数据,从而改善模型的泛化。换句话说,如果您需要更准确的模型,则需要其他数据。如果您的准确率为80%,那么只需获得n个训练数据样本即可达到该精度。
显然你不会得到经验法则,因为涉及的变量太多了。但是,过去几天我一直在训练几个CNN,以便从摄像机输入转向。'行为克隆'。这些模型的大小约为500万个参数,并且具有单个回归输出。我想用尽可能少量的样品来收集适当的数据是乏味的。我训练了大约40,60和8万个样本(16个时期)的模型。每个参展作品都有明显的改进。在8万个样本中,模型看起来就像他们刚刚开始按预期工作。我即将开始培训14万个样品,并期望看到显着的改善。我怀疑100万个样本会做得非常好。
但是,我应该说,如果我从世界上每个国家收集了几千个样本并且它增加了一百万个样本,那么用这些数据训练我的模型对它有什么好处?在任何国家都不会特别好。如果我在从伦敦收集的一百万个样本上训练我的模型,那么在伦敦和许多其他英国城市可能会相当不错。尽管具有泛化能力,但样本数据和应用程序关系仍很重要。
显然,我们需要良好的概括,但许多现实世界的问题对于单个模型来说太复杂了。


©著作权归作者所有:来自ZhiKuGroup博客作者没文化的原创作品,如需转载,请注明出处,否则将追究法律责任 来源:ZhiKuGroup博客,欢迎分享。

评论专区
  • 昵 称必填
  • 邮 箱选填
  • 网 址选填
  • 验证码
◎已有 0 人评论
搜索
作者介绍
本站会员尊享VIP特权,现在就加入我们吧!登录注册×
»
会员登录
新用户注册
×
会员注册
已有账号登录
×