用归纳偏置来增强你的模型性能
- 2020-11-24 10:48:00
- 刘大牛 转自文章
- 549
本文为大家展示了在机器学习模型中编码现实生活中的对称性可以将其准确性提高几个数量级。
对称无处不在,围绕在我们生活左右。
在化学和物理应用机器学习的早期,研究者很快意识到模型需要观察这些对称性才能足够精确。因此,人们投入了大量的精力来研究如何在机器学习算法体现出对称性。现在,这通常是通过巧妙的特征工程和神经网络设计相结合来实现的。关于这些方法的全面评述可以在这里(https://aip.scitation.org/doi/full/10.1063/1.4966192)找到[1]。所有这些方法都有一个共同点,就是它们以某种形式向学习算法引入了归纳偏置。
线性回归是基于因变量与协变量之间存在线性关系的假设。
k近邻分类器假设特征空间中的邻近转换为输出空间中的邻近。
卷积神经网络假设输出在很大程度上不受输入转换的影响(不考虑边界条件)。
单元类型:零售,办公,生活空间
单元面积:以平方英尺为单位
房间数量
窗户与墙壁的比率
单元在哪一层(以楼层总数的比率给出)
。考虑每单元(每5列一组)作为一个单独的数据点,矩阵原始X转化后维数为10000a✖5由。线性回归则为
意味着我们总结一个建筑所有单元的特征,所以我们只使用建筑总面积而不是每个单元的面积。所以对于线性回归来说,强加排列对称真的是一个微不足道的任务。当我们转到内核方法时,使用这种更抽象的表示法的优势将变得清晰起来。
映射输入,或自变量x对因变量y(价格)。在高斯过程回归中,我们用贝叶斯方法先找到这个函数,即首先在所有可能的f上指定一个高斯先验分布,然后对观测数据点(X,y)进行条件处理(即基于先验和一定的假设(联合高斯分布)计算得到高斯过程后验分布的均值和协方差。)。这个先验通过协方差矩阵为k的高斯过程定义:
遵循正态分布。进一步,两个距离较远的点x和x’点的输出在在定义为
的协方差条件下是联合正态分布的。在实践中,这意味着我们可以通过选择一个合适的协方差函数(也称为核)
来确定拟合函数f的形状。
很小),点之间将是高度相关的。让我们回到我们的例子。一旦我们在训练数据上设定高斯过程的条件,我们就可以在测试集上做出预测。
已经取代了X。因为w的参数方程是线性的,它仍然是直接可解的:
并乘以单位矩阵。该参数用于拟合数据中的噪声,同时有助于避免矩阵求逆时的数值问题。
,矩阵L与线性回归问题中相同。
[1] Behler, Jörg. “Perspective: Machine learning potentials for atomistic simulations.” The Journal of chemical physics 145.17 (2016): 170901.
[2] https://en.wikipedia.org/wiki/Inductive_bias
[3] C. Cortes, L. D. Jackel, S. A. Solla, V. Vapnik, and J. S. Denker, Learning Curves: Asymptotic Values and Rate of Convergence, Advances in Neural Information Processing Systems (Curran Associates, Inc., 1994),
pp. 327–334
[4] C. E. Rasmussen & C. K. I. Williams, Gaussian Processes for Machine Learning, the MIT Press, 2006, ISBN 026218253X. c 2006 Massachusetts Institute of Technology
[5] Bartók, Albert P., et al. “Gaussian approximation potentials: The accuracy of quantum mechanics, without the electrons.” Physical review letters 104.13 (2010): 136403.
原文标题:
Supercharge your model performance with inductive bias
原文链接:
https://towardsdatascience.com/supercharge-your-model-performance-with-inductive-bias-48559dba5133
THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。
| 联系人: | 透明七彩巨人 |
|---|---|
| Email: | weok168@gmail.com |
| 网址: | ai.tmqcjr.com |