损耗函数的正则化

最近看到了损耗函数的正则化，虽然从直观上可以明白就是通过添加负权重来减少关联性小的特征对假设函数的影响，但是我不明白背后的理论依据是什么。

我理解的是，通过选择合适的λ，一方面可以减少拟合数据的迭代次数，另一方面可以减少关联性小的特征对整个假设函数的影响。其实就是把原本过拟合的曲线给平滑化，使得假设函数更具一般性。本来机器学习解决的就是不确定问题，我们只能想方法让结果靠近真实的解，而不是尝试去求满足所有观测数据的正确解。

需要注意的是，$X_{0}$本身是我们自己添加的，且始终为1，所以在迭代求参的过程中，我们不需要去为$\theta_{0}$添加负权重，这个在实际计算中编写损耗函数和梯度下降函数的时候要注意。