python实战笔记

Leo lu 4月 15, 2018

KNN

k临近是一种比较暴力的分类算法，令我感到意外的是，这么简单的一个算法，在数据量足够大的时候，准确率居然是挺高的。

决策树

决策树使用的原理是信息熵，信息熵越大意味着信息的冗余越多，每一轮迭代都从特征中选取一个能够带来最大信息熵下降的特征（即按照这个特征进行分类，相对于未分类之前，信息熵下降最大），一直到节点都是同一种类型或者没有特征可以进行分类。
决策树在数据量较少的时候可以有较好的分类效果，但是当数据量大了之后，树的构造效率会明显下降（特别是特征值多的话）

朴素贝叶斯

朴素贝叶斯使用的原理是统计概率中的贝叶斯准则，朴素的意思是假定所有的特征之间是相互独立的。这个算法理论基础是统计上相同类型的样本的特征值是趋于相近的，所以可以通过统计同一个类型下不同特征的出现概率来描述不同的类型。