1.基础概念:
(1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据,1分作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,在求其平均值,对算法的准确性进行估计。
(2) 极大似然估计:极大似然估计,只是一种概率论在统计学中的应用,它是参数评估的方法之一。说的 已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计通过若干次实验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上的:已知某个参数能使这个样本出现的概率最大。我们当然不会再去选择其他其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
(3) 在信息论中,熵表示的是不确定性的量度。信息论的创始人香农在其著作《通信的数学理论》中提出了建立在概率统计模型上的信息度量。他把信息定义为”用来消除不确定性的东西“。熵的定义为信息的期望值。
ps:熵指的是体系的混乱程度,它在控制论,概率论,数论,天体物理,生命科学等领域都有重要的应用,在不同的学科中也有引申出更为具体的定义,是各个领域十分重要的参量。熵由鲁道夫.克劳修斯提出,并应用在热力学中。后来在,克劳德.埃尔伍德.香农 第一次将熵的概念引入到信息论中来。