DanWang Blog

基础内容1

内容来自于《机器学习》

泛化

机器学习的目标是使学得的模型能很好地适用于“新样本”,而不仅仅是在训练样本上工作得很好。

学得模型适用于新样本的能力,成为泛化能力。具有强泛化能力的模型能够很好地适用于整个样本空间。

独立同分布

《机器学习》:通常假设样本空间中全体样本服从一个未知分布,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。

在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。

假设空间

归纳与演绎是科学推理的两大基本手段,前者是从特殊到一半的“泛化”过程,即从具体的事实归结出一般性规律;后者是从一般到特殊的“特化”过程,即从基础原理推演出具体状况。

归纳学习有狭义与广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,因此亦称为“概念学习”或者“概念形成”。

归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”。

奥卡姆剃刀:是一种最常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。即“简单有效原理”。

学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。

符号主义学习,其代表包括决策树和基于逻辑的学习。基于逻辑的学习的著名代表是归纳逻辑程序设计。