机器学习概述

基本术语

  • 一个西瓜((色泽=青绿;根蒂=蜷缩;敲声=清脆),好瓜)
  • 记录:括号里的内容,即(色泽=青绿;根蒂=蜷缩;敲声=清脆)
  • 数据集:多个记录的集合
  • 样本:一个西瓜
  • 属性:样本的性质,即色泽、根蒂、敲声
  • 属性值:属性的取值,即青绿、蜷缩、清脆
  • 样本空间:属性张成的空间,例如将色泽、根蒂、敲声作为三个坐标轴,张成一个用于描述西瓜的三维空间
  • 特征向量:样本空间中一个样本的坐标位置对应的坐标向量
  • 训练:从数据中学得模型的过程,这个过程通过执行某个学习算法来完成。
  • 训练数据:训练过程中使用的数据
  • 训练样本:训练过程中使用的样本
  • 训练集:训练样本组成的集合
  • 假设:学到的模型对应了关于数据的某种潜在的规律
  • 真相:潜在规律本身
  • 学习器:亦称模型
  • 标记:关于样本结果的信息,即好瓜