数据对象(样本)由属性/特征描述,属性(attribute)、特征(feature)、变量(variable)、维(dimension)一般可以互换使用。

1. 特征类型

数据属性的类型由该属性/特征可能具有的值的集合决定,可以是标称的、二元的、序数的或数值的。

标称属性、序数属性都是定性的,描述对象特征而不给出实际数量,而数值属性是定量的。

  • 标称属性(Nominal attribute)的值是一些符号或事物的名称,每个值代表某种类别、编码后状态。如婚姻状况,单身、已婚、离异、丧偶。
  • 二元属性(Binary attribute)是只有两个类别或状态的标称属性,如性别,男、女。
  • 序数属性(Ordinal attribute)的可能值之间具有有意义的序(ranking),如顾客评价,0-不满意,1-一般,2-满意。
  • 数值属性(Numeric attribute)是可度量的量,用整数或实数值表示,如温度、年龄等,可通过离散化(将值域划分为有限个有序类别)形成序数属性。

2. 特征的相关性度量

评估一个属性的值如何随另一个变化:

  • 标称属性:使用 χ 2 检验;
  • 数值属性:使用相关系数(correlation coefficient)和协方差(covariance)。

2.4 相关与相互独立

  • 相关必不独立:相关是随机变量间的一种线性关系,两个随机变量发生的概率具有相互的关系,所以必不独立。
  • 相互独立必不相关:
  • 不相关并非相互独立
    • 不相关可能独立
    • 不相关可能不独立
    • 对于服从二维正态分布的随机变量:不相关等价于相互独立