理解这些数据类型有助于对数据集进行恰当的探索性数据分析编者按:数据类型是统计学的重要概念。
机器学习和数据科学开发者Niklas Donges简要介绍了不同的数据类型,理解这些数据类型有助于对数据集进行恰当的探索性数据分析(EDA)——机器学习项目最被低估的部分之一。
介绍
理解不同的数据类型,是探索性数据分析(Exploratory Data Analysis,EDA)所需的关键预备知识,同时也有助于你选择正确的可视化方法。
你可以将数据类型看成归类不同类型变量的方式。
我们将讨论主要的变量类型,以及相应的示例。
有时我们会称其为测量尺度(measurement scale)。
类别数据
类别数据(categrorical data)表示特性,例如一个人的性别,所说的语言,等等。
类别数据同样可以使用数值(例如:1表示雌性,0表示雄性)。
名目数据
名目值(nominal value)指用于标记变量的定性离散单元。
你可以直接把它们想象成“标签”。
注意名目数据是无序的。
因此,如果你改变名目值的顺序,其语义并不会改变。
下面是一些名目特征的例子:
性别:雌性、雄性。
语言:英语、法语、德语、西班牙语。
上面的性别特征也被称为“二分(dichotomous)”值,因为它只包含两个类别。
次序数据
次序值(ordinal value)指离散、有序的定性单元。
除了有序之外,它几乎和名目数据一样。
例如,教育背景可以用次序值来表示:
初中
高中。