当前位置:文档之家› 数据挖掘第二章作业

数据挖掘第二章作业

数据挖掘第二章作业
2.
a)用AM和PM表示的时间
离散的、定量的、区间的。

b)根据曝光表测出的亮度
离散的、定量的、比率的。

c)根据人的判断测出的亮度
连续的、定性的、序数的。

d)按度测出的0和360之间的角度
离散的、定量的、比率的。

(可以是连续的,因为按度测出的角度值可以是实数值得属性)
e)奥运会上授予的铜牌、银牌、和金牌
离散的、定量的、比率的。

f)海拔高度
连续的、定量的、比率的。

g)医院中的病人数
离散的、定量的、比率的。

h)书的ISBN号(查找网上的格式)
离散的、定性的、标称的。

i)用如下值表示的透光能力:不透明、半透明、透明
离散的、定性的、序数的。

j)军衔
离散的、定性的、序数的。

K)到校园中心的距离
连续的、定量的、比率的。

l)用每立方厘米克表示的物质密度
连续的、定量的、比率的。

m)外套寄存号码
离散的、定性的、标称的。

14.
用欧几里得度量来对这些大象进行比较或分组。

因为第一所有的属性测出的值都是数值性质的,并且根据取值规模的不同有很大的取值范围;其次同一对象的不同属性之间是没有什么关系的,所以不用相关性度量;再者在本题中每个对象的量值是重要的,而余弦相似度不考虑数据对象的量值;最后将属性值标准化成平均数为0,标准差为1后再应用欧几里得距离是适当的方法。

16.
a)如果出现在一个文档中,tf’ij=tfij*log(m);
如果出现在每个文档中,tf’ij=0;
b)这个标准化反应了如果一个词出现在每一个文档中,那么就不能通过这个词来区分不同的文档,如果这个词出现的很少,那么就可以通过这个词来区分不同的文档。

18.
a)x=010*******
y=010*******
汉明距离=3;
f01=1; f10=2; f11=2;
Jaccard相似度=2/(1+2+2)=0.4;
b)汉明距离更相似于简单匹配系数,因为简单匹配系数=1—汉明距离/所有位数;Jaccard相似度更相似于余弦度量,因为他们都忽略了0-0匹配。

c)用Jaccard相似度更合适。

因为我们想要知道两个个体有多少基因是共享的。

d)用汉明距离更适合。

因为两个同物种的基因相同的部分很多,所以如果要比较则更关注于基因不同的部分,因此汉明距离更适合。

相关主题