关联分析
目录
一、概括 (1)
二、数据清洗 (1)
2.1公立学费(NPT4_PUB) (1)
2.2毕业率(Graduation.rate) (1)
2.3贷款率(GRAD_DEBT_MDN_SUPP) (2)
2.4偿还率(RPY_3YR_RT_SUPP) (2)
2.5毕业薪水(MD_EARN_WNE_P10)。
(3)
2.6 私立学费(NPT4_PRIV) (3)
2.7 入学率(ADM_RATE_ALL) (4)
三、Apriori算法 (4)
3.1 相关概念 (5)
3.2 算法流程 (6)
3.3 优缺点 (7)
四、模型建立及结果 (7)
4.1 公立模型 (7)
4.2 私立模型 (10)
一、概括
对7703条样本数据,分别根据公立学费和私立学费差异,建立公立模型和私立模型,进行关联分析。
二、数据清洗
2.1公立学费(NPT4_PUB)
此字段,存在4个负值,与实际情况不符,故将此四个值重新定义为NULL。
重新定义后,NULL值的占比为75%,占比很大,不能直接将NULL值删除或者进行插补,故将NULL单独作为一个取值分组。
对非NULL的值按照等比原则进行分组,分组结果如下:
A:[0,5896]
B:(5896,7754]
C:(7754, 9975]
D:(9975, 13819]
E:(13819, +]
分组后取值分布为:
2.2毕业率(Graduation.rate)
将PrivacySuppressed值重新定义为NULL,重新定义后,NULL值的占比为20%,占比较大,不适合直接删除或进行插补,故将NULL单独作为一个取值分组。
对非NULL值根据等比原则进行分组,分组结果如下:
A:[0,0.29]
B:(0.29,0.47]
C:(0.47, 0.61]
D:(0.61, 0.75]
E:(0.75, +]
分组后取值分布为:
2.3贷款率(GRAD_DEBT_MDN_SUPP)
将PrivacySuppressed值重新定义为NULL,重新定义后,NULL值的占比为20%,占比较大,不适合直接删除或进行插补,故将NULL单独作为一个取值分组。
对非NULL的值按照等比原则进行分组,分组结果如下:
A:[0,9500]
B:(9500,12000]
C:(12000,19197]
D:(19197, 25537]
E:(25537, +]
分组后取值分布为:
2.4偿还率(RPY_3YR_RT_SUPP)
将PrivacySuppressed值重新定义为NULL,重新定义后,NULL值的占比为20%,占比较大,不适合直接删除或进行插补,故将NULL单独作为一个取值分组。
对非NULL的值按照等比原则进行分组,分组结果如下:
A:[0,9500]
B:(9500,12000]
C:(12000,19197]
D:(19197, 25537]
E:(25537, +]
分组后取值分布为:
2.5毕业薪水(MD_EARN_WNE_P10)。
将PrivacySuppressed值重新定义为NULL,重新定义后,NULL值的占比为19%,占比较大,不适合直接删除或进行插补,故将NULL单独作为一个取值分组。
对非NULL的值按照等比原则进行分组,分组结果如下:
A:[0,0.23]
B:(0.23,0.33]
C:(0.33, 0.45]
D:(0.45, 0.6]
E:(0.6, +]
分组后取值分布为:
2.6 私立学费(NPT4_PRIV)
此字段,存在1个负值,与实际情况不符,故将此值重新定义为NULL。
重新定义后,NULL值的占比为40%,占比很大,不能直接将NULL值删除或者进行插补,故将NULL单独作为一个取值分组。
对非NULL的值按照等比原则进行分组,分组结果如下:
A:[0,12111]
B:(12111,16409]。