当前位置：文档之家› 关联分析模型分析报告

关联分析模型分析报告

关联分析
目录
一、概括 (1)
二、数据清洗 (1)
2.1公立学费（NPT4_PUB） (1)
2.2毕业率（Graduation.rate） (1)
2.3贷款率（GRAD_DEBT_MDN_SUPP） (2)
2.4偿还率（RPY_3YR_RT_SUPP） (2)
2.5毕业薪水（MD_EARN_WNE_P10）。

(3)
2.6 私立学费（NPT4_PRIV） (3)
2.7 入学率（ADM_RATE_ALL） (4)
三、Apriori算法 (4)
3.1 相关概念 (5)
3.2 算法流程 (6)
3.3 优缺点 (7)
四、模型建立及结果 (7)
4.1 公立模型 (7)
4.2 私立模型 (10)
一、概括
对7703条样本数据，分别根据公立学费和私立学费差异，建立公立模型和私立模型，进行关联分析。

二、数据清洗
2.1公立学费（NPT4_PUB）
此字段，存在4个负值，与实际情况不符，故将此四个值重新定义为NULL。

重新定义后，NULL值的占比为75%，占比很大，不能直接将NULL值删除或者进行插补，故将NULL单独作为一个取值分组。

对非NULL的值按照等比原则进行分组，分组结果如下：
A：[0,5896]
B：(5896,7754]
C：(7754, 9975]
D：(9975, 13819]
E：(13819, +]
分组后取值分布为：
2.2毕业率（Graduation.rate）
将PrivacySuppressed值重新定义为NULL，重新定义后，NULL值的占比为20%，占比较大，不适合直接删除或进行插补，故将NULL单独作为一个取值分组。

对非NULL值根据等比原则进行分组，分组结果如下：
A：[0,0.29]
B：(0.29,0.47]
C：(0.47, 0.61]
D：(0.61, 0.75]
E：(0.75, +]
分组后取值分布为：
2.3贷款率（GRAD_DEBT_MDN_SUPP）
将PrivacySuppressed值重新定义为NULL，重新定义后，NULL值的占比为20%，占比较大，不适合直接删除或进行插补，故将NULL单独作为一个取值分组。

对非NULL的值按照等比原则进行分组，分组结果如下：
A：[0,9500]
B：(9500,12000]
C：(12000,19197]
D：(19197, 25537]
E：(25537, +]
分组后取值分布为：
2.4偿还率（RPY_3YR_RT_SUPP）
将PrivacySuppressed值重新定义为NULL，重新定义后，NULL值的占比为20%，占比较大，不适合直接删除或进行插补，故将NULL单独作为一个取值分组。

对非NULL的值按照等比原则进行分组，分组结果如下：
A：[0,9500]
B：(9500,12000]
C：(12000,19197]
D：(19197, 25537]
E：(25537, +]
分组后取值分布为：
2.5毕业薪水（MD_EARN_WNE_P10）。

将PrivacySuppressed值重新定义为NULL，重新定义后，NULL值的占比为19%，占比较大，不适合直接删除或进行插补，故将NULL单独作为一个取值分组。

对非NULL的值按照等比原则进行分组，分组结果如下：
A：[0,0.23]
B：(0.23,0.33]
C：(0.33, 0.45]
D：(0.45, 0.6]
E：(0.6, +]
分组后取值分布为：
2.6 私立学费（NPT4_PRIV）
此字段，存在1个负值，与实际情况不符，故将此值重新定义为NULL。

重新定义后，NULL值的占比为40%，占比很大，不能直接将NULL值删除或者进行插补，故将NULL单独作为一个取值分组。

对非NULL的值按照等比原则进行分组，分组结果如下：
A：[0,12111]
B：(12111,16409]。

e商务文档

关联分析模型分析报告

相关文档推荐：