weka算法参数整理
Output per-class stats
输出每类的统计信息 输出每个分类的 TP rate,FPrate,查准率/查全率以及 True/False 统计信息。
Output entropy evaluation measures ?输出熵评估量度 输出中包括熵评估度量
Output confusion matrix
取出特定百分比的数据作为训练数据集训练模型,其他数据作为 测试数据。
以上所述训练数据集和测试数据集均为模型验证时候的数据集,与模型的建立无关,模型建立均用实验提供的全部 训练数据集。
3.2. 分类算法输出选项界面
英文名称
中文翻译
配置说明
Output model
输出模型
输出通过完整训练集得到的分类模型,以便能够浏览、 可视化等。
EuclideanDistance
doNotCheckCapabilities
不检查适用范围
False
dontReplaceMissingValues
不替换缺失值
False
fastDistanceCalc
加速距离计算
False
initializationMethod
初始化质心方法
Random
maxIterations numClusters numExecutionSlots preserveInstancesOrder
最大迭代次数
100
maximumNumberOfClusters
最大的聚类数目
-1
minLogLikelihoodImprovementIter
ating
minLogLikelihoodImprovementCV
minStdDev
numClusters
簇数目
-1
numExecutionSlots
最大执行线程数目 1
True
seed
随机数种子
10
使用的随机数种子,不随机化则该值设为-1
2.3. EM 聚类算法
2.3.1. EM 聚类算法适用范围
Class
类
No class
Attributes Numeric Empty nominal Nominal Missing values Unary Binary
属性
2.3.2. EM 聚类算法参数界面
2.3.3. EM 聚类算法参数说明
英文名称 debug
中文翻译 设置调试模式
默认值 False
displayModelInOldFormat
以旧格式显示结果 False
doNotCheckCapabilities
不检查适用范围
False
maxIterations
Conviction(确信度)
0.9
根据 metricType 取值不同
规则项集数目占规则前件数目比例;car 为 True,metricType 只能用 confidence。
P(A,B)/P(A)P(B);规则前件和规则后件同时发生的概率除以分布单独发生的概率 之积; Lift=1 时表示 A 和 B 独立,数值越大前后件关联性越强。
P(A,B)-P(A)P(B);Leverage=0 时 A 和 B 独立,数值越大 A 和 B 的关联性越强。
P(A)P(!B)/P(A,!B) (!B 表示 B 没有发生) Conviction 也是用来衡量 A 和 B 的 独立性。从它和 lift 的关系(对 B 取反,代入 Lift 公式后求倒数)可以看出,这 个值越大, A、B 越关联。
Cross-validation
Percentage split
中文翻译 使用训练集 提供测试集
交叉验证
分割百分比
配置说明
使用训练集训练并直接使用训练集测试。
使用训练集训练模型,从文件中加载一组测试实例,单击 “Set...” 按钮选择测试文件,进行模型测试。
把数据分成 k 份,从第 1 份开始,作为测试数据,其他作为训练 数据集,一直到第 k 份结束,验证模型的能力。
verbose
详细模式
False
False True
算法不以冗余模式运行 算法以冗余模式运行
2. 聚类
2.1. weka 聚类主界面及参数说明
2.1.1. 聚类算法主界面
2.1.2. 聚类算法主界面参数说明
英文名称
中文翻译
配置说明
Use training set
使用训练集
使用训练集训练并直接使用训练集测试。
默认值 取值范围
参数说明
car
分类关联分析
False
False
返回常规的关联分析规则
True
返回指定分类属性的关联规则
classIndex delta
分类属性索引
-1
delta
0.05
{-1,[1,N]} int (0,1)
-1 代表最后一列,设置的数字代表相应的列作为分类属性;Car 为 True 时生效。 每次迭代 upperBoundMinSupport 减少的数值,直到最小支持度或设定规则数目。
取样的随机种子
随机抽取测试数据时产生随机数的种子
Preserve order for split
取样时保持顺序
抽取测试数据集时是否保持数据的顺序抽取,如果不选 择此选项,则随机抽取。
Output source code
输出源代码
输出构建模型的 java 源代码,并能指定 java 类的名称。
3.3. 分类算法评价尺度参数界面及解释
最大迭代次数 簇数目 最大执行线程数目 保持实例顺序
reduceNumberOfDistanceCalcsVi 减少计算距离数目 aCanopies
500 2 1 False
False
取值范围 [1,+∞)
? ? (T2,+∞) (-∞,T1) False True False True EuclideanDistance Manhattan distance False True False True False True Random k-means++ Canopy farthest first [1,+∞) [2,N) [1,?] False True False
Store cluster for visualization 为可视化保存簇 选择后训练完成后,保存簇以供可视化使用
2.2. SimpleKMeans 算法
2.2.1. SimpleKMeans 算法参数配置用户界面和开发模式界面
2.2.2. SimpleKMeans 聚类算法参数配置说明
英文名称 canopyMaxNumCanopiesToHoldI nMemory canopyMinimumCanopyDensity canopyPeriodicPruningRate canopyT1 canopyT2 debug
输出混淆矩阵
输出中包括分类器对测试数据集预测得到的混淆矩阵
Store prediction for visualization
为可视化保留预测
保存分类器的预测结果,以便可视化。
Error plot point size proportional to ? margin
Output prediction
中文翻译 内存中最大 canopy 数目
最低 canopy 密度 修剪周期 Canopy 聚类 T1 半径 Canopy 聚类 T2 半径 设置调试模式
默认值 100
2.0 10000 -1.25 -1 False
displayStdDevs
显示标准差
False
distanceFunction
距离函数
Confidence(0,1); lift >1; leverage >0; conviction (0,1)
numRules
规则数目
10
[1,+∞] int
关联算法产生规则的数目
outputItemSets
输出项集
False
False
不输出频繁项集
True
输出频繁项集
removeAllMissingCols 移除空列
参数说明 如果用 canopy 聚类方法进行初始化,这个参数就是在内存中保存 的最大的候选 canopies 数目。 在使用 canopy 初始化时,在修剪时的 canopy 最低密度。 如果用 canopy 初始化,参数为修剪低密度 canopies 周期。 canopy 聚类时 T1 半径,当小于 0 时,T1=(-values)*T2。 canopy 聚类时 T2 半径,当值为负数时,根据属性标准差求出。 调试信息不输出 输出调试信息 不显示数值属性的标准差,不统计标称属性每类的数目。 显示数值属性的标准差,或统计标称属性没类的数目。 欧氏距离 马氏距离 在聚类之前,检查聚类器的使用范围。 在聚类之前,不检查聚类器的使用范围。 在全局范围内用平均值或中数替换缺失值 不替换 根据 cut-off 值加速距离计算 不加速距离计算 随机选取质心 先使用 k-means++聚类算法初始化质心 先使用 Canopy 聚类算法初始化质心 先使用 farthest firsty 聚类算法初始化质心 迭代过程中达到最大迭代次数结束本次聚类。 设定聚类个数,即最后被聚成几类。 设置成可用的 cpu 数目 保持实例顺序 不保持实例顺序 在用 canopy 聚类初始化时,减少计算距离的数目。
Supplied test set
提供测试集
使用训练集训练模型,从文件中加载一组测试实例,单击 “Set...” 按钮选择测试文件,进行模型测试。