当前位置:文档之家› 数据挖掘总结

数据挖掘总结

数据挖掘应用涉及构建一个包含数据库、数据仓库、知识库、数据挖掘引擎、模式评估模块和图形用户界面的综合系统。在处理数据时,需则不适合。对于缺省值,可以采取忽略元组、人工填写、全局常量填充、均值填充或用最可能值填充等策略。数据光滑是另一个重要步骤,包括分箱均值光滑、分箱中位数光滑、边界光滑以及使用回归函数等方法。在数据集成过程中,必须考虑实体识别问题,确保来自不同信息源的等价实体能够正确匹配,同时要注意避免数据冗余。这些技术和方法共同构成了数据挖掘应用的核心内容,帮助从大量数据中提取有用信息。
相关主题