当前位置:文档之家› 计算机中数据预处理技术的研究与应用

计算机中数据预处理技术的研究与应用

2019.08现阶段,网络信息的高速运行将产生大量的数据信息,影响网络系统内数据信息的运行效率。

网络系统在对数据信息进行处理时,由于数据信息存在重叠性,将加大数据信息的运算繁琐度,在数据预处理技术的应用下,可对数据库内的无价值信息进行过滤,以此来提升数据信息的运行效率。

在计算机网络的不断渗透下,可有效拓展数据预处理技术的应用范围,通过对数据信息进行预处理,可有效提升数据挖掘的运行效率。

1数据预处理技术概述1.1数据预处理内容数据预处理技术是以计算机为主体发展而来的,在当前信息化时代的发展下,依托于网络技术而存在企业交流流程、用户的网络行为等都将产生大量的数据信息,数据预处理技术则是对数据信息进行处理,以保证网络系统内数据信息的常态化运行。

数据预处理技术是对数据信息进行提前处理,以此来提升数据挖掘的精准度,例如,在对网络系统内进行关键词检索时,数据预处理可对数据库内的信息资源进行相应的处理工作,以提升系统的检索精度与检索效率等。

数据预处理技术在系统中运行时,一般是经过数据审核、数据筛选、数据排序等,以此来加强数据信息的处理效率。

在数据审核方面,对源数据进行基准审核,通过全面性、精准性等对数据信息进行审核,全面性审核是对数据信息进行漏点查询,保证查询协议内数据信息的完整性,精准性审核对数据信息的真实性进行辨别,并对数据监测结果进行分类核验,提升数据信息监测的精准度。

数据筛选起到纠正的功能,在数据信息的初审核阶段后,如出现数据错误的现象且不具备整改功能时,将用到数据筛选功能,将与基准信息不符数据排除掉,并对指令数据进行关键点确认,以此来实现数据信息在筛选功能中的核验功能。

数据排序功能是将检索信息进行排列,可通过关键词排列、时间排列、机构排列等,以数据信息的指令特征为基准,对检索指令进行搜查。

同时数据排序可对排列信息进行检验,依据数据内的信息价值等对其进行归纳、分组等,以此来提升系统的统计效率。

一般网络系统默认的数据分类以字母、汉字为主,字母的排列顺序以升序、降序等为主,汉字的排列顺序则以拼音、笔画等为主,来对检索信息进行分类排序。

1.2数据预处理方法数据预处理技术的工作原理一般是对数据进行清理、集成、变换、归等4方面的技术处理,以此来提升后期数据检索的精准性。

(1)数据清理是对信息传输形式与传输节点进行优化,对数据传输过程中的值量、噪值、离群点进行调整,以保证数据信息在节点内的传输形式可保持一致,其具体体现在错误纠正、重叠性数据删除、格式化等。

(2)数据集成是将信息进行整合,以源数据库为基准,将信息进行关联性存储,可将数据库的建立看成是数据集成。

(3)数据变换则是对数据信息的进行概化处理,通过相应的协议规则对数据信息进行转换,以保证数据信息的处理可满足数据挖掘的基础要求。

(4)数据归约是将大量的数据信息进行分化处理,减少数据处理的运算时间,通过归约技术可将数据信息转化为数据集的方式,并使压缩后的数据集保持相应的数据特性是,使数据信息的前端处理与后端处理相一致,以此来提升数据信息的处理精度。

计算机中数据预处理技术的研究与应用罗红华(江苏省盐城市自动化研究所,江苏盐城224000)摘要:数据预处理技术可依据指令信息中包含的数据节点进行分析,并对数据库内的信息进行过滤检索,以此来提升系统的检测精度。

对数据预处理技术进行了论述,并通过Web 数据挖掘应用、教育研究应用、网络主题搜寻应用三方面,对数据预处理技术的实际应用进行研究。

关键词:计算机;预处理技术作者简介:罗红华(1978-),女,工程师,研究方向:信息管理、数据统计。

收稿日期:2019-05-13892019.082计算机中数据预处理技术的研究与应用2.1Web 数据挖掘在对Web 进行数据挖掘时,一般以日志类协议为主,通过日志文件的获取,以得出网络终端用户的访问协议等,在日志记录的查询下,依据日志的预期走势分析出架构性能等。

数据处理技术在实际应用过程中,主要进行4个模块的操作,包括清洗模块、用户模块、绘画模块、片断模块,通过模块化的操作,可将Web 日志转变为数据,以进行下一步的查询。

(1)清洗模块,是依据指令需求,对Web 内日志文件进行预处理,其主要工作范畴一般是对指令信息的关键点进行查询,删除关联性不大的数据信息,并对日志内的记录等进行合并,当用户请求协议无法读取时,可将错误信息进行记录,并对数据信息进行适当的整理等。

(2)用户模块,主要是针对计算机终端用户的操作指令进行研究,查验访问模式之中的关键点,此类用户指令识别是网络行为的重要指标,只要通过正确的指令识别,才可依据指令对数据进行预处理,并以信息单体为基础找出群体特征,以此来保证数据信息的高效率处理。

(3)会话模块,是对用户的访问行为进行记录,一般以有效访问、连续性访问等为主,以此对用户的访问习惯等进行获取,并可将用户的兴趣点进行节点分析,以提升数据信息的精准性。

在Web 日志文件中,用户访问存在相应的差异性,其对用户的访问信息进行记录时,也受到用户信息指令的影响。

例如,计算机终端用户在进行信息访问时,将会出现时间维度上的偏差变化,引起此种现象的主要原因是协议需求的连续性,同时信息指令的关键节点存在的关联性较大,将加大日志内记录信息的误差值。

因此,在对用户会话进行处理时,可将日志记录的查询进行分组,分化数据信息的处理效率,可通过Timeout 值的设定,将数据信息进行时间节点的划分,当计算机终端的访问时间超出时间节点的设定范围时,系统将自动开始进行分区记录。

(4)片断模块,是对会话中的价值进行核查,针对信息访问路径进行调整优化,补全日志的访问节点,保证计算机终端用户请求的完整性。

片断模块在工作过程中,一般分为前置路径与后置路径两部分,其中前置路径代表请求片断节点,后置路径则是用户的重复性请求。

当访问过程中后置路径的形成,则代表前置路径属于封闭状态,由此可知引用的实体状态,进而确定数据的实际挖掘情况。

2.2教育研究现阶段,教育行业与网络技术相结合,可有效促进教育产业的现代化发展进程,在计算机设备的支持下,可将教学数据、教学管理行为等进行数据统计,以此来保证教育行业的数据化发展。

数据预处理技术在教育产业中应用时,一般以关联细则、聚类细则、浮动点处理等为主,以此来建构完整的数据研究体系。

在关联细则方面,可对数据系统的关联性信息进行自动识别,此种数据关系的可为线性状态,针对数据进行节点信息分析,以此对其他关联信息进行预期行为解读,以此来保证数据的最大关联性。

在教育评价中应用时,可通过一次定性的评价,找出与评价内容相关的联系点,通过对关联点的分析来对教学进行正确指导,例如在对考试试卷分析时,利用关联规则可对学生的实际得分情况进行分析,将成绩相关联的区分度、难以度等衡量基准进行研究,通过精准的数据为教师提供决策支持,以提升教学质量。

聚类细则是对计算机内的数据信息进行划分重组,以类内、类间的特定原则为基准,对数据信息进行正确划分,当数据聚合成数据链块时,可保证数据传输过程的独立性,同时也可对数据参数进行确定,以提升数据信息在计算机系统的运算效率。

聚类细则可应用与教育管理中,其可将学生进行划分式管理,当同时对3个学生进行管理时(甲、乙、丙3名学生),可通过甲同学、乙同学的行为秉性,来对丙同学的预期行为进行分析,在精准的数据支持下,教师可及时制定解决方案,以此来对学生施行正确的管理。

浮动点处理是对数据运行过程中产生的偏差为测量基准,其应用到教学中时,可提升数据管理的精准性,在教学数据基准的设定下,以科学性的检测手法可令结果具备公允性,以此来提升教育评价质量、管理质量等。

2.3网络主题搜寻当前计算机网络的迅速发展,各大论坛平台已经成为网络用户关注重点,用户可通过网络的时效性、共享性原则等,对数据信息进行获取,以满足自身的阅读需求。

数据预处理技术在网络平台中应用时,其可将网络主题所涉及到的数据信息进行清理与转换,以此来提升网络系统内数据传输的精准性。

在对数据信息进行清理时,(1)对与主题信息无关的因素进行清理,一般是针对诱发因素(论坛发帖用户、上传时间、网络协议地902019.08管理机制,还提供了针对第三方应用的创建、审批、权限管理、服务访问授权、客户信息获取授权及消息通知功能,借助这些功能,APP 系统可以方便、安全地接入并管理第三方服务,极大丰富APP 功能。

3.5安全防护功能完备移动应用开发平台框架提供了完备的安全防护能力,从信息录入、存储、传输及APP 的打包和运行等各个环节对APP 加以保护。

在信息存储环节,平台了提供了包含BASE64/MD5/DES3/RSA/SHA/国密算法在内的丰富的加解密算法。

在信息录入环节,提供了支持阴影和乱序组合的多种安全键盘,可供APP 开发者进行灵活定制。

在信息传输环节,平台支持第三方证书及HTTPS 双向加密传输,从通道层面提供了安全保证。

在APP 打包环节,平台支持代码自动混淆及Android 客户端资源包防篡改机制。

在APP 运行环节,平台支持An⁃droid 客户端防录屏机制、Android 客户端防劫持、IOS客户端越狱检测、客户端运行环境安全检测及提示。

3.6实践大量互联网先进技术移动开发平台采用了大量互联网开源技术,并加以实践验证。

平台的客户端框架采用Cordova 技术对原生组件进行封装,屏蔽了系统差异性,提供了跨平台的移动开发能力。

后台开发方面,以Spring 为核心框架,针对不同模块选择适合的技术进行实现。

针对应用接入功能的安全需求,使用了OAuth2相关的认证框架。

针对应用接入功能的应用代理需求,使用OpenResty 以及Lua 脚本语言作为实现动态代理的基础技术。

在消息处理部分,使用了Redis 作为消息队列提高处理效率。

配置管理方面,采用了zookeeper 3分布式协调框架,支持集群系统的灵活配置。

4结语中国人寿寿险APP 团队基于移动开发平台开发了APP2.0,从原生开发模式成功转型为混合式开发模式,支持了热更新、首页个性化定制、内容灵活配置和丰富的第三方接入,为打造中国人寿移动生态圈打下了坚实的基础。

质、基数)进行研究,并通过忽略元组法对源数据进行监测,将低属性值、数据缺失的值量单位进行删除,以缩减后期数据挖掘的范围。

同时可将数据删除值进行替代补偿,以系统默认的工作流程来将数据信息进行填补,以满足系统的正常工作。

(2)其可对数据库内的浮动信息进行规范统一,减小不同数据之间的差异,通过属性合并的方式,提升主题检索的效率。

在对数据信息进行转换时,对数据信息进行关联性挖掘,将影响主题的信息因素进行符号式转换,以此来分化数据传输产生反馈式效果,同时在基准的统一制定下,可提升主题信息的挖掘速率,通过诱发因素可准确分析出预期走势,进而提升数据信息挖掘精度。

相关主题