2019.21科学技术创新基于大数据与人工智能的大数据获取方式变革
朱娉婷1贾春梅1王瑛琦2戴玉芳1
(1、宁波工程学院,浙江宁波3150002、华中农业大学,湖北武汉430070)
1目前获取方式的现状1.1大数据采集方法更加科学化大数据采集能够通过RFID射频数据、传感器数据、社交网络数据和移动互联网数据获得各种类型的海量数据。由于有成千上万的用户同时进行并发访问和操作,因此,有必要采用专门针对大数据的数据采集方法,目前主要有系统日志采集、网络数据采集、数据库采集三种方式,常用的开源日志收集系统有Flume、Scribe等,网络数据采集主要是指通过网络爬虫或网站公开API等方式从网站上获取数据信息,一些企业会通过关系数据库(如MySQL和Oracle)收集数据,这些更科学化的采集方法的运用也使企业获取更多可供挖掘的数据信息。1.2基于云计算的大数据平台不断完善云计算的快速发展为大数据提供了一定的技术支持和有效的数据分析处理平台。通过云计算,利用先进的网络搜索引擎技术,可以全过程实时监测新闻、论坛、博客、贴吧、微博等各类网站近千万监测源。它还提供了多种分析工具和网络信息量化方法,帮助用户节省了大量复杂的网络信息收集和分析工作。目前国内外许多云计算平台均已趋于成熟,如阿里云、腾讯云、亚马逊、GAE等,私有云模式也日渐清晰,仅在IaaS/PaaS领域,2017年获得超过亿元人民币融资的私有云相关软件企业就包括星辰天合、灵雀云、博云、云途腾等。在云计算技术有弹性和低成本的特性下,也意味着将有更多中小企业可以像谷歌、阿里云等大企业一样完成数据分析。1.3大数据处理速度不断提升为了更好满足人们日常工作生活的需要,大数据处理系统的处理速度和处理手段不断提升。数据的实时性是大数据的特点之一,所以对于数据的处理也体现出实时性。如网上购物交易处理、网络视频文字更新、实时天气和道路交通信息等数据的处理时间已经可以以秒为单位,速度要求极高。在未来的发展中,实时数据处理将成为主流,并不断推动大数据技术的发展与进步。如SPARK凭借多年大数据应用实战经验,它在流程处理、图形技术、机器学习、NoSQL查询等方面都有自己的技术应用,与其他计算引擎相比,它在机器学习方面有着无可比拟的优势,适合数据挖掘与机器学习等需要多次迭代的算法,它有出色的容错能力和调度机制,可以确保系统的稳定运行,它借助自主研究开发的采集系统和算法模型,实现了实时数据响应,以确保数据应用的时效性。2目前数据获取方式存在的主要问题2.1大数据开放流通困难对数据与信息的获取和控制是大数据产业的基础,数据流通是促进数据市场发展的首要条件。对企业而言,一是对客户以及潜在客户的数据采集和管理零散,严重影响数据的流通使用和共享,很难对线上、线下等多个维度的个人数据进行汇总,因而投资信息发送、附加产品营销、潜在客户经营等增值业务难以实现,个人数据的经济社会价值也难以发挥。二是在数据采集时,采集的数据大多数为静态数据,缺乏实时性,在我国,80%以上的数据都是政府相关数据,研究评估发现,地方政府公布的数据中,平均86.25%是静态数据,只有13.75%是动态数据,远远不能满足和激发数据使用者的需求和兴趣。2.2数据产权模糊隐私容易泄露
摘要院大数据与人工智能的快速发展正在给传统工业生产方式带来颠覆性、革命性的影响。通信、网络和硬件设备等只是实现工业化企业互联互通、融合创新的基础,在实时感知、采集信息、监控生产的过程中会产生大量的数据,运用先进的数据分析手段可以对企业拥有和产生的大量数据进行深度挖掘,获得有效的分析结果,智能制造才得以实现。通过条形码技术、无线射频技术、物联网、全球定位系统技术、地理信息系统技术、ERP、CRM、工控系统等技术的广泛应用,可以快速收集、处理、分析数据,推动工业企业实现生产流程各环节的互联互通。就目前大数据获取方式的现状、数据获取方式存在的主要问题、未来获取方式的变革和策略进行分析,并阐述了大数据获取方式的变革趋势。关键词院人工智能;大数据;获取Abstract院Therapiddevelopmentofbigdataandartificialintelligenceisbringingaboutasubversiveandrevolutionaryimpact
onthetraditionalindustrialproductionmode.Network,communication,hardwareequipmentandsoonareonlythebasisforindustrialenterprisestorealizeinterconnection.Real-timeperception,collectionandmonitoringoflargeamountsofdatageneratedintheproductionprocess,usingadvanceddataanalysistominethehugeamountofdatageneratedandownedbyenterprises,toobtainusefulanalysisresults,intelligentmanufacturingcanberealized.Throughthewideapplicationoftwo-dimensionalcode,RFID,sensors,industrialcontrolsystem,InternetofThings,ERP,CRMandothertechnologies,datacanbecollected,processedandanalyzed,andindustrialenterprisescanrealizetheinterconnectionofproductionprocesses.Thispapermainlyanalyzesthecurrentstatusofbigdataacquisitionmethods,themainproblemsofdataacquisitionmethods,thechangesandstrategiesoffutureacquisitionmethods,andexpoundsthechangingtrendofbigdataacquisitionmethods.Keywords:Artificialintelligence;Bigdata;Obtain中图分类号院TP18,TP311.13文献标识码院A文章编号院2096-4390渊2019冤21-0047-02
2018年国家大学生创业创新项目《智能制造能力成熟度评价体系研究》研究成果。
47--科学技术创新2019.21
大数据时代数据产权模糊,由于数据产权的模糊性,也给用户权益的保护带来了困难,非法利用和出售个人数据以获利,侵犯用户知识产权、隐私权、知情权等行为时有发生。企业或组织内部出现信息泄露更有可能会泄露几乎所有的数据资产,并且数据可能会在泄密后迅速传播,甚至会导致更严重的数据篡改和智能欺诈。目前,互联网上出现了大量的高新技术应用,如云计算,无线射频辨识系统和社交网络等,这也可能导致许多用户的隐私泄露。如今,电信诈骗、个人信息泄露等问题已经成为一个非常严重的社会现象,而这一现象大部分是由于数据隐私泄露造成的。2.3大数据的行业标准规范仍待完善由于不同行业不同企业的信息化程度不同,导致大数据行业标准难以形成。许多信息系统重复建设,造成资源的大量浪费,并且无法解决数据共享困难、数据口径不统一等问题。没有统一的数据标准、技术标准、和统一标准的系统,造成了数据共享互通的障碍。目前,大数据的相关标准建立仍处于探索阶段,行业大数据的安全规范还不够完善。随着大数据在多个领域的深入应用,在行业缺乏统一标准和规范的情况下,单纯依靠企业自身的控制管理将会带来更大的安全风险。2.4大数据获取质量水平仍待提高大数据的获取仍存在数据应用响应速度不足、数据系统不够集中、数据质量较低等多个问题。数据的质量不足,主要表现在获取的数据重复、数据错误、数据丢失以及数据格式不统一等方面,且大数据来源复杂,会存在小概率偏差,可能会导致大数据分析的结果有时不可信赖。数据信息大部分分散于多个数据系统中,且不同系统标准不一致,导致现有的数据采集能力难以满足当前大数据分析处理要求,数据获取手段仍需进一步提高。3未来的获取方式变革及策略3.1建立信息共享机制、进行整合规划一是针对不同企业数据封闭和分散等问题,由政府机构领导,分段推动企业进行安全可控的数据开放共享。政府可以从明确最低开放标准,制定统一数据目录入手,搭建数据共享平台,打破不同企业间的数据壁垒,进行有效的整合协同,克服跨组织数据流通障碍,推动大数据产业的发展,企业大数据、行业大数据和政府大数据可以进行产权界定及建立开放共享机制,其中一些数据可以作为公共数据,免费向社会开放。二是对行业数据应用进行整体规划,集中目前存在的大部分分散性和临时性的信息数据,充分发挥数据价值,通过政府对行业的产业规划和政策扶持,加强定向引导,从而促进信息与数据的传播与流动,使得这些生产资料和数据能够更加充分有效地被利用。三是依托行业平台推进大数据应用成果共享合作。积极打造具有品牌影响力的大数据交流分享平台,创新数据使用和流通模式,建设大数据行业进行长期有效的沟通交流机制,促进大数据应用成果的经验分享和互动沟通。3.2促进大数据行业标准和安全规范建设一是组织不同行业的各方主体,共同制定数据交易规范,使得规范统一,明确买卖双方的数据安全责任,确保大数据市场健康有序地发展;制定数据安全使用标准明细,对大数据的使用范围、使用方式、使用权限和安全机制等,进行严格规范化规定管理;建立奖惩机制和投诉机制,进行全过程的数据安全使用管理控制与源头追踪起诉。二是国家进一步开展相关的法律建设,为公民合理保护自己的隐私权提供法律依据和保护。规定在数据开放和数据共享的同时,要对数据隐私保护给予高度重视,加强相关立法工作,从法律高度对侵犯数据隐私的行为予以威慑。我国政府也逐步颁布相关法律法规,规范个人信息资料的使用,例如在2012年审议通过了《全国人民代表大会常务委员会关于加强网络信息保护的决定》,2017年出台了《中华人民共和国网络安全法》,这些规定提出了个人信息收集、使用、传输、存储的相关要求,并明确了个人信息泄露后的罚则,但个人信息的泄露仍然存在,仍需加强法律建设。三是加强对数据产权保护有关工作的统筹规划和政策协调,加快相关政策落实推进,以深化大数据融合创新产品、业务和模式的发展。其次,要完善政府监管方式,推动形成支持大数据发展的全新监管环境和体系,努力营造出破除束缚、汇集众智、促进创新、保证公平的良好环境。3.3引入数据挖掘技术开发深层次的数据采集系统一是通过使用数据挖掘技术,智能化、自动化地从数据库、系统和移动互联网等信息源中提取有效信息。为了消除数据的缺失和多余重复,可以利用查重、去重、过滤和转换等预处理方法,将散乱无序的信息标准化、规范化,提高数据采集的质量和效率。通过数据集成等工作可以推理出新的信息,实现信息增值。二是通过使用数据挖掘技术为数据采集工作提供全程全面的支持。从产品研发到生产销售、从市场营销到售后服务的提供,企业的数据采集贯穿了整个生产运作过程,数据挖掘技术可用于产品生命周期的整个循环系统中,以帮助企业从内外各种数据源中获取有用的信息和知识。三是通过使用数据挖掘技术增强数据采集的科学性。基于数据挖掘的智能采集融合了自动化、系统科学、概率统计、计算机电子信息等多学科的方法理论,利用关联模式、聚类分析、预测、时间序列、偏差检测等方法,对数以万计各种形式的数据源进行全方位地采集、统计、分析、处理和合理推理,揭示出企业、产品、人和动作等多实体之间存在的内在联系,获得隐性的、深层次的信息。参考文献[1]杨惠娟援我国工业互联网战略发展现状及对策分析[J]援信息系