基于大数据下概率论与数理统计的研究与分析发表时间:2018-07-06T10:49:47.157Z 来源:《防护工程》2018年第5期 作者: 王郅雄[导读] 又要从大数据的角度出发正确认识到数据形态、数据存储和数据处理等环节发生的变化,深入理解数据价值的重要性。
北京计算机技术及应用研究所 北京 100854
摘要:科技进步使得信息流通速度加快、数据量飞速增长,传统的数据处理模式瓶颈凸显,大数据时代随之来临,在政治、经济、军事等领域引导诸多变革,以数据为核心的原理得以重视,以可预测为目标的观念深入人心。而同样以数据为研究对象的统计学如何在大数据浪潮中顺流而上并一展身手是值得思考的问题,而原有统计学的理论体系与大数据思维是否兼容也必须考量。在统计学专业教学中,必须考虑把统计学与大数据背景相结合,既要从统计学的基本原理出发引导学生掌握数据统计分析的基本方法,又要从大数据的角度出发正确认识到数据形态、数据存储和数据处理等环节发生的变化,深入理解数据价值的重要性。
关键词:概率论;数理统计;大数据分析;大数据研究
大数据时代的来临,统计学在理论和方法等各个环节均受到了较大挑战,但同时又迎来一次重大的发展契机.统计学教育必须正确认识到大数据带来的影响,积极适应大数据时代的需求,以培养数据分析人才为目标,整合教育资源推动学科交叉,以实际应用为抓手推动行业融合,才能继续发挥统计学的数据分析主力军作用。
一、概述
大数据分析是一个越来越热门的研究方向,各行各业都在应用大数据分析的技术。大数据分析方法也随之迅速发展,其发展方向也是令人关心的一个课题。随着科学技术,新工艺的开发和应用新技术,大数据分析中引入了许多快速发展的新方法来开发新的研究技术,人们也将大数据分析与研究的成果运用到其他学科中。统计学是一个前景非常明朗的产业,各行各业都在应用统计学的技术。统计科学在如今的普及率越来越高,与许多其他科学的崛起一样,统计学也将带领人们的研究方向去往新的数据分析领域。统计学的分析与研究,不仅仅是纯数学上的计算,而是一种有着更具体、更适合用途的研究领域。统计是一门高瞻远瞩的学科,总是站在大的角度、高的角度看待问题。在研究方法上创新创造可能会改变整个统计学科的研究面貌,是一件重要而必要的事情。由于技术进步而带来的统计数据的潜在功能的不断提高,使得统计学的一些应用将被进一步挖掘。系统地认识和系统地分析数据复杂性增加了统计学中分析思考的新途径。随着不同学科之间的研究方向的交叉,和学科交叉潮流的兴起,统计研究一直延伸到许多学科研究的新领域,开始探索新的数据的统计方法。在海量数据的分析与研究中,运用概率论与数理统计的方法可以在复杂的数据中找到需要研究的大致方向,快速地进入到工作主题中。概率论与数理统计能够帮助人们更快地找到数据的规律,通过数据的分布规律,我们对于大数据的分析和研究就能更加方便和快捷。对于大数据的分析,统计科学、与统计学相关的一些其他科学的崛起和普及将使研究领域拓展到更多的方面去。统计数据的一些先进科技成果的引进,统计的发展和他们的互动将成为统计发展的趋势。一些学者已经开始向数据统计分析的研究中引入系统论,控制论,模糊理论,信息论,图论,混沌理论等方法和理论。大数据分析以庞大的基数和变幻莫测的趋势呈现着世界上的许多规律,对于数学上的这种魅力,我们总是想要寻求具体的规律,那么计算大数据分析中的概率来推测数据的变化趋势应该是比较好的手段。运用概率的理论来在大数据分析中研究与实践,学科交叉会碰撞出火花,基于大数据下概率论与数理统计的研究与分析,将会为两个学科带来意想不到的发展与创新。可以说,概率学的运用是大数据分析中的一个颇具新意的发展方向。想要更好地研究大数据,必定要引用更多、更合适的概率学模型和知识。对于大数据分析与研究,运用概率论与统计的方法,可能会创造出新的大数据分析方法,因此我们对于大数据的研究与分析也就不仅仅是在以前的模式中增删几个数字或者增加一些新奇的研究方向,而是站在更高的地方重新审视整个研究体系,从根本上发现问题,改变刻板教条的研究方法。与其他学科相比,大数据分析略有一年强过一年的趋势。大数据分析是一门非常庞大繁杂、分支很多的学科,因为大数据涉及方面的多样性,大数据分析结果可以应用在生产生活中的方方面面,包括我们在处理海量数据时难以发现规律而带来的一些问题,都可以运用概率论与数理统计中的一些方法来发现问题趋势,从而解决问题,事实上,概率论成了现实生活中很多问题的方法指引。但是从我们现如今的研究情况来看,不难看出,许多理论上不错的研究方法在实际运用中却并没有得到广泛的应用。这是因为这些方法还是具有一些短处,从而难以适应现如今大数据分析中的一些情况。即使运用概率论与数理统计的方法来研究大数据分析,可是还是有许多研究模式或者方法难以迅速地从理论转向实际生产。在如今的研究现状下,这样的回转也是让人遗憾的。因此我们需要发展出一套新的适用于当前状况的研究体系的创新型大数据探索模式。对于大数据分析中的概率事件进行了初步探讨,大数据分析的概率事件是非常复杂而且也非常多变的命题,庞大的大数据分析基数带来了难以数计的变化。因此,我们在研究大数据分析中的概率事件的过程中需要用到多种研究方法和研究理论,运用概率学是其中一种非常不错的手段。可以在定性的基础上,定量地研究需要研究的对象,从而验证假设是否正确,来进行科学的研究。
二、大数据时代的统计学 1.大数据和统计学的本质都是数据分析。统计学的研究对象是数据,研究数据的收集、整理及分析,目标为找出数据的隐含规律。从数据中寻找有价值的信息关键在于对数据进行正确的统计分析,研究结果一般建立在精确抽样和合理模型的基础上。大数据的核心是数据,狭义的大数据一般指数据的结构形式和规模具备多样性、规模性、价值性、实时性等特征,可简单理解为数据大到在获取、存储、管理、分析等方面大大超出了传统的能力范围。广义的大数据除此之外还包括对应的数据处理技术,如大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等。从本质上看,统计分析和大数据在数据分析的很多根本性问题上变化不大,但由于数据本身发生了变化,使得数据分析的广度、深度和难度增大。因此可以形象地说,统计学是传统“小数据”时代的大数据,而现代大数据中的数据分析依然与统计学密切相关。 2.统计仍然是数据分析的灵魂。大数据时代并不意味着所有的问题都是大数据,也不意味着所有问题大数据都能解决,传统的统计理论和方法不是没有用武之地,而是要与现有的大数据思维融合,借助大数据的相关技术解决以前不能解决的问题。因此大数据对传统统计学意味着巨大的挑战,但同时也是一次难得的发展契机,应该有正确的认识,保持宽容的态度,学科的发展和融合本就是大势所趋,大数据不能替代传统统计学,而传统统计学也不能固步自封,必须不断发展完善,有所取舍。另一方面也必须意识到,大数据的有些思维模式与传统统计学认识不尽相同,有一定的前瞻性和先进性,一定要互相融合。很多传统的统计方法在面临海量数据时需要革新,很多统计模型也不能应用于复杂形态的数据。比如大数据强调全样本和效率,从统计抽样中得到的结论也许是含偏差的,而全部样本中得到的结论更接近事实,数据越大,对数据的精确性要求也就越低,真实性也就越高。传统的统计学主要以推断统计为主,以少量的数据对总体进行精确度的分析,这点是与大数据统计分析思想所不同的。但无论是全样本还是抽样,都需要对数据进行分析,而不是简单的叠加,统计仍然是数据分析的灵魂。其次全数据的概念本身也是相对的,在某些特定场合对于某些特定问题确实可能实现,比如两个学校的高考成绩对比,可采用全部样本且指标统一。但数据的复杂性使得全样本覆盖的范围也只能是尽可能全和逼近事实,并且大数据的重点方向也不是解决固有问题,而是通过数据研究挖掘数据更大的价值。
三、概率论与数理统计课程教学改革措施 “概率论与数理统计”课程教学改革应注重培养学生的创新思维能力,由概率统计知识本身的特点,在教学改革上要遵循循序渐进的原则,融课堂教学、实践教学、实验教学于一体。从不同专业特色入手,注重课程与专业的结合,尽量做到因材施教。 1.课程体系改革措施。课程体系改革是教学改革的核心。课程体系改革应该遵循“应用型”(体现财经类院校职能观、人才观的目标和方向)、“未来性”(适应金融行业未来教育发展的需要)、“现实性”(适应高等教育的现实要求和大数据的时代要求)及“实践性”(重视金融经济职业教育的实践)的原则,结合概率论与数理统计的基本内容及学生的具体实际,转变教育观念,从课程的基础化、现代化、专业化、多样化着手。课程改革的宗旨应该是保证教学目标的实现,整体提高学生的数据分析能力和实践水平。 2.教学内容改革措施。概率统计课堂教学在保证学生掌握处理随机现象的基本思想和方法的同时,注重学生应用概率论与数理统计知识解决实践问题能力为目的。课堂教学以介绍概率论与数理统计的思想与方法,结合实际背景和直观形象,从实际问题出发抽象概念的过程,培养用数学解决问题的思想,注重离散化思想、随机化思想的介绍,培养学生应用随机性思想方法思考问题。建构概率统计数学思想的网络体系,理解和掌握概率统计中数学思想的本质,以促进学生对概率统计的深入的理解。实践教学中,以统计思想和大数据技术为导向,介绍统计思想在专业领域的广泛应用,选择一些开放性概率统计建模题目,作为课程的课外研究内容,培养学生用处理随机现象的思想和方法建立数学模型的能力以及团队协作精神。加入统计软件包,引导学生利用计算机处理和分析数据,解决实际问题,注意知识性与趣味性相结合,提高学生的学习兴趣,注意揭示知识的发现过程,培养学生创新精神与创新能力的环境,给学生留下足够的思维空间与知识空间。 3.教学形式改革措施。概率论与数理统计课程是一门研究随机现象统计规律性的学科,而要想获得随机现象的统计规律性,就必须进行大量重复试验,这在有限的课堂时间内是难以实现的,传统教学内容的深度与广度都无法满足实际应用的需要。(1)多媒体教学形式。在教学中可以采用了多媒体辅助手段,通过计算机图形显示、动画模拟、数值计算及文字说明等,形成了一个全新的图文并茂、声像结合、数形结合的生动直观的教学环境,从而大大增加了教学信息量,以提高学习效率,并有效地刺激学生的形象思维。另外,利用多媒体对随机试验的动态过程进行了演示和模拟,通过直观演示实验再现抽象理论的研究过程,能加深学生对理论的理解及方法的运用。让学生在获得理论知识的过程中还能体会到现代信息技术的魅力,达到了传统教学无法实现的教学效果。(2)移动终端教学形式。以移动终端教学软件开发为中心的教学形式,研制微信平台、网络互动平台等“概率论与数理统计”课程教学平台,并在教学实践中使用,将数学建模网络案例融入了概率论与数理统计,充分利用现代化手段进行教学改革实践,实现现代化教学手段与传统教学方式相辅相成与有机结合。 4.考核方法改革措施。随着信息化发展和大数据时代的带来,财经类专业的概率与数理统计课程,除了在教学方法、内容、形式上进行改革外,还需要在考核方法方面进行改革。(1)成绩评定灵活化,充分调动学生学习的积极性.考核模式除了普遍采用的闭卷考试外,还可以在教学中用互动方式进行考核,采取灵活多样的考核形式。学生成绩的测评根据学生参与教学活动的程度、学习过程中掌握程度和卷面考试成绩等综合评定,保证成绩评定灵活化与考试形式多样化是相统一的。在评定成绩时,可采用“两点定绩制”方式,既考虑结果也要考虑过程,充分调动学生学习的积极性。(2)考核内容多样化,注重考查学生的创新能力。在开卷考试中,学生通过调查、实验等方式获取有关数据,借助于计算机,利用已学过的知识对数据进行分析和处理,根据分析和处理数据所得的结果进行预测和决策,撰写研究报告或论文。在闭卷考试中,考核内容不仅体现出概率与数理统计课程的基本知识和基本运算以及推理能力,还注重了学生各种能力的考查,尤其是创新能力。