2019年3月基于数据挖掘的电影票房分析席稼玮(陕西省西安市高新唐南中学,陕西省西安市710000)【摘要】在电影产业迅猛发展的今天,票房直接反映了一部电影所带来的经济效益,也是衡量一部电影成功与否的重要指标,因而对电影票房进行分析和预测来辅助电影投资和排片十分必要。
本文选取了2015~2017年三年的电影数据,通过建立C5.0决策树模型,分析了类型、档期、发行公司、国家地区等八个重要因素对电影票房高低的影响,构建了电影票房预测模型。
在此基础上,本文也对这些影响因素进行了关联规则分析。
通过实验分析,得出了诸多有意义的结论,如制式是影响票房的关键因素。
此外,结果表明,本文构建的预测模型效果良好,可将其用于电影票房预测。
【关键词】电影票房;数据挖掘;分类预测;决策树;关联分析【中图分类号】TP311.13【文献标识码】A【文章编号】1006-4222(2019)03-0317-031引言随着人们生活水平不断提高,我国影视行业发展迅速,成为全球第二大电影市场,同时也是增长最快的市场之一。
据中国新闻出版广电总局调查显示,2017年全国电影总票房已经超过550亿[1],这说明中国电影产业有着良好的发展前景。
然而,电影行业本身的高风险性和社会环境的多样性也为电影票房带来许多不确定因素,高投入低票房低收益的电影案例也屡见不鲜,如2016年上映的《封神传奇》斥资5亿,却只收获2.84亿的票房。
因而,研究电影票房的预测模型和相关影响因素对电影投资和排片的决策有着至关重要的指导性作用。
电影作为一种特殊的生存期短的商品,对其票房的预测难度非常大。
然而,电影在制作和宣传过程中的高成本、高风险使得对电影票房的预测至关重要。
吴发翔等[2]选取了2015年上映的200部国产电影作为实验数据,通过观众期待度、电影自身影响度、同期竞争力等作为预测因变量,提出了基于决策树C5.0的票房预测模型。
郑坚等[3]选取2008~2010年之间192部国产电影作为数据集,提出了一种基于多层反馈神经网络的票房预测模型。
王炼等[4]选取了2011年上映的211部电影进行分析,提出了基于网络搜索的票房预测模型。
对比这些现有的票房预测研究[5],他们选取的数据集多为2016年之前,缺乏时效性。
此外,他们并未将电影制式作为影响票房的因变量因素进行分析。
基于此,本文将2015~2017三年间在中国内地上映的所有电影票房数据作为实验数据,选取了类型、档期、发行公司、国家地区、制式、导演影响力、主演影响力、同期竞争力八个影响因素,对电影票房进行了分类分析和关联规则分析,建立了电影票房预测模型。
本文选取的实验数据具备很强的时效性,覆盖度广,同时创新性地选取了电影制式作为因变量影响因素,对电影票房预测模型的研究具有非常重要的意义。
2数据选择和处理数据的选择和处理作为数据分析的重要组成步骤,会直接影响到数据分析的结果。
2.1数据选择本文选取了2015~2017三年的电影票房数据,与其他已有的电影票房预测模型相比,具备很强的时效性和适用性。
本文抓取的电影数据来源于中国票房网(/),中国票房网是电影票房统计官方网站,提供详细的电影相关信息,保证了数据的权威性、准确性和完整性。
本文预测的目标变量为电影票房,预测的因变量为电影票房的八个影响因素(详见第3章)。
2.2数据处理本文的数据预处理分三个部分:异常处理,如,对空数据通过其他途径得到并进行填充或者直接剔除;数据去重,对重复数据进行删除;字段处理,统一每个字段的格式和类型,仅保留有效字段。
3电影票房的重要影响因素电影票房预测对于降低电影的投资风险至关重要。
电影票房预测模型的好坏很大程度上取决于电影票房影响因素的选择。
电影自身的影响力决定了这部电影的质量和口碑,而质量和口碑影响着电影的后期票房。
主创团队影响力影响的则是观众对电影的期待度,这会影响电影的前期票房。
基于此,本文主要从电影自身影响力和主创团队影响力这两方面出发,研究了类型、档期、发行公司、国家地区、制式、导演影响力、主演影响力和同期竞争力对电影票房的影响。
3.1类型不同类型的电影有不同的受众群体,不同的群体又具有不同的消费水平。
例如动画类电影,观影人群大多为儿童,相对其他群体来说人数较少,且消费水平较低,因此会对票房产生一定影响。
本文将电影的类型通过离散化分为12类,分别为爱情、灾难、艺术、恐怖、战争、记录、动画、喜剧、科幻、奇幻、动作、剧情,分析了类型对票房的影响。
3.2档期从某种程度上来说,档期是电影的纵向市场。
一年中的不同时段,人们的观影需求和消费能力有明显差异,比如节假日通常会比非节假日的观影需求要大得多,进而影响票房。
本文将数据进行了离散化处理,将档期分为5类,分别为五一档(4.27-5.10)、暑期档(7.1-9.1)、国庆档(9.27-10.10)、贺岁档(12.26-次年2.1)和其他。
3.3发行公司好的电影发行公司一般具有专业的制作团队,先进的技术条件和雄厚的资本积累,是电影票房的潜在保障。
本文对数据进行了离散化,通过调研和总结,将制片公司分为3类:好莱坞八大电影公司、中国十大电影公司和其他。
其中,好莱坞八大电影发行公司包括:华纳兄弟公司、米高梅电影公司、派拉蒙影业公司、哥伦比亚影业公司、环球影片公司、联美电影公司、20世纪福克斯电影公司、迪士尼电影公司,而中国八大电影发行公司包括:中影CFGC(中国电影集团公司)、光线传媒(北京光线传媒股份有限公司)、华谊兄弟(华谊兄弟传媒股份有限公司)、博纳影业BONA(博纳影业集团股份有限公司)、上影(上海电影(集团)有限公司)、万达影业(大连万达集团股份有限公司)、乐视影业(乐视网信息技术(北京)股份有限公司)、寰亚(香港寰亚综艺集团有限公司)、论述3172019年3月安乐EDKO(安乐影片有限公司)、嘉映影业(北京嘉映文化传媒有限公司)。
3.4国家地区各个国家和地区的电影风格各具特色,因此也会受到人们不同程度的喜爱,所以国家地区也是要考虑的因素之一。
本文通过对数据进行离散化,结合不同国家和区域的电影出品特点,将国家地区分为5类:中国大陆(中国)、港台(香港、台湾)、欧美(美国、英国、法国、意大利)、日韩(日本、韩国)和其他。
3.5制式近年引入的电影制式,如3D、IMAX等,其具备的立体动画和巨型屏幕会比2D电影的代入感更强,会带给观众更好的观影体验,所以被不少观众青睐。
通过分析抓取到的电影详情数据,发现很多电影有多种制式,如2D和3D并存。
本文选取一部电影最先进的制式(IMAX制式>3D制式>2D制式)作为离散化标准,将电影制式离散化为四类:2D、3D、IMAX和其他。
3.6导演影响力如果一名导演自身有很高的知名度,则通常他导演的电影也将被大众所期待,对电影票房起着积极作用。
本文将导演影响力作为影响电影票房的因素之一。
具体地,某部电影的导演影响力可通过计算该电影的导演在此之前导过的两部电影票房总和得到。
通过分析2015~2017年三年来每部电影的导演影响力,本文将导演影响力离散化为5类:很低(<100)、较低(100-1000)、一般(1000-5000)、较高(5000-10000)和很高(>10000)。
3.7主演影响力主演是电影的主角,是电影表现力和票房号召力不可或缺的一部分。
如果参演人员本身具有表演实力和一定知名度且受人们喜爱,则电影的受期待程度通常较高,对电影票房有着积极影响。
本文将主演影响力作为影响电影票房的因素之一。
具体地,某部电影的主演影响力可选取该电影排名前三的主演进行分析,即分别计算每位主演在此之前作为排名前三的主演参与演出的前三部电影票房总和,最后将其求和作为该电影的主演影响力。
通过分析计算出的结果,本文将主演影响力离散化为4类:很低(<1000)、较低(1000-80000)、较高(80000-300000)和很高(>300000)。
3.8同期竞争力因为观众通常会选择质量好、话题度高且性价比高的电影,因此同期其他电影的上映情况会间接对该电影票房产生影响。
本文将同期竞争力作为影响电影票房的重要因素之一。
本文通过计算某部电影上映前后一周(共两周)的电影票房总和得到同期竞争力,对其离散化后分为4类:很低(<50000)、较低(50000-120000)、较高(120000-200000)、很高(>200000)。
4实验与分析本文采用IBMSPSSModeler对2015~2017三年的电影票房进行分析:用C5.0决策树[2,5,6]分析影响电影票房的因素,用Apriori算法[5,6]分析各影响因素之间存在的关联规则。
4.1分类分析为了降低电影投资的风险,帮助投资者做出相关决策,本文对电影票房进行了预测与分析。
4.1.1决策树的构建本文采用C5.0决策树对票房预测模型进行构建。
C5.0决策树是基于C4.5开发的分类算法。
由于国家地区和发行公司间存在关联性,而贝叶斯分类算法需要各因素间相互独立,因此并不适用于电影票房预测模型。
此外,线性回归和神经网络预测模型适用于连续的因变量预测,且不易理解和部署,因此C5.0决策树算法更为适合电影票房的预测分析。
决策树是一种树形的数据结构,其中每个非叶子节点表示一个属性,每个叶子节点代表一种分类结果。
C5.0决策树算法[6]是目前最经典的决策树算法之一,根据能带来最大信息增益的特征属性来拆分样本,经过数次迭代,可生成决策树或规则集以完成分类和预测。
本文采用IBMSPSSModeler数据分析软件,首先将类型、档期、发行公司等八个电影票房的重要影响因素(详见本文第3章)进行离散化,作为决策树的输入变量,同时将票房通过离散化分为5类:非常低(<1000=、较低(1000-5000)、一般(5000-10000)、较高(10000-50000)和非常高(>50000)作为决策树的目标变量,采用C5.0算法建立了决策树模型。
4.1.2实验结果与分析决策树分析的实验结果如图1所示,该模型的准确率为76.06%,通过分析实验结果可知,电影制式对票房的影响最大,预测变量重要性高达0.39。
其次是主演影响力和国家地区。
而同期竞争力、发行公司是重要性最低的两个因素。
在此基础上,本文将实验结果分析如下:(1)由于3D、IMAX等技术相对先进,制作成本高,因此票价比一般2D电影贵,导致票房普遍较高,这可能是制式影响票房的主要原因。
其次,观众对3D、IMAX电影更有新鲜感,同时这些电影也会给观众带来好的观影体验,观影人数较多,所以票房较高。
(2)除制式外,国家地区也是影响票房的关键因素之一,原因可能是大多在中国内地能够上映的国外电影,都已经在该地区内上映,并且取得了良好成绩,电影质量、口碑也相对较好。