当前位置:
文档之家› 基于数据挖掘对影响电影票房因素的浅析
基于数据挖掘对影响电影票房因素的浅析
如 影 片排 片 . 影 片 宣传 及 发 行 。从 2 0世 纪 4 0年 代 . 就 已经 陆 续 出现 了许 多对 于电 影 票 房 的 研 究 及 预 测 , 时至 今 日. 一些 国
n am e ”
,
均值 作 为 导 演 票 房 号 召 力 的 体 现 。其 中 , Y为平均均值 . N为 所 有记 录 变量 值 n相 加 后 的 总 量 , M 为记 录数 目:
大的利益。 本 文 主要 基 于机 器 学 习 的 经典 算法— — 决 策 树 , 聚 类等 . 依托 K a g g l e从 I M D B 网站 爬 取 的 4 1 6 0部 电影 信 息 的数
意, 他 们 所对 应 的 I MDB评 分 也 往 往 不超 过 5分 。 由此 观 之 ,
i r - 总项 为“ g r o s s ” 、 “ I M D B s c o r e ” , ; r - 总方 式 为求“ 平均
外 企 业 对 于 电影 票 房 的预 测 系统 已 十分 发 达 , 如 G o o g l e前 几 年 推 出的 预 测 模 型 对 于 票 房 的预 测 准 确 率 可 高达 9 4 %。 伴 随 均 达 到 平 均 水 平 的 导 演 只 有 不 到 半 数 ,其 中 荣膺 平 均 票 房 第 的 是 J a me s C a m e r o n , 代 表 作 有 《 阿凡 达 》 、 《 泰 坦 尼 克 号 》 , 以 着 我 国 电影 市场 的 迅 速 崛 起 .我 国 的票 房 评 估 体 制 还 处 在 摸 这 两部 电 影 平 均 7亿 美 元 的 票 房 成 绩 遥 遥 领 先 第 二 名 C o l i n 索阶 段 。目前 , 我 国的 { 受 I l 评 方 法 不但 缺 乏足 够 的理 论 与 技 术 支
一
位 导 演 的 能 力越 强 , 他 所 执 导 的影 片票 房 收 益越 好 , 平 均 票
本次分析的 I MD B数 据 集 的 4 1 6 0条 据集( 共计 2 6个属 性 值 ) , 对 于 电 影 票 房 的 影 响 因素 做 出分 析 房越 高 。 值 得 一 提 的 是 。 数 据 中有 1 8部 在 中 国 拍 摄 的 电 影 。 1 1部 由 中 国本 土 导 演指 归纳。 导。这 l 8部 影 片 中 。 I MD B得 分 最 高 的是 张 艺谋 导 演 的 作 品
一
值” 。得 到 结 果 如 下 , 在4 1 6 0条 记 录 中 , 共计 1 . 8 7 9位 导 演 , 他 们的票房均值 为 4 8 4 6万 美元 . I MD B评 分 均 值 为 6 . 4分 . 两 者
r e v o r r o w 一亿 之 多 . 其平均 I MD B也 达 到 了 7 . 8分 的 高分 。进 持, 而 且 缺 少海 量数 据 作 为 支 撑 , 这使 得 人 们 对 于 票 房 的 认 识 T 入 排 行 前 十 的 也 都 是 世 界 上 赫 赫 有 名 的 大 导 演 .例 如 : S t e v e n 充 满 了 不确 定 性 和 不 准 确 性 。
【 关键词 】 机器学 习; 电影票房 i 数据挖掘
【 中图分类号 】 T P 3 9 3 . 0
【 文献标 识码 】 A
【 文章编 ̄ - ] 1 0 0 6 — 4 2 2 2 ( 2 0 1 7 ) 0 2 — 0 2 3 6 — 0 2
l 刖
舌
自从 1 8 9 5年世 界 上 第 一 部 电影 《 工 厂 的 大 门》 诞 生以来 , Y=N/ M 世界 电 影 已有 1 0 0多年 的发 展 历 史 。 进 入 到 2 1 世纪. 电影 已 现 对 现 有 数 据 集进 行 处理 ,得 到 每 位 导 演 所 执 电影 的平 经走入家家户户 , 成 为 人 们 文 化 消 费 的一 部 分 。 电 影 其 本 身作 MD B( i m d b . s c o r e ) 得分, 具体 步骤 如 下 : 利用 为一种文化商品 . 票 房 是衡 量 一部 电 影 成功 与 否 的重 要 指 标 。 均票房 和 平均 I S E x c e l 对 表 格 中的 数 据 的 d i r e c t o r n a m e字 段 进 行 增 序 排 影 响一部 电影 的票房 的 因素不但 有 电影本 身 的先导 因 WP 然后 对全 部 数 据 进行 “ 分类; r - 总” 处理 , 分 类 字段 是 “ d i r e c t o r 素, 例如: 影片预算 , 导演 , 演 员, 口碑 , 还有 大量的主观 因素 , 序。
基 于数 据挖掘对 影响 电影票房 高级中学, 辽宁 大连 1 1 6 0 2 1 )
【 摘 要 】 数据挖掘是指从 大量的数据中通 过数据挖掘 算法挖掘知识 的过程。数据挖掘技术的发展及其应用的广度和 深度, 极大地影响着人 类
社 会 发 展 的进 程 。正确 快捷 地 使 用 数 据 挖 掘 与 处 理 技 术 , 可以使A . f l 的生 活 由繁 变 简 。本 文 针 对 电影 行 业 , 应用数据挖掘软件中机器学 > - - ] 的 经 典 算法 , 对于 电影 的票 房 和 评 分 的影 响 因素 进 行 了 探 索 。
p i e l b e r g ( 代 表作《 辛德 勒的名单 》 、 《 拯 救 大兵瑞 恩》 ) , G e o r g e 本 文 旨在 通 过 对 海量 数 据 进 行 建模 统 计 。准 确 分 析 影 响 S u c a s ( 代表作《 星球 大战》 系列电影) , 他们 的 I MD B评 分 也 都 电 影票 房 的若 干 因素 该 模 型 不仅 可 以 帮 助 人 们 更 清 楚 的 认 L 反 观 低 于平 均值 的导 演 们 , 票 房 收 益都 不尽 如 人 识 一部 电 影 . 还 可 以帮 助 电影 制 片 方更 好 的认 清 市 场 . 获得 更 在 7分 以上 。