当前位置:文档之家› w1大数据挖掘及其背景

w1大数据挖掘及其背景


多处数据都满足幂律
• • • • 1) Web图当中节点的度 2) 商品的销量 3) Web网站的大小 4) Zipf定律
1) Web图当中节点的度
• 按照网页的入链数对所有网 页排序,令x为网页在排序结 果的序号,y为序号为x的网 页的入链数。 • y和x间的关系和左图类似,
大数据挖掘面临的挑战
• 数据来源种类多且量大:
– 现有的RDBMS无法处理如此巨大的数据
• 可扩展处理:
– 挖掘计算可扩展,要反应及时
• 可靠性保证:
– 分布式文件系统的备份恢复机制
• 并行计算模型:
– 需要采用MapReduce的计算模型。
大数据挖掘的三个重要转变
首先,要分析与某事物相关的所有数据,而 不是依靠分析少量的数据样本。 其次,接受数据的纷繁复杂,而不再追求精 确性。 最后,不再探求难以捉摸的因果关系,转而 关注事物的相关关系。
N IDFi log 2 ni
• 词项i在文档j中的得分被定义为TFij×IDFi • 具有最高TF.IDF得分的那些词项,通常都是刻 画文档主题的最佳词项
例子假定词语w在其中的210 = 1024篇文档中出现
– 那么IDFw = log2(220/210) = log2(210) = 10。 – 考虑一篇文档j,w在该文档中出现20次,是文档 当中出现最多的词。那么TFwj =1,于是w在文档j 中的TF.IDF得分为10 – 假定在文档k中,词语w出现一次,而该文档中任 一词语最多出现20次。有TFwk = 1/20, w在文档k 中的TF.IDF得分为1/2
– 文档的主题通过一些特定的,能够体现主题的词 语来刻画。 – 例如,有关棒球(baseball) 的文章中常出现类似 "ball"(球)、"bat"(球棒)、"pitch"(投球)以及"run"(跑 垒)之类的词语。
分类必须先考察文档
• 从文档中找出重要的词语
– 最频繁出现的词语未必最重要,如 "the"、"and" 等停用词 – 极少出现的词语如albeit,有时也不能提供多少有用 的信息 – 另一方面,某个词(如chukker,马球一局)能提示文 档明显和马球运动有关
– 数据挖掘可以描述为:按既定决策目标,对大 量的数据进行探索和分析,揭示隐藏的、未知 的或验证已知的规律性,并进一步将其模型化 的先进有效的方法。
数据、信息与知识
客观世界
收集
分析
数据
信息
再 分 析
知识
指导
经典挖掘模型CRISP-DM
商业理解
结果部署 数据 建立模型 模型评估
数据理解
数据准备
数据挖掘三阶段
例子
• 下图是包含姓名(name)、地址(address)和电话 号码(phone)字段的记录的内存索引结构。
– 索引基于电话号码字段构建,桶采用链表结构。 – 电话号码800-555-1212所对应的哈希到桶号码为17
• 使用哈希表的索引,电话号码经过哈希函数 映射到不同桶中,桶编号就是哈希结果值
• TF.IDF是度量给定词语在文档中,反复出现程 度的形式化指标
TF.IDF
• 假定文档集中有N篇文档,fij为词项i在文档j中 出现的频率(即次数),词项i在文档j中的词项 频率TFij定义为
TFij
fij
max k f kj
• 假定词项i在文档集的ni篇文档中出现,那么 词项i的IDF定义
现代信息系统让大数据成为了可能,是时候开始 关注信息"I"本身了。
大数据挖掘
大数据挖掘的核心动力来源于人类了解和分 析世界的渴望。
传统的数据挖掘
• 数据挖掘(Data Mining),又称知识发现 (KDD)
– 是一个从大量数据中提取、挖掘出未知的、有 价值的模式或规律等知识的复杂过程。
• 数据挖掘是一类深层次的数据分析方法。
二级存储器
• 处理大规模数据时,数据在磁盘还是在内存 ,计算的时间开销相差很大 • 将数据放在内存中将具压倒性优势
– 一般来说,磁盘上数据到内存的传送速度大约是 100 MB/s。 – 将磁盘组织成块结构,每个块是操作系统用于, 在内存和磁盘之间传输数据的最小单元

• 例如,Windows操作系统使用的块大小为64KB。 • 需要大概10毫秒的时间,来访问和读取一个磁盘 块。 • 相对于从内存中读取一个字的时间,磁盘的读取 延迟大概要慢5个数量级。 • 若将相关的数据组织到磁盘的单个柱面上,这样可以 以每块显著小于10毫秒的速度,将柱面上的所有块读 入内存。
2) 相似项
• 有时数据看上去像一系列集合,这时的目标 是,寻找那些共同元素比例较高的集合对。
– 由于顾客大都对许多不同的商品感兴趣,寻找兴 趣相似的那部分顾客,并根据这些关联对数据进 行表示的做法会更有用。 – 为向顾客推荐感兴趣的商品,Amazon先寻找与他 相似的顾客群,并把其中大部分人购买过的商品 也推荐给他,该过程称为协同过滤
数据挖掘是数据模型的发现过程
• 数据挖掘(data mining)是数据"模型"的发现过 程,而"模型"却可以有多种含义。 • 下面介绍在建模方面最重要的几个方向
统计建模
• 最早使用"data mining"术语的人是统计学家
– 原意是:试图抽取出数据本身不支持的信息的过 程
– 统计学家认为,数据挖掘就是统计模型的构建过 程 – 而这个统计模型指的就是,可见数据所遵从的总 体分布
• 左边是斜率为-2的幂律关系
– log10y=6-2log10x
上的图书销售情况
• 上的图书销售情况
– x表示图书的销量排名,y对应的是 销售排名为x的畅销图书在某个时间 段的销量 – 销售排行第1位的图书的销量是1百 万册,而排行第10位的图书的销量 为1万册,排行第100位的图书销量 为100册…。
– 比如,并不清楚到底是影片的什么因素,导致某 些观众喜欢或者厌恶该影片。 – 因此,在Netflix竞赛要求设计一个算法,来预测观 众对影片的评分时,基于已有评分样本的数据挖 掘算法获得了巨大成功。
数据挖掘不成功的案例
• 当挖掘的目标,能够更直接地描述时,数据 挖掘方法并不成功。
– WhizBang!实验室曾试图使用数据挖掘方法,在 Web上定位人们的简历。
数据准备 数据挖掘 结果评价 结果表达和解释
数据挖掘
数据转换 预处理 数据选择 数据集成 目标数据 数据 数据源 预处理后 转换数据 数据 知识
模式
常用的数据挖掘方法
关联规则 聚类分析 分类技术 时序模式 偏差检测 预测估计 …….
传统的数据挖掘软件
• 专用挖掘工具、通用挖掘工具
– – – – – – – QUEST MineSet DBMiner Intelligent Miner SAS Enterprise Miner SPSS Clementine ……
大数据挖掘知识点
• 对数据挖掘研究有益的一些知识
– – – – – (1)用于度量词语重要性的TF.IDF指标 (2)哈希函数及其使用 (3)二级存储器(磁盘)及其对算法运行时间的影响; (4)自然对数的底e及包含它的一系列恒等式 (5)幂定律(power law)
词语在文档中的重要性
• 文档(词语的序列)挖掘的不少应用,都涉及根 据主题,对文档分类的问题。
自然对数的底e
• 常数e = 2.718 281 8... 有一些非常有用的特性 • e是当x趋向于无穷大时,
1 1 x
x
• 的极限。 • 当x分别等于1、2、3和4时,上式的值分别近似为2、 2.25、2.37和2.44
例子
• 令x=1/2,有
– e1/2 = 1 +1/2+1/8+1/48+1/384+…
– 1)对数据进行简洁的近似汇总描述; – 2)从数据中抽取出最突出的特征,代替数据,并忽 略剩余内容
数据汇总
• 一种数据汇总形式是PageRank,谷歌成功的 关键算法
– Web的整个复杂结构,可由每个页面所对应的一 个数字( PageRank值)归纳而成。
• 另一种数据汇总形式是聚类
– 在聚类中,数据被看成是多维空间下的点,空间 中相互邻近的点将被赋予相同的类别。
首选将B取为素数
• 当哈希键都是整数时,如果选用一个与所有 可能的哈希键,都具有公因子的B时,将会导 致分配到桶中的结果不随机。
– 因此,通常都首选将B取为素数。这种选择方法减 少了非随机行为的可能性。
• 如果哈希键不是整数,有一些简单的规则可 以将通用的类型转化成整数。
– 例如,如果哈希键是字符串,那么可以将每个字 符,转换成其对应的ASCII码或Unicode码
– 如果哈希键的总体是所有的正整数,那么上述 哈希函数产生的结果会非常均匀,即1/B的整 数将被分到每个桶中。 – 如果哈希键只能是偶数值,并且如果B=10,那 么h(x) 的结果只能是0、2、4、6和8,此时哈 希函数的行为明显不够随机。 – 如果选择B=11,那么会有1/11的偶数会分到每 个桶中,这时候哈希函数的效果又会很好
– 算法的效果都比不过人工设计的,直接通过典型 关键词和短语,来查找简历的算法。
– 相对于直接设计的简历发现算法而言,数据挖掘 并无任何优势
建模的计算方法
• 数据建模有很多不同的方法。
• 数据可以通过,其生成所可能遵从的,统计 过程构建来建模。
数据建模两种做法
• 数据建模方法可描述为下列两种做法之一:
索引
• 为对象的一个或多个元素值建立索引,是一 种能够支持对象高效查找的方法。
相关主题