当前位置：文档之家› w1大数据挖掘及其背景

w1大数据挖掘及其背景

多处数据都满足幂律
• • • • 1) Web图当中节点的度 2) 商品的销量 3) Web网站的大小 4) Zipf定律
1) Web图当中节点的度
• 按照网页的入链数对所有网页排序，令x为网页在排序结果的序号，y为序号为x的网页的入链数。 • y和x间的关系和左图类似，
大数据挖掘面临的挑战
• 数据来源种类多且量大：
– 现有的RDBMS无法处理如此巨大的数据
• 可扩展处理：
– 挖掘计算可扩展，要反应及时
• 可靠性保证：
– 分布式文件系统的备份恢复机制
• 并行计算模型：
– 需要采用MapReduce的计算模型。
大数据挖掘的三个重要转变
首先，要分析与某事物相关的所有数据，而不是依靠分析少量的数据样本。其次，接受数据的纷繁复杂，而不再追求精确性。最后，不再探求难以捉摸的因果关系，转而关注事物的相关关系。
N IDFi log 2 ni
• 词项i在文档j中的得分被定义为TFij×IDFi • 具有最高TF.IDF得分的那些词项，通常都是刻画文档主题的最佳词项
例子假定词语w在其中的210 = 1024篇文档中出现
– 那么IDFw = log2(220/210) = log2(210) = 10。 – 考虑一篇文档j，w在该文档中出现20次，是文档当中出现最多的词。那么TFwj =1，于是w在文档j 中的TF.IDF得分为10 – 假定在文档k中，词语w出现一次，而该文档中任一词语最多出现20次。有TFwk = 1/20， w在文档k 中的TF.IDF得分为1/2
– 文档的主题通过一些特定的，能够体现主题的词语来刻画。 – 例如，有关棒球(baseball) 的文章中常出现类似 "ball"(球)、"bat"(球棒)、"pitch"(投球)以及"run"(跑垒)之类的词语。
分类必须先考察文档
• 从文档中找出重要的词语
– 最频繁出现的词语未必最重要，如 "the"、"and" 等停用词 – 极少出现的词语如albeit,有时也不能提供多少有用的信息 – 另一方面，某个词(如chukker,马球一局)能提示文档明显和马球运动有关
– 数据挖掘可以描述为：按既定决策目标，对大量的数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。
数据、信息与知识
客观世界
收集
分析
数据
信息
再分析
知识
指导
经典挖掘模型CRISP-DM
商业理解
结果部署数据建立模型模型评估
数据理解
数据准备
数据挖掘三阶段
例子
• 下图是包含姓名(name)、地址(address)和电话号码(phone)字段的记录的内存索引结构。
– 索引基于电话号码字段构建，桶采用链表结构。 – 电话号码800-555-1212所对应的哈希到桶号码为17
• 使用哈希表的索引，电话号码经过哈希函数映射到不同桶中，桶编号就是哈希结果值
• TF.IDF是度量给定词语在文档中，反复出现程度的形式化指标
TF.IDF
• 假定文档集中有N篇文档，fij为词项i在文档j中出现的频率(即次数)，词项i在文档j中的词项频率TFij定义为
TFij
fij
max k f kj
• 假定词项i在文档集的ni篇文档中出现，那么词项i的IDF定义
现代信息系统让大数据成为了可能，是时候开始关注信息"I"本身了。
大数据挖掘
大数据挖掘的核心动力来源于人类了解和分析世界的渴望。
传统的数据挖掘
• 数据挖掘(Data Mining)，又称知识发现 (KDD)
– 是一个从大量数据中提取、挖掘出未知的、有价值的模式或规律等知识的复杂过程。
• 数据挖掘是一类深层次的数据分析方法。
二级存储器
• 处理大规模数据时，数据在磁盘还是在内存，计算的时间开销相差很大 • 将数据放在内存中将具压倒性优势
– 一般来说，磁盘上数据到内存的传送速度大约是 100 MB/s。 – 将磁盘组织成块结构，每个块是操作系统用于，在内存和磁盘之间传输数据的最小单元
块
• 例如，Windows操作系统使用的块大小为64KB。 • 需要大概10毫秒的时间，来访问和读取一个磁盘块。 • 相对于从内存中读取一个字的时间，磁盘的读取延迟大概要慢5个数量级。 • 若将相关的数据组织到磁盘的单个柱面上，这样可以以每块显著小于10毫秒的速度，将柱面上的所有块读入内存。
2) 相似项
• 有时数据看上去像一系列集合，这时的目标是，寻找那些共同元素比例较高的集合对。
– 由于顾客大都对许多不同的商品感兴趣，寻找兴趣相似的那部分顾客，并根据这些关联对数据进行表示的做法会更有用。 – 为向顾客推荐感兴趣的商品，Amazon先寻找与他相似的顾客群，并把其中大部分人购买过的商品也推荐给他，该过程称为协同过滤
数据挖掘是数据模型的发现过程
• 数据挖掘(data mining)是数据"模型"的发现过程，而"模型"却可以有多种含义。 • 下面介绍在建模方面最重要的几个方向
统计建模
• 最早使用"data mining"术语的人是统计学家
– 原意是：试图抽取出数据本身不支持的信息的过程
– 统计学家认为，数据挖掘就是统计模型的构建过程 – 而这个统计模型指的就是，可见数据所遵从的总体分布
• 左边是斜率为-2的幂律关系
– log10y=6-2log10x
上的图书销售情况
• 上的图书销售情况
– x表示图书的销量排名，y对应的是销售排名为x的畅销图书在某个时间段的销量 – 销售排行第1位的图书的销量是1百万册，而排行第10位的图书的销量为1万册，排行第100位的图书销量为100册…。
– 比如，并不清楚到底是影片的什么因素，导致某些观众喜欢或者厌恶该影片。 – 因此，在Netflix竞赛要求设计一个算法，来预测观众对影片的评分时，基于已有评分样本的数据挖掘算法获得了巨大成功。
数据挖掘不成功的案例
• 当挖掘的目标，能够更直接地描述时，数据挖掘方法并不成功。
– WhizBang!实验室曾试图使用数据挖掘方法，在 Web上定位人们的简历。
数据准备数据挖掘结果评价结果表达和解释
数据挖掘
数据转换预处理数据选择数据集成目标数据数据数据源预处理后转换数据数据知识
模式
常用的数据挖掘方法
关联规则聚类分析分类技术时序模式偏差检测预测估计 …….
传统的数据挖掘软件
• 专用挖掘工具、通用挖掘工具
– – – – – – – QUEST MineSet DBMiner Intelligent Miner SAS Enterprise Miner SPSS Clementine ……
大数据挖掘知识点
• 对数据挖掘研究有益的一些知识
– – – – – (1)用于度量词语重要性的TF.IDF指标 (2)哈希函数及其使用 (3)二级存储器(磁盘)及其对算法运行时间的影响； (4)自然对数的底e及包含它的一系列恒等式 (5)幂定律(power law)
词语在文档中的重要性
• 文档(词语的序列)挖掘的不少应用，都涉及根据主题，对文档分类的问题。
自然对数的底e
• 常数e = 2.718 281 8... 有一些非常有用的特性 • e是当x趋向于无穷大时，
1 1 x
x
• 的极限。 • 当x分别等于1、2、3和4时，上式的值分别近似为2、 2.25、2.37和2.44
例子
• 令x=1/2，有
– e1/2 = 1 +1/2+1/8+1/48+1/384+…
– 1)对数据进行简洁的近似汇总描述； – 2)从数据中抽取出最突出的特征，代替数据，并忽略剩余内容
数据汇总
• 一种数据汇总形式是PageRank，谷歌成功的关键算法
– Web的整个复杂结构，可由每个页面所对应的一个数字( PageRank值)归纳而成。
• 另一种数据汇总形式是聚类
– 在聚类中，数据被看成是多维空间下的点，空间中相互邻近的点将被赋予相同的类别。
首选将B取为素数
• 当哈希键都是整数时，如果选用一个与所有可能的哈希键，都具有公因子的B时，将会导致分配到桶中的结果不随机。
– 因此，通常都首选将B取为素数。这种选择方法减少了非随机行为的可能性。
• 如果哈希键不是整数，有一些简单的规则可以将通用的类型转化成整数。
– 例如，如果哈希键是字符串，那么可以将每个字符，转换成其对应的ASCII码或Unicode码
– 如果哈希键的总体是所有的正整数，那么上述哈希函数产生的结果会非常均匀，即1/B的整数将被分到每个桶中。 – 如果哈希键只能是偶数值，并且如果B=10，那么h(x) 的结果只能是0、2、4、6和8，此时哈希函数的行为明显不够随机。 – 如果选择B=11，那么会有1/11的偶数会分到每个桶中，这时候哈希函数的效果又会很好
– 算法的效果都比不过人工设计的，直接通过典型关键词和短语，来查找简历的算法。
– 相对于直接设计的简历发现算法而言，数据挖掘并无任何优势
建模的计算方法
• 数据建模有很多不同的方法。
• 数据可以通过，其生成所可能遵从的，统计过程构建来建模。
数据建模两种做法
• 数据建模方法可描述为下列两种做法之一：
索引
• 为对象的一个或多个元素值建立索引，是一种能够支持对象高效查找的方法。

e商务文档

w1大数据挖掘及其背景

相关文档推荐：