当前位置:文档之家› 大数据计算理论基础[2014-05]

大数据计算理论基础[2014-05]


8
2、计算理论(Theory of computation)
(3) 串行计算类:P,NP,NPC,NPH
• • • • P类问题:在确定图灵机上多项式(Polynomial)时间内可求解的一类问题。 NP类问题:在非确定图灵机上多项式时间内可求解的一类问题(所有NP问题均必 须在有限步内是可判定的)。 NPC问题:对于L∈NP的问题,且NP类中的每一个L’均可在多项式时间内归约 (转换)到L,L’≤P L,则称L为NPC(NP完全)的(第一个被证明是NPC问题的 是布尔满足性问题:Boolean Satisfiability Problem,SAT)。 NPH(难)问题:一个问题H称为NP难的,当且仅当存在着一个NPC问题L,L可 在多项式时间内图灵归约(Turing-Reduction)到H。简记之为:L(NPC) ≤T H(NPH) (例如判定停机问题是NPH问题)。
2
目 录
1. 1. 计算科学与计算问题分类 计算机科学与计算问题分类 (1) (1) 计算科学 计算机科学的经典定ቤተ መጻሕፍቲ ባይዱ (2) 算法定义的数学解释 计算机科学定义的数学解释 (2)
(2) 支撑点空间的定义 (3) 举例 (4) 完全支撑点空间
6.
数据的划分技术
(1) 超平面划分 (2) 有利点划分 (3) 包络球划分

14
4、度量空间:大数据统一化抽象表示
supinf d x, y
xX yY
supinf d x, y
yY xX
d H X , Y max{supinf d x, y , supinf d x, y }
xX yY yY xX
15
4、度量空间:大数据统一化抽象表示
NPH NPC NP P P NPC
NP
当P≠NP时,NPH问题 不能在多项式时间内求解。
当P≠NP时,NPC问题 不能在多项式时间内求解。
注:①所有NPC问题均能在多项式时间内归约到NPH而求解之。 ②NPC中的每个元素均必须是NP中的元素。 ③NPH问题中不一定必须是NP中的元素。
9
2、计算理论(Theory of computation)
(3) 度量空间
• 拓扑与拓扑空间:
如果非空集合X的子集族τ,它满足以下条件: ①Ø和X在τ中; ②τ的任意子族之元素的“并”(∪)在τ中; ③τ的任意子族之元素的“交”(∩)在τ中。 则称τ为X上的一个拓扑(Topology),偶对(X, τ )称为X上的一个拓扑空间( Topology Space)。

(2) 大数据可(能)解与不可(用)解问题
• 在大数据时有些问题是可(能)解的,例如布尔选择查询(在数据集D中,是否存 在某一列的元组值为指定值,在B+树[1]索引上可在O(log(|D|))时间内解决);但很 多问题是不可(能)解的,例如图的宽度优先搜索[2] (是P完全的)。 • 在大数据时,传统的可(能)解问题,可能成为不可(用)解问题:例如采用速 度可达6Gbps的快速硬盘,线性扫描1EB(E=1018字节)的数据,这本是线性复杂 度的可(能)解问题,但实际需要长达5.28年时间,这就变成了不可(用)解问题 了。 注1:B+树是B树的变形,关键字与数据值(键/值)成对存储在树的同一节点中,其 中所有数据值存在树的叶节点中,只将关键字与子女节点的指针存在树的内节 点中。 注2:宽度优先搜索(BFS:Breadth-First-Search)从根节点开始,沿着树的宽度遍历 其所有子节点,这些子节点被加入一个先进先出FIFO的队列中。然后从FIFO队 列中取出先进入的子节点,重复上述宽度遍历过程,直到所有节点均被访问过。 12 BFS问题是个P完全问题。
4.
度量空间:大数据统一化抽象表示
(1) (2) (3) (4) 大数据统一化抽象表示的基本思路 距离和度量的概念 数据的度量空间表示 度量空间举例
10. 结论
(1) 大数据处理应对策略 (2) 变革思维研究大数据
3
5.
支撑点空间:度量空间的坐标化
(1) 度量空间的坐标化
1、计算科学与计算问题分类

停机问题:对于任意的图灵机和输入,是否存在一个算法,用于判定图 灵机在接收初始输入后可到达停机状态。若能找到此算法,停机问题可 解,否则不可解。 计算复杂性:用数学方法研究各类问题计算的复杂性质。也可理解为利 用计算机求解问题的难易程度。 算法复杂性:算法复杂性是对算法效率的度量,系指运行算法所耗费的

度量与度量空间:
设X为非空集合,d: X × X → R,(x, y) → d(x, y)为映射,如果∀x,y,z∈X满足: ① d(x, y) = d(y, x)(对称性); ② d(x, y) ≥ 0 和 d(x, y) = 0 iff x = y(半正定性); ③ d(x, z) ≤ d(x, y) + d(y, z)(三角不等式)。 则称d为X上的一个度量(距离),偶对(X,d)为度量空间,d(x,y)称为是x与y间 的距离。
•函数与变量:算法就是研究各类算法的成本函数及其变量(数据)的数学。 •传统研究算法,重点是研究算法成本函数本身,而不太关注它的计算变量。
•大数据时代,算法不但要研究各类成本函数的属性;还要研究计算对象,
即变量,也就是数据本身的属性
4
1、计算机科学与计算问题分类
(3) 计算机科学的历史演变
计算机科学的形式化研究起源于数学的基础研究: • • Cantor的集合论与Russell悖论:数学家们在集合论中发现了逻辑矛盾 Let R = {x | x ∉ x} then R∈R ↔ R ∉ R Hilbert纲领:即在通用的形式逻辑系统中可以机械地判定任何给定命题 的真伪(完备性),证明每一形式系统的相容性,从而导出全部数学的 相容性。
(1)计算科学(Computation Science)
•计算理论:研究可计算性与计算复杂性。
•算法:包括数值和非数值算法。算法就是研究求解问题的原理、方法
和步骤,分析算法就是求解算法的成本函数。 •数据结构:就是研究多种数据(串、表、树、图等)的表示、存储和操作 方法。数据就是成本函数的变量。
(2)算法定义的数学解释
5
1、计算机科学与计算问题分类
(4) 计算问题分类
计算问题
不可判定问题
可判定问题
难解(不可能)解 问题
易解(可解,多 项式时间)问题 大数据不可解(BDIntractable)问题
不可近似问题
可近似问题
大数据可解(BDTractable)问题
大数据不可 近似问题
大数据可近 似问题
6
2、计算理论(Theory of computation)
(3) 计算机科学的历史演变 (4) 计算问题分类
2.
计算理论
(1) (2) (3) (4) (5)
可计算性与计算复杂性 图灵计算模型 串行复杂计算类:P,NP,NPC,NPH 并行复杂计算类:NC,PC 8. 归约
7.
大数据NC计算理论
(1) NCi类的电路定义 (2) NCi类的层次 (3) 大数据NC-类计算
大数据计算理论基础
Computing Theory Foundations of Big Data
陈国良,陆克中,毛睿 深圳大学计算机与软件学院
2014年5月
摘要: 大数据是当前 IT 信息技术研究和应用的热 点。但是,目前的研究多集中于系统和应用层面, 理论基础方面的探讨相对较少。本文从计算机科学 讲起,以计算复杂性理论为基础,着重研究大数据 的计算复杂性(Computational Complexity)和大数 据本身的复杂性(Data Complexity):前者包括大 数据统一化抽象表示;大数据划分技术;大数据 NC 类计算理论;大数据计算模式等。后者包括大 数据复杂性表示;大数据复杂性度量;大数据复杂 性模型等。最后,根据大数据的 4V 特性,提出大 数据处理应对策略和变革思维方法研究大数据。
大数据计算模式
(1) (2) (3) (4) 基于MR的流计算 流计算 实例研究:Storm流计算 增量计算
3.
大数据可计算性
(1) 可(能)解与不可(用)解问题 (2) 大数据可(能)解与不可(用)解问题 (3) 数据库查询类的可(能)解与不可(用)解 问题
9.
大数据的复杂性
(1) 大数据复杂性表示 (2) 大数据复杂性度量 (3) 大计算复杂性模型
10
2、计算理论(Theory of computation)
11
3、大数据可计算性
(1) 可(能)解(Tractable)与不可(用)解(Intractable)
• • 可(能)解(Tractable: meaning “easily managed” )问题:经典定义是在多项式时 间内可以解决的问题。 不可(用)解(Intractable)问题:系指理论上能够解(在无限长时间内),但实 际上求解时间太长而无法用的问题。因此缺乏多项式时间解的问题被视为不可 (用)解的问题。 完全问题不可解性:在P≠NP时,NPC问题是不可(用)解的问题;在P≠NC时, PC问题是不可(用)解的问题。
(1) 可计算性与计算复杂性
• 可计算性:对于一个问题,如果存在一个机械过程,对给定的输入,能 够在有限步内给出结果,则称此问题是可计算的。所谓机械的过程,系 指在描述计算的某种设备上,实施该计算过程,而给出计算结果。 可计算性特征: ◊ ◊ ◊ ◊ • 确定性:对相同的初始输入产生相同的输出。 有限性:在有限设备上能在有限时间内求解。 构造性:每一计算过程的执行都是“机械的”或“构造性的”。 数学描述性:计算的过程可以用严格的数学进行描述。
费了对数多项式时间,则称此算法为NC-算法。 NC-归约形式定义:对于问题L1和L2,如果存在一个NC-算法,可将L1的求解转换 成L2的求解,则称L1可NC-归约到L2,简记为L1 ≤NC L2。
相关主题