当前位置：文档之家› 大数据计算理论基础[2014-05]

大数据计算理论基础[2014-05]

8
2、计算理论（Theory of computation）
(3) 串行计算类：P，NP，NPC，NPH
• • • • P类问题：在确定图灵机上多项式（Polynomial）时间内可求解的一类问题。 NP类问题：在非确定图灵机上多项式时间内可求解的一类问题（所有NP问题均必须在有限步内是可判定的）。 NPC问题：对于L∈NP的问题，且NP类中的每一个L’均可在多项式时间内归约（转换）到L，L’≤P L，则称L为NPC（NP完全）的（第一个被证明是NPC问题的是布尔满足性问题：Boolean Satisfiability Problem，SAT）。 NPH（难）问题：一个问题H称为NP难的，当且仅当存在着一个NPC问题L，L可在多项式时间内图灵归约（Turing-Reduction）到H。简记之为：L(NPC) ≤T H(NPH) （例如判定停机问题是NPH问题）。
2
目录
1. 1. 计算科学与计算问题分类计算机科学与计算问题分类 (1) (1) 计算科学计算机科学的经典定ቤተ መጻሕፍቲ ባይዱ (2) 算法定义的数学解释计算机科学定义的数学解释 (2)
(2) 支撑点空间的定义 (3) 举例 (4) 完全支撑点空间
6.
数据的划分技术
(1) 超平面划分 (2) 有利点划分 (3) 包络球划分
•
14
4、度量空间：大数据统一化抽象表示
supinf d x, y
xX yY
supinf d x, y
yY xX
d H X , Y max{supinf d x, y , supinf d x, y }
xX yY yY xX
15
4、度量空间：大数据统一化抽象表示
NPH NPC NP P P NPC
NP
当P≠NP时，NPH问题不能在多项式时间内求解。
当P≠NP时，NPC问题不能在多项式时间内求解。
注：①所有NPC问题均能在多项式时间内归约到NPH而求解之。 ②NPC中的每个元素均必须是NP中的元素。 ③NPH问题中不一定必须是NP中的元素。
9
2、计算理论（Theory of computation）
(3) 度量空间
• 拓扑与拓扑空间：
如果非空集合X的子集族τ，它满足以下条件： ①Ø和X在τ中； ②τ的任意子族之元素的“并”（∪）在τ中； ③τ的任意子族之元素的“交”（∩）在τ中。则称τ为X上的一个拓扑（Topology），偶对（X, τ ）称为X上的一个拓扑空间（ Topology Space）。
•
(2) 大数据可（能）解与不可（用）解问题
• 在大数据时有些问题是可（能）解的，例如布尔选择查询（在数据集D中，是否存在某一列的元组值为指定值，在B+树[1]索引上可在O(log(|D|))时间内解决）；但很多问题是不可（能）解的，例如图的宽度优先搜索[2] （是P完全的）。 • 在大数据时，传统的可（能）解问题，可能成为不可（用）解问题：例如采用速度可达6Gbps的快速硬盘，线性扫描1EB（E=1018字节）的数据，这本是线性复杂度的可（能）解问题，但实际需要长达5.28年时间，这就变成了不可（用）解问题了。注1：B+树是B树的变形，关键字与数据值（键/值）成对存储在树的同一节点中，其中所有数据值存在树的叶节点中，只将关键字与子女节点的指针存在树的内节点中。注2：宽度优先搜索（BFS：Breadth-First-Search）从根节点开始，沿着树的宽度遍历其所有子节点，这些子节点被加入一个先进先出FIFO的队列中。然后从FIFO队列中取出先进入的子节点，重复上述宽度遍历过程，直到所有节点均被访问过。 12 BFS问题是个P完全问题。
4.
度量空间：大数据统一化抽象表示
(1) (2) (3) (4) 大数据统一化抽象表示的基本思路距离和度量的概念数据的度量空间表示度量空间举例
10. 结论
(1) 大数据处理应对策略 (2) 变革思维研究大数据
3
5.
支撑点空间：度量空间的坐标化
(1) 度量空间的坐标化
1、计算科学与计算问题分类
•
停机问题：对于任意的图灵机和输入，是否存在一个算法，用于判定图灵机在接收初始输入后可到达停机状态。若能找到此算法，停机问题可解，否则不可解。计算复杂性：用数学方法研究各类问题计算的复杂性质。也可理解为利用计算机求解问题的难易程度。算法复杂性：算法复杂性是对算法效率的度量，系指运行算法所耗费的
•
度量与度量空间：
设X为非空集合，d: X × X → R，(x, y) → d(x, y)为映射，如果∀x,y,z∈X满足： ① d(x, y) = d(y, x)（对称性）； ② d(x, y) ≥ 0 和 d(x, y) = 0 iff x = y（半正定性）； ③ d(x, z) ≤ d(x, y) + d(y, z)（三角不等式）。则称d为X上的一个度量（距离），偶对（X,d）为度量空间，d(x,y)称为是x与y间的距离。
•函数与变量：算法就是研究各类算法的成本函数及其变量（数据）的数学。 •传统研究算法，重点是研究算法成本函数本身，而不太关注它的计算变量。
•大数据时代，算法不但要研究各类成本函数的属性；还要研究计算对象，
即变量，也就是数据本身的属性
4
1、计算机科学与计算问题分类
(3) 计算机科学的历史演变
计算机科学的形式化研究起源于数学的基础研究： • • Cantor的集合论与Russell悖论：数学家们在集合论中发现了逻辑矛盾 Let R = {x | x ∉ x} then R∈R ↔ R ∉ R Hilbert纲领：即在通用的形式逻辑系统中可以机械地判定任何给定命题的真伪（完备性），证明每一形式系统的相容性，从而导出全部数学的相容性。
(1)计算科学（Computation Science）
•计算理论：研究可计算性与计算复杂性。
•算法：包括数值和非数值算法。算法就是研究求解问题的原理、方法
和步骤，分析算法就是求解算法的成本函数。 •数据结构：就是研究多种数据（串、表、树、图等）的表示、存储和操作方法。数据就是成本函数的变量。
(2)算法定义的数学解释
5
1、计算机科学与计算问题分类
(4) 计算问题分类
计算问题
不可判定问题
可判定问题
难解(不可能)解问题
易解(可解，多项式时间)问题大数据不可解(BDIntractable)问题
不可近似问题
可近似问题
大数据可解(BDTractable)问题
大数据不可近似问题
大数据可近似问题
6
2、计算理论（Theory of computation）
(3) 计算机科学的历史演变 (4) 计算问题分类
2.
计算理论
(1) (2) (3) (4) (5)
可计算性与计算复杂性图灵计算模型串行复杂计算类：P，NP，NPC，NPH 并行复杂计算类：NC，PC 8. 归约
7.
大数据NC计算理论
(1) NCi类的电路定义 (2) NCi类的层次 (3) 大数据NC-类计算
大数据计算理论基础
Computing Theory Foundations of Big Data
陈国良，陆克中，毛睿深圳大学计算机与软件学院
2014年5月
摘要：大数据是当前 IT 信息技术研究和应用的热点。但是，目前的研究多集中于系统和应用层面，理论基础方面的探讨相对较少。本文从计算机科学讲起，以计算复杂性理论为基础，着重研究大数据的计算复杂性（Computational Complexity）和大数据本身的复杂性（Data Complexity）：前者包括大数据统一化抽象表示；大数据划分技术；大数据 NC 类计算理论；大数据计算模式等。后者包括大数据复杂性表示；大数据复杂性度量；大数据复杂性模型等。最后，根据大数据的 4V 特性，提出大数据处理应对策略和变革思维方法研究大数据。
大数据计算模式
(1) (2) (3) (4) 基于MR的流计算流计算实例研究：Storm流计算增量计算
3.
大数据可计算性
(1) 可(能)解与不可(用)解问题 (2) 大数据可(能)解与不可(用)解问题 (3) 数据库查询类的可(能)解与不可(用)解问题
9.
大数据的复杂性
(1) 大数据复杂性表示 (2) 大数据复杂性度量 (3) 大计算复杂性模型
10
2、计算理论（Theory of computation）
11
3、大数据可计算性
(1) 可（能）解（Tractable）与不可（用）解（Intractable）
• • 可（能）解（Tractable: meaning “easily managed” ）问题：经典定义是在多项式时间内可以解决的问题。不可（用）解（Intractable）问题：系指理论上能够解（在无限长时间内），但实际上求解时间太长而无法用的问题。因此缺乏多项式时间解的问题被视为不可（用）解的问题。完全问题不可解性：在P≠NP时，NPC问题是不可（用）解的问题；在P≠NC时， PC问题是不可（用）解的问题。
(1) 可计算性与计算复杂性
• 可计算性：对于一个问题，如果存在一个机械过程，对给定的输入，能够在有限步内给出结果，则称此问题是可计算的。所谓机械的过程，系指在描述计算的某种设备上，实施该计算过程，而给出计算结果。可计算性特征： ◊ ◊ ◊ ◊ • 确定性：对相同的初始输入产生相同的输出。有限性：在有限设备上能在有限时间内求解。构造性：每一计算过程的执行都是“机械的”或“构造性的”。数学描述性：计算的过程可以用严格的数学进行描述。
费了对数多项式时间，则称此算法为NC-算法。 NC-归约形式定义：对于问题L1和L2，如果存在一个NC-算法，可将L1的求解转换成L2的求解，则称L1可NC-归约到L2，简记为L1 ≤NC L2。

e商务文档

大数据计算理论基础[2014-05]

相关文档推荐：