当前位置:文档之家› 网络信息的体系结构

网络信息的体系结构

– 中华人民共和国:250万种 – 中华民国(1911-1949):15万种 – 中国古籍(1911年前):10多万种 – (上述三个数据由王益明教授提供)
学习 教程 教材 多媒体课件【友情
4
分享】GOOD GOOD STUDAY,
2019年学生的“表现”(总体)
• 第一次课,40人;最后参加考试,30人
“网络文本知识计算机”
• 假设1:
– 我们能得到所有的Web数据(网页,大型搜索 引擎的查询日志),集中组织存贮,每天不断 积累,永远不删除
– 支持证据:我们Web InfoMall每天在以百万网页,20万日志增加
• 假设2:
– 很多人发现这是一个巨大的“金矿”,纷纷来 索要数据(“矿石”),拿回去进行分析和挖 掘
– 目标:构建更加和谐的社会
学习 教程 教材 多媒体课件【友情
14
分享】GOOD GOOD STUDAY,
利用计算机技术,通过网络信息 进行社会科学研究框架
• 考虑这种想法的实现,我们提出一种支持 人们开发社会科学研究系统的基础设施:
学习 教程 教材 多媒体课件【友情
15
分享】GOOD GOOD STUDAY,
学习 教程 教材 多媒体课件【友情
10
分享】GOOD GOOD STUDAY,
信息与生俱来的数字化、网络化
• 想想“数字图书馆”的困难:将原来“海 量”的纸质内容数字化!
– 扫描,去噪,OCR,建立元数据,…
– 人工费:5毛钱一页;
– 时间:??
– 还有版权问题
• 网页,一台PC机,一天可以搜集1000万篇; 不要扫描,不要OCR
人们对网络不同层次的研究
• 内容层(content)
– 不同类型内容的识别,出现与消失的规律,它 们在时空上的分布
– 目标:民情、社情预报 – 成果形式:SCI论文,SSCI论文,政策建议
• 反映层(reflection)
– Web的演进和社会演进之间的互动关系,Web 信息对社会现实的反映和影响
5 0
60+
人数
65+
70+
75+
80+
学习 教程 教材 多媒体课件【友情
分享】GOOD GOOD STUDAY,
85+
90-94
6
课程目的
• 介绍大规模搜集与处理Web信息的方法与 技术
– 大规模 – 搜集 – 处理(消重,去噪,分类,聚类,分析,过滤,
信息检索,信息提取,信息挖掘) – 方法与技术
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval. Addison Wesley, 2019. (MIR),有中文译本卖。
• 论文等其他材料
学习 教程 教材 多媒体课件【友情
23
分享】GOOD GOOD STUDAY,
“浏览一遍Web”:何为理解?
• • • •
有网哪哪哪站些些些与人单网 网 物 位站 站 出 (, 之 现 机它 间 得 构们的最,分关多公别系(司进 将 联是()t一 这 起op什链出步 种 来1么接现0地 理 (0性,得0, 解 此)质性最如 在 时质多果时需异同我间要)们轴“还上增能关量
• 有哪些重要事件(频繁理报解道”),从而理解所花的
– 提供一个可以用程序访问它们的环境(语言+ 运行支持)
– 让这样的程序能在客户端开发与运行(当然需 要服务端的配合)
• 这就是:制造工具的机床;加工半成品的 工厂
• 这样的计算机只有一台!
学习 教程 教材 多媒体课件【友情
18
分享】GOOD GOOD STUDAY,
How fast can we understand the Web content ?
• 课程网站
– To be announced
学习 教程 教材 多媒体课件【友情
22
分享】GOOD Pierre Baldi, Paolo Frasconi, and Padhraic Smyth, Modeling the Internet and the Web, probabilistic methods and algorithms. John Wiley, 2019.(MIW)
• 两周之后不能退课
学习 教程 教材 多媒体课件【友情
24
分享】GOOD GOOD STUDAY,
本次课小结
• Web,不仅已经成为人们生活和工作的工
具,本身还是一个广袤、深邃、生机勃勃 的研究对象
• 从学术上讲,关于Web的研究才刚刚开始, 有志者前面是一大片尚未开垦的空间
• 结构,结构带来的语义;信息,信息带来 的知识
学习 教程 教材 多媒体课件【友情
7
分享】GOOD GOOD STUDAY,
课程主要内容
• 大规模处理Web信息的意义 • Web信息的特点 • 常用方法与技术 • 应用 • 挑战
学习 教程 教材 多媒体课件【友情
8
分享】GOOD GOOD STUDAY,
关于社会信息
学习 教程 教材 多媒体课件【友情
19
分享】GOOD GOOD STUDAY,
“看完”:达到了某种程度的理解
• 有哪些主要人物
• 涉及到哪些主要场景
• 发生过哪些主要事件
• 人物与人物的关系
• 事件与事件之间的关系(偏序)
• 人物在事件中的作用
• 寓有哪些思想与哲理
•…
学习 教程 教材 多媒体课件【友情
20
分享】GOOD GOOD STUDAY,
网络信息体系结构
Web-based Information Architectures
研究生课程 北京大学信息科学技术学院
2019年,秋
学习 教程 教材 多媒体课件【友情
1
分享】GOOD GOOD STUDAY,
这一讲(概论)内容提要
• 这门课的由来和“历史”
• 课程目的
– 大规模搜集、分析与处理Web信息的方法与技术
• 网页层(HTTP/HTML)
– 规模的成长,网页、网站之间的互连关系,各种随机 现象
– 目标:作为一个大尺度复杂系统(生态系统,自然系 统),探索其中的物理规律
– 成果主要形式:在Nature,PRL,PNAS等杂志上发表 论文
学习 教程 教材 多媒体课件【友情
13
分享】GOOD GOOD STUDAY,
• 课程主要内容
– 大规模处理Web信息的意义
– Web信息的特点
– 常用方法与技术
– 应用
– 挑战
• 课程的组织与安排
学习 教程 教材 多媒体课件【友情
2
分享】GOOD GOOD STUDAY,
课程的由来
• 2019年秋,我们实验室开始建设“中国 Web信息博物馆”,2019年1月18日第一 批数据上线。
• 2019年秋,遇到Kahle Brewster,知他从 2019年开始就建了“Internet Archive”。
• 2019年1月,在印度遇到CMU的Jaime G. Carbonell教授,一起参加“中美百万册图 书”项目讨论,他讲正在上一门课
– Web-based Information Architectures
• 于生俱来的数字化,在带来“海量”的同 时也带来了“方便”。
• “大规模”和“噪音”是主要困难和挑战
所在
学习 教程 教材 多媒体课件【友情
25
分享】GOOD GOOD STUDAY,
– 做Web信息分析和挖掘都需要切词、分类、去 噪等,也许还要某些复杂工具
• 我们来提供工具,或者提供比“矿石”高 级一些的“半成品”如何?
学习 教程 教材 多媒体课件【友情
17
分享】GOOD GOOD STUDAY,
“网络文本知识计算机”
• 进一步超越
– 将Web InfoMall数据以多种便利访问的方式组 织起来
课程的要求
• 背景知识要求
– 高等数学,线性代数,概率论和统计 – 熟练的程序设计(C, Java),Web知识 (浏览器,
HTML,HTTP,MIME,CGI,等),最好有一定的 Web编程经验
• 成绩构成
– 读书报告,20% – 作业和项目(homework & course project),40% – 期末考试,40%
– 支持证据:到目前为止,已有10多家单位从我们这里拿去了数据
学习 教程 教材 多媒体课件【友情
16
分享】GOOD GOOD STUDAY,
我们还能干什么?
• 也跟别人一样,在制造金矿的同时也开采 金子 — 当然有得天独厚的条件
• 但我们认识到
– 开采金子都需要榔头、小镐、气钻等,也许还 要某些大型矿山机械
9
分享】GOOD GOOD STUDAY,
人们在做的事情
• 书籍的数字化:例如“百万册图书”项目,形形 色色的数字图书馆项目
• 报纸的OCR:据说四川有一个公司投资,每天买 来全国所有报纸,扫描、识别、存档…
• 互联网信息:与生俱来的数字化、网络化
– 使得工作的群众性更强,一个小组就可能做出很了不 起的事情
• 哪个网站最先报道某一时特间定必事须件少(于top增1量00周)期),
• 人物在事件中出现的情能况够展开事件发展的过程,
• 单位在事件中出现的情预况测事件发展的趋势,会 • 事件与事件之间的关系是(一引个用什,么前境因界后果?)
• 从内容上看,有哪些网页类型,出现的比例如何
•…
如果我们说:20天学能分习享达教】到程GO上教O材D述多G程O媒O度体D课S的件TU理【D友A解Y情, ,是不是很了不起? 21
相关主题