当前位置:文档之家› 文本挖掘在科研上的应用 复习资料

文本挖掘在科研上的应用 复习资料

1.数据挖掘(data mining):在数据集中正规地发现有效的、新颖的、可能有用的、可读懂的模式的过程。

2.数据挖掘的十大经典算法:C4.5、PageRank、k-Means、AdaBoost、SVM、kNN、Apriori、Naive Bayes、EM、CART。

3.数据挖掘对过程与方法的要求:1.正规:正式的、正经的,不是不经意的、偶然的;不是手工完成的:不是写综述,也不是meta分析2.新颖:发现隐含的知识,发现的模式必须是新的。

3.可能有用:可以用于增进人类认识的知识,发现的知识将来有实际效用。

4.关联规则挖掘:从事务数据库、关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。

5.数据挖掘的种类:按照算法,分为预测和描述两类:1.预测:利用数据库中已有的变量来预测未知或将来的数值。

利用建模技术,对患某一种疾病的病人预测其预后情况。

2.描述:注重发现能够描述数据的模式,提供给用户解释和表述。

对数据中的模式或关系进行辨别,探索已有数据的性质,而不是预测新的性质。

按照挖掘对象分为:结构化数据挖掘、非结构化数据挖掘1.结构化数据挖掘:医院病人的数据库,商场顾客购物数据;空间数据:地图、医疗影像数据2.非结构化数据挖掘:文本:学术论文、专利、科技报告等;Web信息。

6.Apriori算法:基于两阶段频集思想的递推算法。

:找出候选1-项集、频繁1-项集、候选2-项集、找出频繁2-项集、重复上述过程,直到不再有候选项集为止。

规则评价指标:最小支持度、可信度;支持度:包含X和Y的事物所占的比例;置信度:Y中的项在包含X 的事物中出现的频繁性。

7.PageRank:一篇论文的被引的频度——即被别人引用的次数越多,一般判断这篇论文的权威性就越高。

PageRank算法的理念:每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。

同时考虑到一个网站的外部链接的质量。

基本思想:如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。

A的PageRank值为一系列T的页面重要性得分值的累加。

8.文本挖掘的定义:一般是指抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。

运用工具和算法,在数据中发现模式和规律。

(聚类分析、关联分析、网络分析)9.文本挖掘的意义:文献量激增;人们日常生活中所接触到的信息有80%左右是以文本的方式存在的,更具有潜在的商业和科学价值;计算机技术提供了解决之道:文本挖掘10.文本挖掘的医学应用:1.基因组和基因的表达注释:利用文本挖掘方法来解释基因和蛋白质列表,并评估它们在通路、细胞类型和疾病上的功能。

2.发现药物靶点:文本挖掘在发现药物靶点的应用,侧重于理解基因在疾病发生和发展中的作用:在疾病进程中扮演关键角色的基因可能是药物治疗干预的候选靶标。

3.发现老药新用:在药物发现中,文本挖掘已经是成型的技术,可以在文献中自动地发现基因如何与疾病联系以及这些基因如何参与到药物作用中的信息。

4.发现药物副作用:籍由药物的副作用描述推论出具有相同靶点的药物:用UMLS抽取药品说明书中的药物副作用,并对其分类具有相似副作用谱的药物与已知分子靶点的药物分成一类通过实验验证了新的药物-靶点关系。

5.挖掘电子健康档案:电子健康档案除了具有存贮信息的功能,其存贮的数据可以再利用(于文本挖掘):检索上市药物的副作用信息和药物相互作用信息;建立新的病人分层原则;显现未知的疾病间联系;将HER数据与遗传数据集成到一起,更好地理解基因型和表型间的关系。

6.构建专门数据库。

11.文本挖掘的流程:1.选择:根据某种标准选择或者切分数据。

2.处理:包括清除和充实。

3.转换:删除记录,类分数据,改变格式等等。

4.数据挖掘:运用工具和算法,在数据中发现模式和规律。

5.解释与评价:将发现的模式解释成为可以用于决策的知识12.文本挖掘的主要任务:自然语言处理;命名实体的识别;关系抽取;文本分类和聚类。

13.BICOMB具有如下功能:1.抽取书目数据中特定字段的内容,如作者、期刊名、标题、发表年代、引文等;2.统计相应字段的出现频次;3.按照一定的阈值截取高频条目后,形成共现矩阵和条目-来源文献矩阵(如词-篇矩阵);4.输出高频条目和矩阵。

14.关键字节点类型有如下4种:(1)多值单行,指该字段内关键字有多个取值,均位于同一行,各个值之间以分隔符区分。

(2)多值多行,指该字段的关键字有多个值,但是每个值占一行,无分隔符。

(3)单值单行,指该字段仅有一个值,这个值也仅占一行。

(4)单值多行,该字段只有一个值,但是其内容较多,长度超过一行。

15.聚类分析(Cluster Analysis):将数据集划分为若干个组或类的过程,并使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象不相似。

16.聚类分析的目的:(分析步骤:1.BICOMB得出某专题论文的高频主题词(高被引论文)的词篇矩阵。

2.将孤立的高频词(高被引论文)进行成对或成组分析,总结专题研究热点(发展脉络)。

3.利用词篇矩阵,根据高频词(高被引论文)在论文中的共现关系进行聚类分析。

)高频主题词的词篇矩阵聚类分析的目的:1.两个主题词在一篇文章中的共现次数,能够表明两主题词之间的关系密切程度。

2.通过聚类分析将专题重要词汇(高频主题词)进行归类,从而分析总结当前研究的热点。

高被引论文的词篇矩阵聚类分析的目的:1.两篇论文同被引的次数,能够表明两篇论文之间在内容上的相关程度。

2.聚类分析将专题重要论文(高被引论文)加以归类,反映出该学科研究发展的大致轮廓。

17.聚类分析的算法1.基于划分的方法(partitioning method):也称为动态聚类法,非系统聚类法。

给定需要划分的个数k,划分方法创建一个初始划分;然后利用反复迭代来改变分组,即通过移动不同组中的对象来改变划分质量。

优点:占有内存小、计算量小、处理速度快,特别适合大样本的聚类分析。

代表:K-平均算法:每一个类用相应聚类中对象的均值来表示。

2.基于层次的方法(hierarchical method)(广泛使用):也称为系统聚类法。

通过分解给定的数据对象集创建一个层次,直到满足某种条件为止。

优点:不必设定划分的组数,结果具备确定性。

2.1自底向上(凝聚法):从每个对象均做为一个单独的组开始,逐步将这些组进行合并,直到组合并在层次顶端或满足终止条件为止。

2.2自顶向下(分裂法):从所有对象均属于一个组开始,每一次循环将其组分解为更小的组,直到每个对象构成一组或满足终止条件为止。

18.聚类结果的影响因素:1.矩阵类型:共词矩阵从一定程度上而言是一种相似(相异)矩阵,而词篇矩阵是二值(0,1)矩阵。

词篇矩阵是比共词矩阵更为原始的数据矩阵。

建议使用词篇矩阵。

2.相关系数:Pearson相关系数要求矩阵数据服从正态分布,且至少在逻辑范畴内必须是等间距的。

Cosine系数与ochiai系数原理相同,区别:ochiai系数一般应用于二值(0,1)矩阵,余弦系数一般用于距离矩阵(连续变量)。

Spearman系数对原始变量分布不作要求。

3.类间距离计算方法:词篇矩阵,可优先考虑平均距离法(组内或组间联接法)、最小距离法;19.传统聚类方法的局限:1.传统聚类不能适用于类群界限相互渗透的数据2.传统聚类很容易忽视系统的多样性以及多元因素的非线性20.双向聚类的概念:对数据的行和列同时进行聚类,可同时使用对象及其属性来提取它们的联合信息。

21.双聚类的原理:给定矩阵A,确定多个子矩阵B,每个B满足特定的一致性。

22.双聚类与传统聚类的区别:传统聚类双聚类类的内容一个单向类(cluster)必须包括矩阵的所有行或所有列一个双聚类对应的是行和列的任意子集允许类间重叠不允许:即不允许某对象或属性属于多个类允许聚类结果约束有:所聚类对象必须分配入一个且只能一个类中无预先约束:所聚类对象可以属于多个类,也可以不在任何类中23.高频词聚类结果解读的基本原则是什么?依据凝聚聚类原理,“自下而上”、“自小而大”24.影响聚类结果分析的因素有哪些?检索策略的确定;高频项目阈值;聚类方法选择;类目数目的确定;类团标签的确定。

25.如何更有效地解读高频被引文献同被引聚类分析结果?类团解读;原则:“先高后低”,结合代表性较高的来源文献(施引文献)。

其主观性强,受制于分析者专业知识和逻辑推理能力26.战略坐标的原理:是在共词矩阵和聚类的基础上,用于描述某研究领域内部的联系情况和领域间相互影响的情况,进一步分析某学科各研究热点的发展阶段。

27.密度:量度各个类别之内的主题词的紧密程度,它表示该类维持自己和发展自己的能力。

28.向心度:量度各个类别主题词与其他类别主题词之间的紧密程度。

表示一个学科领域和其它学科领域的相互影响的程度。

29.战略坐标的意义:第一象限:核心成熟;2:周边成熟;3:周边不成熟;4:核心不成熟。

30.战略坐标的计算方法:根据各篇论文的发表时间,计算每一个类别的平均发表时间,以此反映该类别研究主题的平均年龄,称其为新颖度。

根据各篇论文被引次数,计算各个类别的平均被引次数,以此反映该类被收到关注的程度,称其为关注度。

以全部论文的平均发表时间和被引次数为原点,以各个类别的新颖度和关注度为横轴和纵轴,绘制出普通外科学领域的引文战略坐标。

相关主题