当前位置：文档之家› 基于Python的中文文本分类的实现

基于Python的中文文本分类的实现

ＤＯＩ：１０．１６７０７￣．ｃｎｋｉ．ｆｊｐｃ．２０１６．１２．００３　箍…一缝　一…鸭，…碴～　…，一……　，　一一　ＵＪｌＡ　Ｃ０　Ｐ　ｊＴ鞲鞴　基于Ｐｙｔｈｏｎ的中文文本分类的实现　廖一星，严素蓉　（浙江财经大学东方学院浙江海宁３１４４０８）　【摘要】随着网络技术的迅猛发展，中文文本的自动分类成为了一个重要的课题。文章基于Ｐｙｔｈｏｎ实现了中文文　本的自动分类，实现过程比较简单，分类效果良好。　【关键词】Ｐｙｔｈｏｎ；中文；文本分类；实现　１引言　随着网络和信息技术的迅猛发展，网络上出现的文档越来　越多，数量越来越大，如何对网络上的大量文档进行自动分类，　成为了一个重要的研究方向。　Ｐｙｔｈｏｎ语言是一种简单但功能强大的编程语言，其自带的　函数非常适合处理语言数据＿】ｌ。Ｐｙｔｈｏｎ具有许多特点，使得该语　言在文本分类等计算领域有广泛应用。Ｐｙｔｈｏｎ语言具有良好的　可读性，内置常用的数据结构与算法，丰富和强大的标准库和　第ｊ方庠，以及良好的嵌入扩展与“胶水”能力，使得文本分类　的需求得以顺利实现［２１。　本文基于Ｐｙｔｈｏｎ语言，结合第三方库ｊｉｅｂａ和ｓｋｌｅａｍ库，　实现中文文本的自动分类。　２文本分类　文本分类过程…般包括文本预处理、特征选择、特征权重　计算、训练和分类。下面按照文本分类的过程介绍基于Ｐｙｔｈｏｎ　的中文文本分类的实现。　２．１文本预处理　进行文本分类之前，首先要对文本进行预处理，对于中文　文本分类来说，主要是分词、去停用词。　文本分词可以采用结巴分词（ｊｉｅｂａ）实现。Ｊｉｅｂａ．ｃｕｔ方法可　以实现文本的分词，该方法需要两个输入参数，第一个参数是　需要分词的文本，第二个参数是分词的模式。分词模式有三种：　精确模式、全模式和搜索引擎模式，默认是精确模式，适合进行　文本分析。图１显示了ｉｉｅｂａ．ｃｕｔ方法采用精确模式进行分词的　结果。　）’　（　ｔｅ玳ｔ　幽厦煮挣复蜮师趣黪　托孵漪｛吃糟辑　鹱。　＃秘§濂积也髓髓耀蕊毒谎　艚韶瞧　＇∞ｎ　ｎｔ＿‘咿ｊｉ　－ｃｕｔ（ｅｅｍｔ￣ｏｔ）　：　？　笺ｊｉ：掌　：　《　＃　档　鳗．林　瓤　∞　、　熟　图Ｉ　结巴分词　２．２特征选择　文本分类一个十分关键的问题是特征选择，通过特征选　择，可以在原来几万甚至几十万的特征中挑选出有助于文本分　类的特征，大大降低特征空间的数量，提高文本分类速度和精　度。特征选择一般是采用某种算法对每个特征进行打分，然后按　照分值由高到低排列最后取最高分的一些特征作为特征子集。　文本分类中，通常采用文档频率、互信息、信息增益、Ｘ２统　计量、文本证据权和几率比、期望交叉熵ｌ引等等方法进行特征选　择，它们都是以特征与类别的相关性大小作为特征评价标准　的。Ｓｋｌｅａｍ库提供了ｘ２统计量的特征选择方法。　＃………｛Ｊｌｌ练样本特征向量表示…一…　基金项目：国家自然科学基金（６１５０２４１４）；浙江省自然科学基金（ＬＱ１４Ｆ０１０００６）　・６・　福建电脑Ｉ　２０１６年第１２期　ｐａｔｈ＝”ｓｔｏｐｗｏｒｄｓ．ｔｘｔ”　ｓｔｐｗｒｄｌｓｔ＝ｒｅａｄｓｔｏｐｌｉｓｔ（ｐａｔｈ）　ｖｅｃｔｏｒｉｚｅｒ＝ＣｏｕｎｔＶｅｃｔｏｒｉｚｅｒ（ｓｔｏｐ—ｗｏｒｄｓ＝ｓｔｐｗｒｄｌｓｔ）　ｔｒａｉｎｓｐａｃｅ＝ｖｅｃｔｏｒｉｚｅｒ．ｆｉｔ＿ｔｒａｎｓｆｏｒｍ（ｔｒａｉｎ）　ｔｒａｉｎｓｐａｃｅ．ｖｏｃａｂｕｌａｒｙ＝ｖｅｃｔｏｒｉｚｅｒ．ｖｏｃａｂｕｌａｒｙ——　＃……一ｉ贝０试样本特征向量表示…一…　ｖｅｃｔｏｒｉｚｅｒｔｅｓｔ＝ＣｏｕｎｔＶｅｃｔｏｒｉｚｅｒ（ｖｏｃａｂｕｌａｒｙ＝ｔｒａｉｎｓｐａｃｅ．ｖｏｃａｂｕ—　ｌａｒｙ）　ｔｅｓｔｓｐａｃｅ：ｖｅｃｔｏｒｉｚｅｒｔｅｓｔ．ｆｉｔ＿ｔｒａｎｓｆｏｒｍ（ｔｅｓｔ）　ｔｅｓｔｓｐａｃｅ．ｖｏｃａｂｕｌａｒｙ＝ｔｒａｉｎｓｐａｃｅ．ｖｏｃａｂｕｌａｒｙ　｝｝一……选择Ｋ个最好的特征，返回选择特征后的数　据………　ｃｈ２＝Ｓｅ１ｅｃｔＫＢｅｓｔ（ｃｈｉ２．ｋ＝５０００）　ｔｒａｉｎｘ＝ｃｈ２．ｆｉｔ＿ｔｒａｎｓｆｏｒｍ（ｔｒａｉｎｓｐａｃｅ，ｔｒａｉｎ．１ａｂｅ１）　ｔｅｓｔｘ＝ｃｈ２．ｔｒａｎｓｆｏｒｍ（ｔｅｓｔｓｐａｅｅ）　２．４特征权重　在对文本进行特征选择后，需要对选取的特征赋予一定的　权重，便于区分不同特征对于文档的重要程度。在文本处理领　域中，使用最广泛的权重计算方法是ＴＦＩＤＦ（Ｔｅｒｍ　Ｆｒｅｑｕｅｎ—　ｃｙ＊Ｉｎｖｅｌｓｅ　Ｄｏｃｕｍｅｎｔ　Ｆｒｅｑｕｅｎｃｙ）权重方法。ｓｋｌｅａｒｎ库提供了　Ｔｆｉｄｆｒｒａｎｓｆｏｒｍｅｒ类，可以很方便实现特征权重的计算，下面是实　现代码。　＃………一计算特征权重一…一一　ｔｆｉｄｆｌｒａｎｓｆｏｒｍｅｒ＝ＴｆｉｄｆＴｒａｎｓｆｏｒｍｅｒ（）　ｔｒａｉｎｘ＝ｔｆｉｄｆｔｒａｎｓｆｏｒｍｅｒ．ｆｉｔｔｒａｎｓｆｏｒｍ（ｔｒａｉｎｘ）　ｔｅｓｔｘ＝ｔｆｉｄｆｔｒａｎｓｆｏｒｍｅｒ．ｆｉｔ＿ｔｒａｎｓｆｏｒｍ（ｔｅｓｔｘ）　２．５文本分类　文本分类通常采用基于统计的文本分类方法，主要有贝叶　斯、最近邻方法、支持向量机和最大熵模型等方法。这些方法实　现机制比较简单，文本分类效果良好。本文采用贝叶斯分类器　进行分类。　贝页斯分类器是一种常用的基于概率的有导师分类器，分　类器首先利用已标注的训练集文档训练得到，然后对测试文本　集中的文本，利用已经训『练好的贝叶斯分类器，求出文本属于　某个类别的概率，公式如下所示：　ＪｄＩ　ＪＰ（　Ｉｄ）ｏｃ　Ｐ（９）ＶＩ　Ｐ（Ｗｄ，ｋ　ｌ９）　（下转第ｌ４页）

　～　～…，　…　Ｌ～一　１１　１１　Ｎ…Ｌ一…－～…＾…一……　ＵＪｌＡＮ　ＣＯＭｐＵ－ｆ　鞋鞫　病直接经济负担提供真实、完整的数据。　测算软件主要由三部分构成，一部分是数据获取模块，用　于从ＨＩＳ系统中获取测算所需要的基础数据：第二部分是数据　统计和分析模块，用于实际的直接经济负担测算、统计以及相　关影响因素的分析；第三部分则是外部接口模块，用于为更多　的第三方应用提供访问接口。整个软件的系统结构如图１所　不。　首先测算系统用户发出数据获取操作命令，操作命令中可　能包办需要获取的时间段、病种、患者年龄段、性别、医保等数　据。数据获取模块接收到命令后即从ＨＩＳ数据库中获取相关原　始数据，并将这些数据存于系统数据库中。统计分析模块可以　从系统数据库中获取原始数据进行统计分析，并将统计结果按　照特定的格式存储于数据库中。其他应用程序可以通过外部接　口模块调取数据库中的原始数据以及统计分析结果用于进一　步的测算、分析及研究。　数据获取模块的设计中，首先分析ＨＩＳ系统所使用的数据　库系统如ＳＱＬ　Ｓｅｒｖｅｒ、ｍｙｓｑｌ、ｏｒａｃｌｅ等，另外需要分析各个数据　库表中的字段所代表的含义，从而根据需要建立相关视图，当　需要获取数据时，从视图中提取相应字段组合成所需要的数　据。　数据统计和分析模块中，根据所建立的测算和分析模型及　方法，设计算法，编写代码实现相应的功能，并将测算和分析结　果以友好的界面呈现，同时带有保存和打印等功能。　外部接口模块是为了预留给第三方应用，或者在进一步的　研究中提取前期的结果与数据。因为无法知道第三方应用采用　的平台和编程语言，故采用采用Ｗｅｂ　Ｓｅｒｖｉｃｅ技术实现外部数　据接口。Ｗｅｂ　ｓｅｒｖｉｃｅ是一个平台独立的，低耦合的，白包含的、　（上接第６贞）　基于Ｐｙｔｈｏｎ的朴素贝叶斯训练和分类实现代码如下所示：　ｃｌｆ＝ＭｕｈｉｎｏｍｉａｌＮＢ（ａｌｐｈａ＝０．００１）．ｆｉｔ（ｔｒａｉｎｘ，ｔｒａｉｎ．１ａｂｅ１）　ｐｒｅｄ＝ｃｌｆ．ｐｒｅｄｉｃｔ（ｔｅｓｔｘ）　３实验与结果　实验采用复旦大学数据库中心提供的中文文本分类语料　库，作为训练和测试数据。该数据集包括１０个类别，总共２８１６　篇，其中训练样本１８８２篇，测试样本９３４篇。　３．１评价方法　实验采用准确率和召回率作为文本分类的评价标准。　准确率（Ｐｒｅｃｉｓｉｏｎ），又称为查准率，准确率的数学公式表示　如下：　准确率＝分类正确的文本数／实际分类的文本数　召回率（Ｒｅｃａｌ１）又称查全率，其数学公式表示如下：　召回率＝分类正确的文本数／应有的文本数　ｍｐｒｅｃｉｓｉｏｎ＝ｍｅｔｒｉｃｓ．ｐｒｅｃｉｓｉｏｎ—ｓｃｏｒｅ（ｔｅｓｔ．１ａｂｅｌ，ｐｒｅｄ）　ｍ—ｒｅｃａｌｌ＝ｍｅｔｒｉｃｓ．ｒｅｃａｌｌ—ｓｃｏｒｅ（ｔｅｓｔ．１ａｂｅｌ，ｐｒｅｄ）　ｐｒｉｎｔ＂ｐｒｅｃｉｓｉｏｎ：｛０：．４０　．ｆｏｒｍａｔ（ｍ＿ｐｒｅｃｉｓｉｏｎ）　ｐｒｉｎｔ　ｒｅｃａｌｌ：｛０：０．４ｆ｝　ｆｏｒｍａｔ（ｍ—ｒｅｃａｌ１）　３．２结果与分析　从图２可以看出，基于ｃｈｉ２的特征选择方法以及朴素贝叶　斯分类器分类，可以取得较好的查全率和查准率，查全率和查　准率均在９０％以上。　・１４・　福建电脑Ｉ　２ｏｌ６年第１２　５Ｊ］　基于可编程的ｗｅｂ的应用程序，可使用开放的ＸＭＬ（标准通用　标记语言下的一个子集）标准来描述、发布、发现、协调和配置　这些应用程序，用于开发分布式的互操作的应用程序。Ｗｅｂ　Ｓｅｒｖｉｃｅ技术，能使得运行在不同机器上的不问应用无须借助附　加的、专门的第三方软件或硬件，就可相互交换数据或集成。依　据Ｗｅｂ　Ｓｅｒｖｉｃｅ规范实施的应用之间，无论它们所使用的语言、　平台或内部协议是什么，都可以相互交换数据。　４．结语　本文通过分析疾病直接经济负担的常规测算原理和方法，　提出了将ＨＩＳ与测算软件进行无缝对接的自动化测算系统，使　得疾病直接经济负担的测算更加快速、准确、高效及个性化，为　进一步的分析和应用提供了技术支撑，为企业、医院、政府等机　构进行产品研发、医疗模式改革与创新提供了借鉴和参考。　参考文献：　ｌ　１　ｊＣ．Ｆ．Ｍｕｌｌｅｒ，”Ｅｃｏｎｏｍｉｃ　ｃｏｓｔｓ　ｏｆ　ｉｌｌｎｅｓｓ　ａｎｄ　ｈｅａｌｔｈ　ｐｏｌｉｃｙ，”Ａｍｅｒｉｃａｎ　ｊｏｕｍａｌ　ｏｆ　ｐｕｂｌｉｃ　ｈｅａｌｔｈ，ｖｏ１．７０，ＰＰ　１２４５—６，１９８０一Ｄｅｃ　１９８０．　［２］何敏媚，何闽江，ａｎｄ崔斌，”疾病经济负担研究进展，”中国老年学杂　志，ｖｏ１．３０，ＰＰ．２７００－２７０２，２０１０　［３］Ｏ．Ｓｏｌｌｉ，Ｔ．Ｊｅｎｓｓｅｎ，ａｎｄ　Ｉ　Ｓ．Ｋｒｉｓｔｉａｎｓｅｎ，”Ｄｉａｂｅｔｅｓ：ｃｏｓｔ　ｏｆ　ｉｌｎｅｓｓ　ｉｎ　Ｎｏｒｗａｙ，”Ｂｍｃ　Ｅｎｄｏｃｒｉｎｅ　Ｄｉｓｏｒｄｅｒｓ，ｖｏ１．１０，Ｓｅｐ　２０　２０１０．　［４］Ｂ．Ｓｐａｅｔｇｅｎｓ，Ｊ．Ｍ．Ａ　Ｗｉｊｎａｎｄｓ，Ｃ．ｖａｎ　Ｄｕｒｍｅ，Ｓ．ｖａｎ　ｄｅｒ　Ｌｉｎｄｅｎ，ａｎｄ　Ａ．Ｂｏｏｎｅｎ．’’Ｃｏｓｔ　ｏｆ　Ｉｌｎｅｓｓ　ａｎｄ　Ｄｅｔｅｒｍｉｎａｎｔｓ　ｏｆ　ＣｏｓＢ　Ａｍｏｎｇ　Ｐａｆｉｅｎ￣ｗｉｔｈ　Ｇｏｕｔ，”Ｊｏｕｒｎａｌ　ｏｆＲｈｅｕｍａｔｏｌｏｇｙ，ｖｏｌ　４２，ＰＰ　３３５—３４４，Ｆｅｂ　２０１５．　［５］侯儒寅ａｎｄ高凤清，”疾病经济负担研究方法案例分析，”中国医药导　报，ｖｏ１．０９，ＰＰ．１４６—１４７，２０１２．　［６］金新政，现代医院信息系统：人民卫生出版社，２００９　４结束语　本文利用Ｐｙｔｈｏｎ语言以及第三方库，实现了中文文本的自　动分类，由于ｓｋｌｅａｒｎ库的强大功能，文本分类过程实现比较简　单，文本分类效果良好。　参考文献：　［１］韦文娟，韩家新，夏海洋．基于Ｐｙｔｈｏｎ自然语言处理的文本分类研究　［Ｉ］．福建电脑，２０１６，０７，４—５．　［２］孙强，李建华，李生红．基于Ｐｙｔｈｏｎ的文本分类系统开发研究［ｎ计　算机应用与软件．２０１１，３．１３—１４．　［３　ＪＲ０海峰，姚泽清，苏展．基于词频的优化互信息文本特征选择方法［１］．　计算机工程．２０１４．７（４０）．１７９—１８２．

e商务文档

基于Python的中文文本分类的实现

相关文档推荐：