基于SVM的中文文本分类方法_svm 中文短文本分类百度百科与训练-程序员宅基地

技术标签: 机器学习  c语言  中科院  SVM  中文文本  文本分类  

基于SVM的中文文本分类方法

1、文本分类简介

文本分类(Text Classification)是将文本文档与规定好的类别进行匹配的过程。文本分类可以分为训练和分类两个阶段,其对应的流程图如下面的图1.1和图1.2所示:

图1.1 文本分类的训练阶段

 

图1.2 文本分类的分类阶段

训练阶段使用训练集构造文本分类器,分类阶段就使用训练好的分类器对需要分类的文本进行分类处理。从图1.1和1.2可以得出训练和分类阶段的处理除了最后一步不相同,其他的处理步骤完全相同。最后一步是由具体的分类算法来处理,训练阶段分类算法使用输入的数据进行分类器构建的工作,否则调用训练好的分类器进行分类处理。

2、中文文本预处理

中文文本预处理包括中文分词和去停用词两个过程。

中文分词,指的是对一个用汉语表达的语句,分析其包含的有意义的词或词组,最后把这些词从中文语句中提取出来,这样原来的中文语句变成一个个单独的词。常见的文本文档分类方法,进行分类通常都是基于文本文档包含的“词”的各种信息进行的,这是因为,在文本文档中,词是最小的且能够反映文档所包含信息的有意义的语言构成成分,同其他语言的文字相比,中文文本的最小单元句子,其所包含的词或词组没有像其他语言那样有空格隔开。

去停用词,一般是指文本中出现频率很高,但实际意义又不大的词,如常见的“的”、“在”、“和”、“接着”之类,还有一些是使用过于频繁的单词,如“我”、“就”、“啊”和“吧”等等,还有各种的标点符号,这些词都必须去除掉,避免分词后有过多的干扰。

目前,中文分词实现的技术有:词典匹配、统计分析和语义分析三类。词典匹配分词方法首先将文本划分成一个个的句子,然后按照正向最大匹配或逆向最大匹配或正向、逆向相结合的匹配策略将待分词的句子与一个已存在的分词词典中的词条进行匹配,匹配成功则正在匹配的句子是一个词,否则不认为是一个词。该方法实现较简单,存在的缺点是不能较好的识别出字典中不存在的新词。统计分析分词方法按照语料库中的词频信息对中文文本进行分词,其根据是语句中那些相邻的字同一时间出现的次数越多,它们就越有可能是一个词语。这种方法能避免传统的基于字典进行分词处理不能识别出那些虽然不在词典但是其意义上是一个词的现象的出现,尤其是人名、地名、机构名和不断产生的新词。语义分析方法要让计算机能够理解人类的语言需要涉及大量复杂的训练和计算,实现起来比较困难,因此该方法还处于试验阶段。

市面上已有的分词系统有多种,如中科院的ICTCLAS 分词、结巴分词。中科院的ICTCLAS 分词系统充分利用了词典匹配、统计分析这两种分词方法的优点,既能发挥词典匹配法分词速度快、效率高的特点,又能利用统计分析法结合上下文识别新词、消除歧义的优点。最重要的是,它开源不要钱(但是会每个月过期一次)。结巴分词分词效果也很不错。

3、特征选择

文本预处理后以特征项集合的形式存在,此时特征项集合中的特征项数量非常的多,若直接处理这些特征项,计算时的时空开销太大。另外,特征项集合中的大量的特征项的类别区分度其实很低,可以说对分类基本没有任何贡献。因此需要对特征项集合进行降维处理,即特征选择。把那些分类能力强的特征项留下,去掉分类能力很弱的特征项。

特征选择的思想为:通过构造一个评估函数对特征项集中的所有特征项进行评估,然后按照评估值降序排序,根据设定的阈值或特征项数目的要求选择前面的那些特征项。

目前,常见的特征选择方法有十多种,如互信息方法、期望交叉熵方法、文本证据权重方法、信息增益方法、χ2统计量方法(开方检验方法)等。

þχ2统计量(开方检验)

χ2统计量(chi-square distribution,CHI),又名开方检验。

它进行特征选择的思想为:假设特征项 t 和类别 Ci之间符合一阶自由度的χ2分布,特征项 t 对于类别 Ci的χ2统计值越高,特征项 t 和类别 Ci的相关性越强,类别区分度越大,反之的类别区分度越小,

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Ilovesummer1991/article/details/73293869

智能推荐

HQL查询详细语法讲解_hqlun-程序员宅基地

文章浏览阅读616次。HQL查询HQL查询:Criteria查询对查询条件进行了面向对象封装,符合编程人员的思维方式,不过HQL(Hibernate Query Lanaguage)查询提供了更加丰富的和灵活的查询特性,因此Hibernate将HQL查询方式立为官方推荐的标准查询方式,HQL查询在涵盖Criteria查询的所有功能的前提下,提供了类似标准SQL语句的查询方式,同时也提供了更加面向对象_hqlun

第10章 指针(五) 使用地址-------指针的引用-程序员宅基地

文章浏览阅读43次。提纲:1、间接访问变量的指针运算符*2、野指针和空指针3、变量的指针表示:a、用指针引用普通变量b、用指针引用数组及其元素c、函数间传递指针:指针参数和返回值4、指针变量的引用和定义的区别5、存储指针的书写问题6、&*和*&7、变量用指针表示后 ,进行+ - * / 运算时,有必要加( )...

java通过opencv解析二维码(微信开源解码工具)_opencv java 二维码识别-程序员宅基地

文章浏览阅读1.5k次,点赞2次,收藏7次。微信开源了其二维码的解码功能,并贡献给 OpenCV 社区。其开源的 wechat_qrcode 项目被收录到 OpenCV contrib 项目中。从 OpenCV 4.5.2 版本开始,就可以直接使用。以往java解析二维码都是使用google.zxing,但是zxing解析二维码的成功率比较低,很多美化或者个性化的二维码无法解析。以上依赖用于windows系统 如果要发布到liunx系统把windows-x86_64改成liunx-x86_64。_opencv java 二维码识别

nodejs安装与卸载(高版本降为低版本)_nodejs卸载-程序员宅基地

文章浏览阅读1.2w次,点赞14次,收藏81次。初到公司发现电脑上面已经安装nodejs,但是版本是最新版本。但是问题来了,好像是不太支持vue3,所以查了一些资料,具体的也不是很清楚,反正就是nodejs的版本不能太高最好保持在16以下。好吧,那就重新卸载再来安装nodejs吧。_nodejs卸载

IPU(Image Processing Unit )-程序员宅基地

文章浏览阅读3k次,点赞2次,收藏11次。Chapter 38 Image Processing Unit (IPU)38.1 概述IPU计划成为应用程序处理器中的视频和图形子系统的一部分。IPU的目标是为从图像传感器和/或到显示设备的数据流提供全面支持。这项支助包括这些活动的所有方面:连接到相关设备-摄像机,显示器,图形加速器,电视编码器和解码器。相关图像处理与操作:传感器图像信号处理、显示处理、图像转换等。..._image processing unit

小程序 | 基于WAMP的新闻网小程序开发(体验全栈式开发微信小程序)_微信小程序能不能用wamp-程序员宅基地

文章浏览阅读2k次。之前学习微信小程序开发,主要是基于JS、WXML、WXSS的前端开发,对于后端技术不精的我也是使用了微信开发者工具中的云开发功能,但是今天突发奇想,特别想体验一下全栈式开发微信小程序,学习了一下基于WAMP的新闻网小程序开发。文章目录一、前端(实现小程序界面)1.1 index页面1.2 my页面二、后端(搭建本地服务器)2.1 安装phpStudy工具连接数据库2.2 使用Navicat数据库工具连接数据库2.3 配置phpStudy搭建本地服务器2.4 进一步配置.php文件实现核心功能三、连接前._微信小程序能不能用wamp

随便推点

SpringCloud集成Nacos作为配置中心_to enable urls as dynamic configuration sources, d-程序员宅基地

文章浏览阅读471次。我们在搭建自己的微服务的时候,可以选择使用eureka作为我们微服务的注册中心,使用nacos作为微服务的配置中心,接下来我们可以看下具体的搭建过程:(以下过程只展示Spring Cloud + Nacos的搭建过程,至于集成eureka的可以另行查找具体对接流程)_to enable urls as dynamic configuration sources, define system property arch

51nod1770: 数数字(模拟)_hiho1770 单调数-程序员宅基地

文章浏览阅读231次。1770 数数字基准时间限制:1 秒 空间限制:262144 KB 分值: 20 难度:3级算法题 收藏 关注统计一下 aaa ⋯ aaan个a × b 的结果里面有多少个数字d,a,b,d均为一位数。样例解释:3333333333*3=9999999999,里面有10个9。_hiho1770 单调数

Kail Linux使用aircrack-ng破解WiFi_aircrack-ng握手包-程序员宅基地

文章浏览阅读1k次,点赞2次,收藏13次。Kail Linux使用aircrack-ng破解WiFi前言: 闲着无事,就自己开了个热点打算自己破解以练习kali Linux 和 Linux 的使用 准备:将准备好的无驱无线网卡接入kali虚拟机1.查看无线网卡是否接入成功 命令: iwconfig2.启动无线网卡监听模式 命令:airmon-ng start wlan..._aircrack-ng握手包

docker_73720353-63a5-41bf-b66e-78d8e49153b8-程序员宅基地

文章浏览阅读4.7k次。Docker是一个基于go语言遵从apache2.0协议开源的LXC的高级容器引擎(底层技术是Linux Container,docker只是管理底层的工具),并通过namespace、cgroup等来提供容器的资源隔离与安全保障等。Docker 最早采用 LXC 技术 (LXC 是 Linux 原生支持的容器技术,是一种内核虚拟化技术,可以提供轻量级的虚拟化,LXC将Linux进程沙盒化,使进程之间相互隔离 ),可以说docker 就是基于 LXC 发展起来的。_73720353-63a5-41bf-b66e-78d8e49153b8

【00】机器学习之旅-启程_机器学习 just in time learning-程序员宅基地

文章浏览阅读593次。【00】机器学习之旅启程 Machine Learning Roadmap【开始我的机器学习之路,感兴趣,就慢慢学,就在CSDN建立自己学习旅程】指南:Learning guideStreamlined guideinformation filterScope:Focus your scope on classification and regression t_机器学习 just in time learning

常见的病毒及其特点-程序员宅基地

文章浏览阅读2k次,点赞3次,收藏11次。常见计算机病毒的分类: (一)按寄生方式分为引导型、病毒文件型病毒和复合型病毒 引导型病毒是指寄生在磁盘引导区或主引导区的计算机病毒。此种病毒利用系统引导时,不对主引导区的内容正确与否进行判别的缺点,在引导型系统的过程中侵入系统,驻留内存,监视系统运行,待机传染和破坏。按照引导型病毒在硬盘上的寄生位置又可细分为主引导记录病毒和分区引导记录病毒。主引导记录病毒感染硬盘的主引导区,如大麻病毒、2708病毒、火炬病毒等;分区引导记录病毒感染硬盘的活动分区引导记录,如小球病毒、G

推荐文章

热门文章

相关标签