新闻文本分类(朴素贝叶斯)_leofionn的博客-程序员秘密

技术标签: python  文本分析下的量化金融  

读取20类新闻文本的数据细节

# 从sklearn.datasets里导入新闻数据抓取器fetch_20newsgroup
from sklearn.datasets import fetch_20newsgroups
# 与之前预存的数据不同,fetch_20newsgroup需要即时从互联网下载数据
news = fetch_20newsgroups(subset='all')
# 查验数据规模和细节
print len(news.data)
print news.data[0]

20类新闻文本数据分割


# 使用sklearn.model_selection里的train_test_split模块用于分割数据
from sklearn.model_selection import train_test_split
# 随机采样25%的数据样本作为测试集
X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)

使用朴素贝叶斯分类器对新闻文本数据进行类别预测

# 从sklearn.feature_extraction.test里导入用于文本特征向量转化模块
from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer()
X_train = vec.fit_transform(X_train)
X_test = vec.transform(X_test)

# 从sklearn.naive_bayes里导入朴素贝叶斯模型
from sklearn.naive_bayes import MultinomialNB
# 使用默认配置初始化朴素贝叶斯模型
mnb = MultinomialNB()
# 利用训练数据对模型参数进行估计
mnb.fit(X_train, y_train)
# 对测试样本进行类别预测,结果存储在变量y_predict中
y_predict = mnb.predict(X_test)

对朴素贝叶斯分类器在新闻文本数据上的表现性能进行评估

# 从sklearn.metrics里导入classification_report用于详细的分类性能报告
from sklearn.metrics import classification_report
print'The accuracy of Naive Bayes Classifier is', mnb.score(X_test, y_test)
print classification_report(y_test, y_predict, target_names=news.target_names)

输出结果

遇到的问题

fetch_20newsgroups 数据集导入失败: no handlers could be fetch_20newsgroups

处理办法

下载20news-bydate.pkz, 放到C:\Users[Current user]\scikit_learn_data 文件目录就可以

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_36142114/article/details/81260020

智能推荐

NXP QN9020_afxyr88622的博客-程序员秘密

NXP的这个BLE蓝牙方案也很有趣, 一起研究.这个函数在app_gpa_task.c里面***************************************************************************************** @brief Handles create connection request complete e...

The last packet sent successfully to the server was 0 milliseconds ago. 解决办法记录_apachesolr的博客-程序员秘密

最近与第三方对接数据的时候,通过jdbc链接对方提供的数据库,总是提示一下错误 Exception in thread "main" com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failureThe last packet sent successfully to the server was 0 milliseconds ago. The driver has not received

天梯赛题目1_Aime1007的博客-程序员秘密

天梯赛刷题记录L1-019 谁先倒L1-019 谁先倒甲、乙两人的酒量(最多能喝多少杯不倒),没注意到是喝多少杯不倒。。。a、b来表示甲乙,1、2来来表述属性,以免混乱。

微信h5唤醒App_渣工的博客-程序员秘密_微信h5唤起app

继上次写完h5跳转小程序后,又有需求,需要通过h5跳转app,为App引流,于是乎又来了!本以为有了之前的经验会蛮顺利的,结果还是有意想不到的问题。就记录一下吧。首先还是和小程序一样的步骤,配置安全域名等,这次问到了相关的配置内容,公司的app是ios和Android两个版本,共同隶属一个公众号(服务号),这里很重要,一定要和运营的同事搞清楚,你们的两个版本App的Appid绑在那个公众号下(下面会有图说明),这次的主要问题就是这里,对接的同事没有沟通好,导致很长时间无法通过config验证。浪费了好几

ocpc php,研发相关 · 百度 oCPC 开发者文档_满洲第一奇男子的博客-程序员秘密

1. 对接搜索推广,如何进行API联调?对接搜索推广,请在开发者中心进行API接口联调2. 对接信息流推广,如何进行API联调?对接信息流推广,可在信息流推广后台新建「API线索类-转化追踪」后,进行接口联调。3. API联调状态一直是联调等待或联调失败,应该如何排查?首先请排查API接口是否正确调用,返回status字段(状态码)为0,表示上传数据成功;其次,请排查是否回传了正确的logidUr...

基于po模式改造用例_harrain的博客-程序员秘密

Page Object模式以页面为单位组织封装, 隐藏实现细节; 可读性提高, 减少findElement,click代码, 页面发生变化修改对应page,不影响整体用例原则:公共方法代表UI功能同样的行为不同结果可设计为不同的方法方法返回Page Object或者用于断言的数据不在方法内加断言不要暴露UI元素给外部不需要建模所有UI元素解读:以页面为单位组织封装, 页面发生变化修改对应page,不影响整体用例。UI元素定位及交互细节封装在方法内, 用公共方法代表UI功能,提

随便推点

记一次ReadTimeout—抓包过程_e_shi_yi_p_l的博客-程序员秘密

背景:之前一直对ReadTimeout ConnectTimeout 没有详细探究,直到一次遇到了这种场景,之前好好的接口、突然发生 ReadTimeout一顿操作,什么 telnet ,curl -v ,ping 都通猜测—难道是网络层面出啥问题了?抓包看看,吐血1、准备工具yum install tcpdump2、执行命令找到网卡 //ip add1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNO

Python 全栈系列92 - memos的字段设计_yukai08008的博客-程序员秘密

说明我希望可以方便的增删改一些事件,可以定期或者周期性的提醒我,或者给我发报告。之前已经通过flask, flask_apscheduler, mongo, datatables 构建了定时任务服务、数据库服务、表格数据交互等功能。内容1 功能定义事件有id, 名称,描述,任务类型(函数), 功能参数(某个离散的值),执行类别(一次性,周期性),起始时间,终止时间,激活状态,通知方式(邮件、短信)。2 具体的字段字段名作用合法值示例(不区分大小写)memo_id唯一主键

语音识别框架之wenet_语音不识别的博客-程序员秘密

环境配置https://github.com/wenet-e2e/wenetgit clone https://github.com/wenet-e2e/wenet.git # 克隆源码AIShell 教程我们提供了example/aishell/s0/run.sh关于 aishell-1 数据的配方配方很简单,我们建议您手动逐个运行每个阶段并检查结果以了解整个过程。cd example/aishell/s0bash run.sh --stage -1 --stop-stage -1bas

IPAM 开源IP地址管理系统部署_牛牛Blog的博客-程序员秘密_ipam

今天给大家推荐一款开源的IPAM(IP Address Management)管理系统,主要解决企业内部的IP地址管理数字化,不再使用原有的excel统计的方式。环境介绍: 平台类型:谷歌云 系统版本:Centos7.6 数据库:Mariadb 5.5 PHP版本5.6 软件介绍phpIPAM –开源IP地址管理系统,其目标是提供轻便,现代且有用的IP地址管理。它是基于PHP的应用程序,具有MySQL数据库后端,使用jQuery库,ajax和HTML5 CSS

AI领域有望突破,哪些还需火候道翰天琼认知智能机器人平台API接口大脑为您揭秘-45_认知智能大脑的博客-程序员秘密

近日,浙江大学联合之江实验室共同研制成功了中国首台基于自主知识产权类脑芯片的类脑计算机(Darwin Mouse)。研究团队在9月1日的成果发布会上指出,该类脑计算机在神经元规模上超越了德国海德堡大学的BrainScaleS、IBM的Blue Raven和英特尔公司的Pohiki Springs三大类脑计算系统,是目前国际上神经元规模最大的类脑计算机。据悉,这台类脑计算机包含792颗浙江大学研制的达尔文2代类脑芯片,支持1.2亿脉冲神经元、近千亿神经突触,与小鼠大脑神经元数量规模相当,典型运行功耗...

32【数据的合并和分组聚合】02数据合并_yuhui_2000的博客-程序员秘密

导入如果我们想把下面这两组数据合并变为一组数据,应该怎么做?横向合并合并前合并后纵向合并合并前合并后数据合并之join-横向合并合并的前提条件合并之后的结果数据合并之merge-纵向合并...