Python大数据:jieba分词,词频统计-程序员宅基地

技术标签: python  开发工具  大数据  

实验目的

  1. 学习如何读取一个文件
  2. 学习如何使用DataFrame
  3. 学习jieba中文分词组件及停用词处理原理
  4. 了解Jupyter Notebook

概念

中文分词

在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,这样能更好的分析句子的特性,这个过程叫就叫做分词。由于中文句子不像英文那样天然自带分隔,并且存在各种各样的词组,从而使中文分词具有一定的难度。

不过,中文分词并不追求完美,而是通过关键字识别技术,抽取句子中最关键的部分,从而达到理解句子的目的。

工具

Jupyter Notebook

Jupyter Notebook是一个交互式的笔记本工具,重点有两点
- “交互式” 让你随时随时运行并暂存结果,
- “笔记本” 记录你的研究过程

想象一下,在这之前你是如何使用Python的?

  • 用一切可能的文本编辑工具编写代码
  • 然后运行python xxx.py调试
  • 当你写了一个9W条数据的处理程序之后,跑到一半报个错,又得重头开始
  • 画图基本靠脑补

有了JN之后,你可以:

  • 直接在网页上编写代码
  • 按Shift + Enter立即执行当前Cell的代码段
  • Cell执行后的变量仍然生存,可以在下一个Cell继续使用,所以,我用第一个Cell加载9W条数据,第二个Cell开始预处理,第三个Cell进行运算等等
  • 直接在网页上画出图片,即时调整参数Shift+Enter预览,麻麻再也不用担心我写错代码,美滋滋 ~~~

jieba

jieba模块安装请参见官方说明

jieba 是一个python实现的中文分词组件,在中文分词界非常出名,支持简、繁体中文,高级用户还可以加入自定义词典以提高分词的准确率。

它支持三种分词模式

  • 精确模式:试图将句子最精确地切开,适合文本分析;
  • 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
  • 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

另外它还自带有关键词摘取算法。

  • 基于 TF-IDF 算法的关键词抽取
  • 基于 Te
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_33778544/article/details/89664067

智能推荐

三维GIS显示中,利用太阳高度角和方位角计算光照_太阳方位角与高度角对应光线向量-程序员宅基地

文章浏览阅读4k次。三维GIS显示中,利用太阳高度角和方位角计算光照利用【太阳方位角】和【太阳高度角】进行光照计算的时候,需要注意:– 1、 坐标系是球坐标系,具体正方向如下图所示:极坐标公式:x=rsinθcosφ.y=rsinθsinφ.z=rcosθ.φ:由x轴出发,逆时针旋转到地物方位所得的角度;θ:由z轴出发,顺时针旋转到地物方位所得的角度;– 2、太阳高度角和方位角正方向表示:太阳高..._太阳方位角与高度角对应光线向量

vba报错:不能设置类worksheet的visible属性-程序员宅基地

文章浏览阅读7.3k次。错误原因: 工作簿被保护了解决方法: 点击 “审阅” 下的 “保护工作簿”,输入密码 取消保护即可_不能设置类worksheet的visible属性

css限制文字行数且超出部分显示省略号_前端 文本文字行数限制-程序员宅基地

文章浏览阅读2.8k次。实现方法:display: -webkit-box;-webkit-box-orient: vertical;-webkit-line-clamp: 3;overflow: hidden;适用范围:因使用了WebKit的CSS扩展属性,该方法适用于WebKit浏览器及移动端;注:-webkit-line-clamp用来限制在一个块元素显示的文本的行数。 为了实现该效果..._前端 文本文字行数限制

【STM32学习笔记】I2C 读写 EEPROM 实验_i2c_mode_i2c-程序员宅基地

文章浏览阅读2k次,点赞5次,收藏24次。【STM32学习笔记】目录I2C 初始化结构体详解 /* I2C 初始化结构体 */ typedef struct { uint32_t I2C_ClockSpeed; // 设置SCL 时钟频率,此值要低于400000 uint16_t I2C_Mode; // 指定工作模式,可选 I2C 模式及 SMBUS 模式 uint16_t I2C_DutyCycle; // 指定时钟占空比,可选 low/high = 2_i2c_mode_i2c

react-native报错解决方法 in next release empty section headers will be rendered_rn in this release you can use 'enableemptysection-程序员宅基地

文章浏览阅读1.6k次。错误截图解决方法在ListView下 加个 enableEmptySections = {true} 就可以解决了_rn in this release you can use 'enableemptysections' flag to render empty se

html 字体大小em,px,em,rem该选择哪个?css相对字体大小的详细介绍-程序员宅基地

文章浏览阅读474次。网页设计中最大的混淆之一是由font-size属性引起的。最常用的字体大小是像素(px),em和rem。首先,我们将重点关注字体大小属性。在CSS中,可以使用多个单元(例如像素,em和rem),这通常会导致设计人员额外头痛。在本文中,我们将详细介绍这些单位的用法和任何误解。PX单位最常见和最受欢迎的单位是像素(px)。大多数人开始使用像素(px)单元,因为它使您可以完全控制文本大小。如果未指定字体..._字号 em

随便推点

我的IOS端SIP电话开发历程_ios sipmanager-程序员宅基地

文章浏览阅读5.8k次。先说下网络开源的sip产品:_ios sipmanager

安装完python找不到应用程序错误,找不到uwsgi错误python应用程序-程序员宅基地

文章浏览阅读632次。I've configured my nginx server with uwsgi and python and when I try to run my python application by hitting the url in my browser, the browser returns the message, uwsgi error python application not ..._pid: 82711|app: -1|req: -1/1] 113.87.83.237 () {38 vars in 697 bytes} [tue d

泛函_9 。′,≥′1′粥輦∫, 年, 凸∫i、 ”∴,, ,,}11y,′′-程序员宅基地

文章浏览阅读238次。最速降线  由能量守恒得mgy=12mv2mgy=\frac{1}{2}mv^2mgy=21​mv2,即v=2gyv=\sqrt{2gy}v=2gy​  设点A到点P的弧长为s,则dsdt=v\frac{ds}{dt}=vdtds​=v,因此:dt=ds2gy=12gy[1+y′2]dxdt=\frac{ds}{\sqrt{2gy}}=\sqrt{\frac{1}{2gy}[1+{y}'^2]}dxdt=2gy​ds​=2gy1​[1+y′2]​dx其中y′=dydxy'=\frac{dy}{dx}y_9 。′,≥′1′粥輦∫, 年, 凸∫i、 ”∴,, ,,}11y,′′

html 使用 js 脚本 调用$(document).ready(function()报错 Uncaught ReferenceError: $ is not defined_$(document).ready(function() is not defined-程序员宅基地

文章浏览阅读3k次,点赞2次,收藏3次。添加的脚本使用了jquery语法,需要引用jquery调用在线的jquery<script src="http://code.jquery.com/jquery-latest.js"></script>_$(document).ready(function() is not defined

回顾理解Triplet-loss_online triplet loss-程序员宅基地

文章浏览阅读1.5k次,点赞3次,收藏3次。用三国人物刘关张和诸葛亮的关系来类比一下APN三个兄弟和三种loss 标准_online triplet loss

IOS进阶——Json解析-程序员宅基地

文章浏览阅读645次。作为一种轻量级的数据交换格式,json正在逐步取代xml,成为网络数据的通用格式。有的json代码格式比较混乱,可以使用此“http://www.bejson.com/”网站来进行JSON格式化校验(点击打开链接)。此网站不仅可以检测Json代码中的错误,而且可以以视图形式显示json中的数据内容,很是方便。从IOS5开始,APPLE提供了对json的原生支持(NSJSONSe