gensim函数训练Word2Vec模型 具体参数讲解_gensim word2vec 参数-程序员宅基地

gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译。

class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001,seed=1, workers=3,min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=<built-in function hash>,iter=5,null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)

参数:

· sentences:可以是一个list,对于大语料集,建议使用BrownCorpus,Text8Corpus或LineSentence构建。
· sg: 用于设置训练算法,默认为0,对应CBOW算法;sg=1则采用skip-gram算法。
· size:是指特征向量的维度,默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。
· window:表示当前词与预测词在一个句子中的最大距离是多少
· alpha: 是学习速率
· seed:用于随机数发生器。与初始化词向量有关。
· min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5
· max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个,则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
· sample: 高频词汇的随机降采样的配置阈值,默认为1e-3,范围是(0,1e-5)
· workers参数控制训练的并行数。
· hs: 如果为1则会采用hierarchical softmax技巧。如果设置为0(defaut),则negative sampling会被使用。
· negative: 如果>0,则会采用negativesamping,用于设置多少个noise words
· cbow_mean: 如果为0,则采用上下文词向量的和,如果为1(defaut)则采用均值。只有使用CBOW的时候才起作用。
· hashfxn: hash函数来初始化权重。默认使用python的hash函数
· iter: 迭代次数,默认为5
· trim_rule: 用于设置词汇表的整理规则,指定那些单词要留下,哪些要被删除。可以设置为None(min_count会被使用)或者一个接受()并返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函数。
· sorted_vocab: 如果为1(defaut),则在分配word index 的时候会先对单词基于频率降序排序。
· batch_words:每一批的传递给线程的单词的数量,默认为10000

 

 

1.简单介绍

PS:第一部分主要是给大家引入基础内容作铺垫,这类文章很多,希望大家自己去学习更多更好的基础内容,这篇博客主要是介绍Word2Vec对中文文本的用法。

(1) 统计语言模型

统计语言模型的一般形式是给定已知的一组词,求解下一个词的条件概率。形式如下:

统计语言模型的一般形式直观、准确,n元模型中假设在不改变词语在上下文中的顺序前提下,距离相近的词语关系越近,距离较远的关联度越远,当距离足够远时,词语之间则没有关联度。

但该模型没有完全利用语料的信息:

1) 没有考虑距离更远的词语与当前词的关系,即超出范围n的词被忽略了,而这两者很可能有关系的。

例如,“华盛顿是美国的首都”是当前语句,隔

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_40874578/article/details/85312404

智能推荐

Qt开发之路10---文件对话框QFileDialog_qt qfiledialog-程序员宅基地

文章浏览阅读1.3k次。QFileDialog,也就是文件对话框。一:文件打开对话框QFileDialog::getOpenFileName()getOpenFileName()是QFileDialog类的一个静态函数,返回用户选择的文件名,如果用户选择取消(Cancel),则返回一个空串。函数形式如下:QString getOpenFileName(QWidget *parent = Q_NULLPTR, const QString &caption =QString(), const QString &_qt qfiledialog

python实训day2-程序员宅基地

文章浏览阅读102次。作业:'''1.让用户输入用户名与密码2.校验用户名是否存在3.用户名存在后检验密码是否正确,若正确打印“登陆成功” 否则打印“用户名或密码错误”,并让用户重新输入4.用户密码输入错误超过三次则退出循环。'''def login(): i = 1 while i <= 3: user = input('请输入用户名:'..._python实训2

EF5中 执行 sql语句使用Database.ExecuteSqlCommand 返回影响的行数 ; EF5执行sql查询语句 Database.SqlQuery 带返回值...-程序员宅基地

文章浏览阅读355次。一: 执行sql语句,返回受影响的行数 在mysql里面,如果没有影响,那么返回行数为 -1 ,sqlserver 里面 还没有测试过 using (var ctx = new MyDbContext()){ ctx.Database.ExecuteSqlCommand("UPDATE Person SET Name = 'Michael' WHERE Per..._ef执database返回数据

美国排名前10芯片公司的特点-程序员宅基地

文章浏览阅读1.5k次。关注+星标公众号,不错过精彩内容来源|Sourceeletimes编译 |半导体行业观察美国半导体产业占全球市场份额的近一半,并呈现稳定的年度增长。自1990年代后期以来,美国半导体...

pythonopencv图像处理_OpenCv-Python 图像处理基本操作-程序员宅基地

文章浏览阅读99次。1. 图片加载、显示和保存import cv2img = cv2.imread("01.jpg")imgGrey = cv2.imread("01.jpg",0)cv2.imshow("img",img)cv2.imshow("imgGrey",imgGrey)cv2.waitKey()cv2.imwrite("Copy.jpg",img)2. 图像显示窗口创建与销毁cv2.namedWindow..._显示输出图像的形状、像素数目和图像的数据类型python

Rust 1.8发布,放弃了Unix系统的Make编译系统-程序员宅基地

文章浏览阅读624次。Mozilla上周发布了Rust 1.8,一个系统级别的编程语言,提供与C语言相当的编译速度,和高级别的安全性。这次更新最值得关注的是,Rust放弃了Unix系统的Make工具,使用Rust自己的Cargo包管理工具。为了实现自托管,减少对外部工具的依赖,Rust必须通过自己的语言构建一些工具。其他语言也大多都经过这个过程。Google的Go语言,从1.5版本开始,其编译器和解释器都由Go语言实现..._rust make

随便推点

Windows消息拦截技术的应用(Hook钩子)_钩子拦截输出-程序员宅基地

文章浏览阅读7.5k次,点赞3次,收藏52次。一、前 言众所周知,Windows程式的运行是依靠发生的事件来驱动。换句话说,程式不断等待一个消息的发生,然后对这个消息的类型进行判断,再做适当的处理。处理完此次消息后又回到等待状态。从上面对Windows程式运行机制的分析不难发现,消息在用户与程式之间进行交流时起了一种中间“语言”的作用。在程式中接收和处理消息的主角是窗口,它通过消息泵接收消息,再通过一个窗口过程对消息进行相应的处理。消息拦截的实现是在窗口过程处理消息之前拦截到消息并做相关处理后再传送给原窗口过程。通常情况下,程序员可以在窗口过程_钩子拦截输出

HTTP协议入门-程序员宅基地

文章浏览阅读845次,点赞17次,收藏12次。地址和关键词:例如GET请求头(header):用来描述请求和发送者的一些信息请求参数。

WPF 自定义柱状图 BarChart-程序员宅基地

文章浏览阅读222次。原文:WPF 自定义柱状图 BarChartWPF 自定义柱状图当前的Telerik控件、DevExpress控件在图表控件方面做得不错,但是有时项目中需要特定的样式,不是只通过修改图表的模板和样式就能实现的。或者说,通过修改当前的第三方控件以达到项目中UI的界面效果,花费的时间远比重新自定义一个控件要长得多!所以直接自定义柱状图吧~下面是柱状图..._wpf 柱状图

Python中异常捕捉try..except...finally的使用_try-except语句可以有多个finally子句a对b错-程序员宅基地

文章浏览阅读3.8w次,点赞41次,收藏105次。Python开发中 ,常见错误类型有两种 :语法错误和异常。语法错误是程序没有运行时,由开发IDE环境检测到错误,比如缩进错误,变量没有写完整,缺少:等解析错误。而异常就是指程序运行时检测到的错误,比如ZeroDivisionError,分母为0的错1/0.比如“aaa”+4等错误。 异常为什么需要处理?1.实际开发中不能直接讲代码的报错抛给用户,而是通过异常处理的形式给出提示..._try-except语句可以有多个finally子句a对b错

<5>系统安全与权限_系统权限安全问题-程序员宅基地

文章浏览阅读4.9k次。文件权限_系统权限安全问题

Linux下安装JDK_linux安装jdk1.7-程序员宅基地

文章浏览阅读2.8k次。Linux下安装JDK_linux安装jdk1.7