gensim实战之利用维基百科训练word2vec-程序员宅基地

word2vec

2013年提出的word2vec的方法是一种非常方便得到高质量词向量的方式，其主要思想是：一个词的上下文可以很好的表达出词的语义，它是一种通过无监督的学习文本来用产生词向量的方式。word2vec中有两个非常经典的模型：skip-gram和cbow

cbow：已知周围词，预测中心词。
skip-gram：已知中心词，预测周围词。

cbow VS. skip-gram with instance

模型结构

skip-gram、cbow的模型架构都是单层的神经网络，神经网络的参数就是最后得到的词向量，神经网络训练过程就是学习词向量（网络参数）的过程。

cbow VS. skip-gram

Fasttext

gensim 中Fasttext 模型架构和Word2Vec的模型架构差几乎一样，只不过在模型词的输入部分使用了词的n-gram的特征。所谓n-gram特征，举个例子，如果原词是一个很长的词：你吃了吗。jieba分词结果为["你","吃了"，"吗"]。

unigram(1-gram)的特征：["你","吃了"，"吗"]
bigram(2-gram) 的特征: ["你吃了"，"吃了吗"]
n-gram的意思将词中连续的n个词连起来组成一个单独的词。如果使用unigram和bigram的特征，词的特征就会变成：["你","吃了"，"吗"，"你吃了"，"吃了吗"]。使用n-gram的词向量使得Fast-text模型可以很好的解决未登录词（OOV, out-of-vocabulary）的问题。

gensim实战

语料包准备

这里我选用维基百科作为词向量模型的训练语料，如果还不知道怎么去处理维基百科数据，可以参考下面这篇文章，为了效率，我选择了个小的语料，当然对于词向量的训练，语料越大训练出来的结果越好：
https://dumps.wikimedia.org/zhwiki/

wiki

下载详情

其中，我们选择zhwiki-xxxxxxxx-pages-articles-multistream.xml.bz2就好，这里只做测试。下载得到一个.bz2的包。通过以下步骤进行提取：

1.wikipedia extractor提取语料

https://github.com/attardi/wikiextractor

安装wikipedia extractor
pip install wikiextractor
提取语料
python WikiExtractor.py -b 500M -o output_filename input_filename.bz2
这里需要说明：

WikiExtractor.py里面存放Wikipedia Extractor代码；
-b 1000M表示的是以1000M为单位进行切分，有时候可能语料太大，我们可能需要切分成几个小的文件（默认），这里由于我需要处理的包只有198M，所以存入一个文件就行了，所以只需要设置的大小比198M大即可；
output_filename：需要将提取的文件存放的路径；
input_filename.bz2：需要进行提取的.bz2文件的路径；

2.opencc将繁体字转换为简体字

https://github.com/BYVoid/OpenCC

安装opencc
pip install opencc
python脚本，这里直接用我的脚本即可，只需把两个路径修改为自己的路径即可：

import opencc
converter = opencc.OpenCC('t2s.json')
with open("./wiki_00") as f:
    with open("./jt_wiki_00", "w") as f1:
        for line in f:
            print('*' * 100)
            print(line)
            c_line = converter.convert(line)
            print(c_line)
            f1.write(c_line)

得到的中文语料以后，最重要的就是要进行分词的操作了，这里使用jieba分词工具对语料进行分词

导入python包

首先导入必要的python包，jieba，gensim等必要的包。

import jieba
import logging
import os.path
import sys
import multiprocessing
from gensim.models import Word2Vec, fasttext
from gensim.models.word2vec import LineSentence

jieba分词

这里用的是某个比赛的一些评论文本数据，读入评论文本数据之后对每一条评论进行分词。代码如下：

with open(input_path) as f:
    with open(output_path, "w") as f1:
        for num, line in enumerate(f):
            print('---- processing ', num, ' article----------------')
            line_seg = " ".join(jieba.cut(line))
            f1.write(line_seg)

其中input_path、output_path分别为输入语料的路径与存储分词结果的路径。

分词后结果

Word2vec模型训练

Word2Vec这个API的一些重要参数。 + size: 表示词向量的维度，默认值是100。 + window：决定了目标词会与多远距离的上下文产生关系，默认值是5。 + sg: 如果是0，则是CBOW模型，是1则是Skip-Gram模型，默认是0即CBOW模型。

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
model = word2vec.Word2Vec(sens_list,min_count=1,iter=20)
model.save("word2vec.model")

这里采用默认参数。即采用CBOW模型——通过周围词预测中心词的方式训练词向量。数据有多少个词，便得到多少个词向量。

Fasttext模型训练

fasttext.FastText API一些重要参数： + size: 表示词向量的维度，默认值是100。 + window：决定了目标词会与多远距离的上下文产生关系，默认值是5。 + sg: 如果是0，则是CBOW模型，是1则是Skip-Gram模型，默认是0即CBOW模型。
上方参数和word2vec.Word2Vec API的参数一模一样。 + word_ngrams ：({1,0}, optional) 1表示使用n-gram的信息，0代表不使用n-gram的信息，如果设置为0就等于CBOW或者Skip-gram。

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
model1 = fasttext.FastText(sens_list,min_count=1,iter=20)
model1.save("fast_text.model")

实战代码

# 1.os.path.basename('g://tf/code') ==>code
# 2.sys.argv[0]获取的是脚本文件的文件名称
program = os.path.basename(sys.argv[0])
# 指定name，返回一个名称为name的Logger实例
logger = logging.getLogger(program)
# 1.format: 指定输出的格式和内容，format可以输出很多有用信息，
# %(asctime)s: 打印日志的时间
# %(levelname)s: 打印日志级别名称
# %(message)s: 打印日志信息
logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
logging.root.setLevel(level=logging.INFO)
# 打印这是一个通知日志
logger.info("running %s" % ' '.join(sys.argv))
# check and process input arguments
if len(sys.argv) < 4:
    print(globals()['__doc__'] % locals())
    sys.exit(1)
# inp:分好词的文本
# outp1:训练好的模型
# outp2:得到的词向量
inp, outp1, outp2 = sys.argv[1:4]
'''
LineSentence(inp)：格式简单：一句话=一行; 单词已经过预处理并被空格分隔。
size：是每个词的向量维度； 
window：是词向量训练时的上下文扫描窗口大小，窗口为5就是考虑前5个词和后5个词； 
min-count：设置最低频率，默认是5，如果一个词语在文档中出现的次数小于5，那么就会丢弃； 
workers：是训练的进程数（需要更精准的解释，请指正），默认是当前运行机器的处理器核数。这些参数先记住就可以了。
sg ({0, 1}, optional) – 模型的训练算法: 1: skip-gram; 0: CBOW
alpha (float, optional) – 初始学习率
iter (int, optional) – 迭代次数，默认为5
'''
# word2vec模型
# model = Word2Vec(LineSentence(inp), size=400, window=5,
#                  min_count=5, workers=multiprocessing.cpu_count())
# fasttext模型
model = fasttext.FastText(LineSentence(inp), size=200, window=5,
                            min_count=5, workers=multiprocessing.cpu_count())
model.save(outp1)
# 不以C语言可以解析的形式存储词向量
model.wv.save_word2vec_format(outp2, binary=False)

一些训练词向量的调参技巧：

选择的训练word2vec的语料要和要使用词向量的任务相似，并且越大越好，论文中实验说明语料比训练词向量的模型更加的重要，所以要尽量收集大的且与任务相关的语料来训练词向量；
语料小（小于一亿词，约 500MB 的文本文件）的时候用 Skip-gram 模型，语料大的时候用 CBOW 模型；
设置迭代次数为三五十次，维度至少选 50，常见的词向量的维度为256、512以及处理非常大的词表的时候的1024维；

通过下面命令来执行Python文件：
python word2vec_model.py seg_filename model_name word2vec.vector

word2vec_model.py：存放训练代码的Python文件；
seg_filename：分好词的训练语料；
model_name：训练好的模型的名称；
word2vec.vector：得到的词向量；

测试代码-找出相似度最高的词

testwords = ['金融', '上', '股票', '跌', '经济', '人工智能']
for i in range(len(testwords)):
    res = en_wiki_word2vec_model.most_similar(testwords[i])
    print(testwords[i])
    print(res)

实验结果

找出最相似的词

本文链接：https://blog.csdn.net/ewen_lee/article/details/108617602

智能推荐

洛谷 P1879 玉米田(状压DP入门题)-程序员宅基地

文章浏览阅读98次。传送门https://www.cnblogs.com/violet-acmer/p/9852294.html题解：　　相关变量解释：1 int M,N;2 int plant[maxn][maxn];//草场情况3 struct Node4 {5 int status;//状态6 int res;//方案7 Node(int..._玉米田编程题

关于blob加密视频的基于m3u8和ts文件下载转MP4视频的python爬虫实现_基于blob的视频加密切片-程序员宅基地

文章浏览阅读3.9k次。关于blob加密视频的基于m3u8和ts文件下载转MP4视频的python爬虫实现首先谈一下这篇文章主要的爬虫对象，基本上都是一些视频网站（一些大厂会有自己独特的编码风格需要自行破解加密格式，所以很难实现，所以这篇文章主要针对于一些小网站）。下面先说一下blob加密的实现，可以参考这篇博客(https://blog.csdn.net/xingyun89114/article/details/80699527)总结来说呢，其实就是HTTP请求后的数据做blob加密，上篇博客我们也可以在开发者模式中的ne_基于blob的视频加密切片

用数据说话，深度剖析嵌入式开发前景及国内发展状_中国有多少在岗嵌入式员工-程序员宅基地

文章浏览阅读1.1k次。权威部门统计，我国嵌入式人才缺口每年50万人左右。根据前程无忧网发布的调查报告，嵌入式软件开发是未来几年最热门和最受欢迎的职业之一，具有10年工作经验的高级嵌入式工程师年薪在30万元左右。即使是初级的嵌入式软件开发人员，平均月薪也达到3000-5000元，中高级的嵌入式工程师月薪平均超过10000元。做软件实际上有高下之分，开发语言从机器语言、汇编到C、C++，再到红透半边天的Java、C#等，该学哪种呢？为什么有些开发者工资低，而有些开发者千金难求？为什么3年的Java高级程序员薪水仅仅8k-1..._中国有多少在岗嵌入式员工

【附安装包】Java/JDK介绍、下载、安装、配置与使用（保姆级教程）_java jdk下载-程序员宅基地

文章浏览阅读2.5k次，点赞4次，收藏10次。精炼、易懂的JDK安装教程，Java初学者的福音！_java jdk下载

python一级证书有必要考吗,小学生python考级有用吗_少儿python考级能不考一级-程序员宅基地

文章浏览阅读1k次，点赞13次，收藏24次。大家好，小编来为大家解答以下问题，python一级证书有用吗属于45项白名单吗，python一级证书有用吗小学生，今天让我们一起来看看吧！_少儿python考级能不考一级

随便推点

micro2440与PC同步问题（个人情况，仅供参考）_micro2440同步-程序员宅基地

文章浏览阅读881次。我用的是micro2440的3.5寸开发板，不知道实验室哪一年采购的，因为要用到wince，所以拿来准备学习一下。前期安装软件暂且不提，按照手册来应该没什么问题，可到了用activesync与PC同步的时候悲剧就发生了，烧写完wince系统，连上PC机无任何反应，而且本来很流畅的wince系统，只要一用USB跟PC连接就变得奇卡无比。在网上搜了大篇的资料也没找到解决的办法，迫不得已，只_micro2440同步

java实现国密算法SM3摘要加密_sm3utils jar包下载-程序员宅基地

文章浏览阅读847次。java实现SM3摘要加密_sm3utils jar包下载

面试问题某个项目中遇到过什么问题_面试中,面试官文你在项目中遇到过哪些问题-程序员宅基地

文章浏览阅读4.8w次，点赞4次，收藏21次。这是面试官很喜欢问的一个问题，你是会刁难你的一个地方。如果你在项目中是核心解决了一些技术难题，那这个问题对你来说应该是很好回答的。你可以说出这个项目遇到的技术问题，以及你是怎么解决的。这种问题往往可以从并发，稳定性，容错，性能等方面入手。如果你没有参与这种问题的解决，平时也要多关注其他人是怎么解决的，不要局限在自己的空间里。还有就是你可以给出一个场景，自己设计一种可行的解决方案，予以阐述。总之你要_面试中,面试官文你在项目中遇到过哪些问题

jar包冲突问题_jar:file:/d:/program%20files/apache-maven-3.5.4/re-程序员宅基地

文章浏览阅读472次。slf4j的jar包冲突。SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/D:/apache-maven-3.5.3/repository/ch/qos/logback/logback-classic/1.1.11/logback-classic-1.1.11.jar!/..._jar:file:/d:/program%20files/apache-maven-3.5.4/repository/io/springfox/spri

Mybatis自动去重，以及id vs result_mybatis去重-程序员宅基地

文章浏览阅读3.6k次。今天大部分时间一直被一个问题困扰：当程序执行某Mapper.java的一个list函数，明明底层的SQL语句和ELK中的日志都显示返回了376条记录（如图1,图2），最后程序却只返回了209条。图1: 日志显示此list函数返回了376条记录图2: 日志有376条相关的ResultSet记录我一度以为这跟今天尝试使用的MyBatis分页插件PageHelper（使用了MySql的limit）有关，后面发现不是。即使不使用PageHelper，问题依旧。而且我发现一点：实际返回的209条记录里，似乎_mybatis去重

idea Translation IP 地址无法访问_翻译失败: 访问ip地址不在可访问ip列表-程序员宅基地

文章浏览阅读1.5k次。本人首先按照网上的方法申请了百度翻译 API，配置后出现IP无法访问，后选择以下方法解决。配置如图：参考：https://blog.csdn.net/ilyucs/article/details/106603368_翻译失败: 访问ip地址不在可访问ip列表