训练 Word2Vec 模型

参考 中英文维基百科语料上的Word2Vec实验 | 我爱自然语言处理

以下是我的执行过程。Py2 和 Py3 混着用的。平常主要用 Py3, Py2 纯粹用来应对不兼容的程序

# 切换到你的工作目录
cd /[path]

# 下载中文维基百科数据
# 大约 1.4G
wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2


# 处理
# 下载处理程序
# 在 macOS Py3 环境下能正常工作
wget https://raw.github.com/ringsaturn/Wikipedia_Word2vec/master/v1/process_wiki.py
python3 process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text
# 在 Ubuntu 16.04 Python2 环境下正常工作
wget https://raw.github.com/panyang/Wikipedia_Word2vec/master/v1/process_wiki.py
python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text


# 转换成简体中文
# Ubuntu
apt-get install opencc
opencc -i wiki.zh.text -o wiki.zh.text.jian -c zht2zhs.ini
# macOS
brew install opencc
opencc -i wiki.zh.text -o wiki.zh.text.jian -c t2s.json


# 分词(结巴)
# Py3
pip3 install jieba
python3 -m jieba -d ' ' wiki.zh.text.jian > wiki.zh.text.jian.seg
# Py2
pip install jieba
python -m jieba -d ' ' wiki.zh.text.jian > wiki.zh.text.jian.seg


# 下载训练程序
wget https://raw.github.com/panyang/Wikipedia_Word2vec/master/v2/train_word2vec_with_gensim.py

# Train
# 因为 *pattern* 模块一直没有适配 Py3
# 只能用 Py2
pip2 install gensim
python2 train_word2vec_model.py wiki.zh.text.jian.seg.utf-8 wiki.zh.text.model wiki.zh.text.vector
Comments
Write a Comment