如何训练得到好的词向量

训练出好的词向量，需从数据准备、模型选择、参数调优、训练技巧、效果评估等环节入手，以下是完整流程和关键要点：

一、核心逻辑：词向量训练的本质

目标：让语义相似的词，向量距离更近（如 “北京” 和 “天安门” 向量相似，“北京” 和 “巴黎” 向量较远）
常用方法：Word2Vec（CBOW/Skip – Gram）、GloVe、BERT 嵌入等，其中 Word2Vec 是入门级经典方案，适合理解原理。

二、训练流程（以 Word2Vec 为例）

1. 数据准备：高质量语料是基础

语料选择：

领域相关：训练专业词向量（如医疗、法律），需用领域文本（如病历、法条）；通用场景用新闻、小说等混合语料。
数据规模：越大越好（小语料≥100M 文本，大语料无上限），但需平衡算力。

预处理步骤：

python

# 示例：中文分词 + 停用词过滤（用 jieba + 自定义停用词表）
import jieba
def preprocess(text):
    # 分词
    words = jieba.lcut(text)  
    # 过滤停用词（如“的”“了”“吗”）
    stopwords = set(['的', '了', '吗', ...])  
    return [word for word in words if word not in stopwords]

# 构建语料库（列表套列表格式，每个子列表是一句分词后的结果）
corpus = [preprocess(text) for text in ["我爱北京天安门", "北京有故宫和长城", ...]]

2. 模型选择：CBOW vs Skip – Gram

模型	核心逻辑	适用场景
CBOW（默认）	用上下文词预测中心词（如用 “我、北京” 预测 “爱”）	语料大、追求训练速度
Skip – Gram	用中心词预测上下文词（如用 “爱” 预测 “我、北京”）	语料小、需突出低频词语义

代码示例（gensim 库）：

python

from gensim.models import Word2Vec
# sg=0 是 CBOW，sg=1 是 Skip - Gram
model = Word2Vec(corpus, vector_size=100, window=5, sg=0, min_count=5)

3. 关键参数调优（决定词向量质量）

参数	作用	调优建议
`vector_size`	词向量维度（越大表达能力越强，但算力要求高）	小语料用 100 – 200，大语料用 300 – 768
`window`	上下文窗口大小（窗口越大，捕捉长距离语义）	小语料用 3 – 5，大语料用 5 – 10
`min_count`	最小词频（过滤生僻词，减少噪声）	小语料设 2 – 5，大语料设 5 – 10
`epochs`	训练迭代次数（次数越多，模型学的越透，但易过拟合）	小语料用 5 – 10，大语料用 3 – 5
`negative`	负采样个数（加速训练，平衡正负样本）	一般设 5 – 20，大语料可增大

4. 训练技巧：让词向量更 “聪明”

多轮训练：先在通用语料预训练，再用领域语料微调（如先训新闻，再训医疗文本）。
结合子词信息：用 FastText 替代 Word2Vec，支持子词拆分（如 “人工智能” 拆为 “人工”“智能”“人工智” 等），提升生僻词 / 新词的向量质量。
动态调整学习率：训练初期用大学习率（如 0.025），后期减小（如 0.001），平衡收敛速度和稳定性。

5. 效果评估：验证词向量质量

语义相似度测试：

python

# 计算词向量相似度（余弦相似度）
print(model.wv.similarity("北京", "天安门"))  
print(model.wv.similarity("北京", "巴黎"))  
# 理想结果：前者高，后者低

类比推理测试：

python

# 测试语义类比（如“北京 - 中国 + 法国 = 巴黎”）
result = model.wv.most_similar(positive=["北京", "法国"], negative=["中国"])  
print(result[0][0])  # 理想输出：巴黎

下游任务验证：将词向量用于文本分类、情感分析等任务，对比不同词向量的效果，选最优模型。

三、进阶方案：超越 Word2Vec

1. GloVe：全局统计 + 局部上下文

原理：结合全局词频共现（统计所有文本中词对的共现次数）和局部上下文（类似 Word2Vec），让向量同时反映全局和局部语义。
优势：比 Word2Vec 更适合长文本语义捕捉。

2. BERT 词向量：动态语义编码

原理：用掩码语言模型（MLM） 和下一句预测（NSP） 训练，能理解语境动态语义（如 “苹果” 在 “吃苹果” 和 “苹果手机” 中向量不同）。
用法：

python

from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained("bert - base - chinese")
model = BertModel.from_pretrained("bert - base - chinese")
# 输出词向量（需处理 [CLS]、[SEP] 等特殊 token）
inputs = tokenizer("我爱北京天安门", return_tensors="pt")  
outputs = model(**inputs)

四、避坑指南

维度灾难：vector_size 不是越大越好，过高维度会导致过拟合（小语料别设 1000 + ）。
生僻词问题：用 FastText 或在预训练模型中加入 “字符级嵌入”，提升对新词 / 罕见词的支持。
算力不足：训练大模型（如 BERT ）需 GPU 加速，可先用 Word2Vec 验证流程，再升级方案。