bert的上下文预测中间和word2rec的上下文预测中间有啥区别 - 宋马

发布

bert的上下文预测中间和word2rec的上下文预测中间有啥区别

3个月前发布

070

BERT 的上下文预测与 Word2Vec 的上下文预测在核心机制、训练目标和词向量表示能力上有本质区别，主要体现在以下几个方面：

1. 核心机制：双向 vs 单向

Word2Vec（如 CBOW 和 Skip-gram）是单向模型：

CBOW：根据目标词的上下文（如前后文单词）预测目标词本身（如 [The, quick, brown] → fox）。
Skip-gram：根据目标词预测上下文（如 fox → [The, quick, brown]）。
特点：每个词的向量表示是固定的，不考虑上下文变化（如 “苹果” 在 “吃苹果” 和 “苹果公司” 中向量相同）。

BERT是双向 Transformer 模型：

Masked Language Model (MLM)：随机遮蔽输入中的部分 token（如 [The, quick, [MASK], fox] → brown），强制模型同时已关注左右上下文。
特点：同一个词的向量表示会根据上下文动态调整（如 “苹果” 在不同句子中向量不同）。

2. 训练目标：预测 token vs 理解语义

Word2Vec的目标是学习词的分布式表示：

通过最大化上下文与目标词的共现概率，使语义相近的词在向量空间中距离相近（如 “国王” 和 “王后”）。
向量仅捕捉词本身的语义，不包含上下文信息。

BERT的目标是预训练语言理解能力：

MLM 任务迫使模型学习深层次的语言结构（如语法、语义依赖）。
结合 Next Sentence Prediction (NSP)，学习句子级别的关系（如连贯性）。

3. 词向量表示：静态 vs 动态

Word2Vec 生成静态词向量：

每个词对应唯一的向量，无法处理多义词（如 “银行” 在 “河岸” 和 “金融机构” 中向量相同）。

BERT 生成动态词向量：

同一词的向量随上下文变化（如 “苹果” 在 “吃苹果” 中偏向食物语义，在 “苹果公司” 中偏向品牌语义）。
通过微调（Fine-tuning）可适应不同任务（如问答、情感分析）。

4. 应用场景：基础表示 vs 任务适配

Word2Vec适用于：

简单的 NLP 任务（如文本分类、相似度计算）。
作为复杂模型的初始化向量（如 LSTM 的输入层）。

BERT适用于：

需要深度语言理解的任务（如问答系统、命名实体识别）。
零样本或少样本学习（通过预训练知识迁移）。

总结对比表

对比项	Word2Vec	BERT

© 版权声明

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END

如果内容对您有所帮助,就支持一下吧!

随机推荐

评论抢沙发

请登录后发表评论

暂无评论内容