bert的上下文预测中间 和word2rec的上下文预测中间有啥区别

BERT 的上下文预测与 Word2Vec 的上下文预测在核心机制、训练目标和词向量表示能力上有本质区别,主要体现在以下几个方面:

1. 核心机制:双向 vs 单向

Word2Vec(如 CBOW 和 Skip-gram)是单向模型

CBOW:根据目标词的上下文(如前后文单词)预测目标词本身(如 [The, quick, brown] → fox)。
Skip-gram:根据目标词预测上下文(如 fox → [The, quick, brown])。
特点:每个词的向量表示是固定的,不考虑上下文变化(如 “苹果” 在 “吃苹果” 和 “苹果公司” 中向量相同)。

BERT双向 Transformer 模型

Masked Language Model (MLM):随机遮蔽输入中的部分 token(如 [The, quick, [MASK], fox] → brown),强制模型同时已关注左右上下文。
特点:同一个词的向量表示会根据上下文动态调整(如 “苹果” 在不同句子中向量不同)。

2. 训练目标:预测 token vs 理解语义

Word2Vec的目标是学习词的分布式表示

通过最大化上下文与目标词的共现概率,使语义相近的词在向量空间中距离相近(如 “国王” 和 “王后”)。
向量仅捕捉词本身的语义,不包含上下文信息。

BERT的目标是预训练语言理解能力

MLM 任务迫使模型学习深层次的语言结构(如语法、语义依赖)。
结合 Next Sentence Prediction (NSP),学习句子级别的关系(如连贯性)。

3. 词向量表示:静态 vs 动态

Word2Vec 生成静态词向量

每个词对应唯一的向量,无法处理多义词(如 “银行” 在 “河岸” 和 “金融机构” 中向量相同)。

BERT 生成动态词向量

同一词的向量随上下文变化(如 “苹果” 在 “吃苹果” 中偏向食物语义,在 “苹果公司” 中偏向品牌语义)。
通过微调(Fine-tuning)可适应不同任务(如问答、情感分析)。

4. 应用场景:基础表示 vs 任务适配

Word2Vec适用于:

简单的 NLP 任务(如文本分类、相似度计算)。
作为复杂模型的初始化向量(如 LSTM 的输入层)。

BERT适用于:

需要深度语言理解的任务(如问答系统、命名实体识别)。
零样本或少样本学习(通过预训练知识迁移)。

总结对比表

对比项 Word2Vec BERT
© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容