词训练上下文预测方法

您提到的“上下文预测”任务，是词向量（如Word2Vec）和现代预训练模型（如BERT）最核心的训练思想之一。它本质上是一种自监督学习——从文本数据自身构造监督信号，无需人工标注。

这个任务通常通过两种经典模型架构实现：CBOW 和 Skip-gram。下面我详细解释一下它们的训练过程。

“上下文预测”基于一个语言学假设：出现在相似上下文中的词，其语义也相似。模型通过让神经网络学会预测上下文词或中心词，从而将词的语义信息编码到低维稠密向量（即词向量）中。

用上下文词预测中心词。

训练过程：

输入：目标词周围固定窗口内的所有上下文词（例如，窗口大小为2，则取前后各2个词）。
模型结构：
- 有一个输入层（上下文词的one-hot向量）、一个投影层（共享的嵌入矩阵，用于查找词向量）和一个输出层（通过softmax预测中心词）。
- 上下文词的词向量在投影层取平均或求和，得到一个组合的上下文向量。
输出：模型预测这个组合向量对应中心词的概率分布。
训练目标：最大化正确中心词的对数概率。通过反向传播，同时更新输入和输出层的词向量。

示例：句子："The quick brown fox jumps"，中心词 = "brown"，窗口=2。

用中心词预测周围上下文词。

训练过程：

示例：中心词 = "brown"，窗口=2。

由于词汇表可能非常大（数万到数十万词），计算完整的softmax（即对每个词都计算概率）非常耗时。负采样 是解决此问题的关键技术。

负采样的思想：

将“预测中心词/上下文词”的多分类问题，转化为“判断词对是否相关”的二分类问题。
对于每个训练样本（中心词，上下文词）：
- 将这对词作为正样本（标签为1）。
- 从词汇表中随机采样K个（通常5-20个）与中心词不相关的词，与中心词组成负样本（标签为0）。
模型训练一个二分类器（通常是一个逻辑回归层），判断一个（中心词，候选词）对是否来自真实的上下文。

优势：计算量从O(V)（V是词汇表大小）降低到O(K+1)，训练速度大幅提升，且效果通常更好。

Word2Vec的“上下文预测”是静态的（一个词只有一个向量）。后续的模型（如ELMo、BERT）将其发展为动态上下文预测：

BERT：使用Transformer编码器，通过掩码语言模型任务进行训练。随机遮盖句子中的一些词（如15%），让模型根据双向上下文来预测被遮盖的词。这使得每个词的表示会根据上下文动态变化，能更好地处理一词多义。

“上下文预测”任务通过让模型学习词语之间的共现规律，将语义和语法信息编码到稠密向量中。其成功得益于：

正是通过这种看似简单的预测任务，模型学会了词语的深层语义，为后续所有NLP任务奠定了基础。

目录