esc

请输入并搜索

Ctrl+K

transformer的结构

2026-01-25

00

目录

如何获取语义信息

上下文预测任务

核心思想：通过预测上下文来学习词表示，属于自监督学习。

Word2Vec、BERT 与词嵌入的关系

词嵌入（Word Embedding）

Word2Vec → 静态词嵌入

BERT → 动态上下文词嵌入

词嵌入和位置编码的关系

通过word2vec，模型学会了什么？学会的信息对于transformer而言有什么用

1. 词的“语义地图”

2.词频和分布信息

3.简单句法关系

Word2vec的局限性

Word2vec学到的信息对Transformer有什么用

如何获取语义信息

上下文预测任务

核心思想：通过预测上下文来学习词表示，属于自监督学习。

Word2Vec：
- CBOW：用上下文预测中心词
- Skip-gram：用中心词预测上下文
- 目标：相近的词在向量空间中距离更近
BERT：
- Masked Language Model (MLM)：用上下文预测被遮蔽的词
- Next Sentence Prediction (NSP)：判断两个句子是否相邻
- 目标：学习双向上下文表示

Word2Vec、BERT 与词嵌入的关系

词嵌入（Word Embedding）

将词映射为稠密向量的技术，是表示学习的基础。

Word2Vec → 静态词嵌入

每个词对应一个固定向量
不考虑上下文，如“银行”在“存钱”和“河岸”中向量相同
轻量、训练快，适合小规模任务

BERT → 动态上下文词嵌入

同一词在不同上下文中得到不同向量
双向编码，能捕捉更丰富的语义
参数多、计算量大，但表示能力更强


展开代码
词嵌入（概念）
    ├── Word2Vec（静态词嵌入的实现）
    │   └── 通过上下文预测学习固定向量
    │
    └── BERT（动态上下文词嵌入的实现）
        └── 通过上下文预测学习上下文相关向量

词嵌入和位置编码的关系

核心关系互补关系：词嵌入提供“是什么”，位置编码提供“在哪里”。具体说明

词嵌入（Word Embedding）
- 作用：将词映射为向量，编码语义
- 特点：相同词在不同位置得到相同向量
- 局限：不包含位置信息
位置编码（Positional Encoding）
- 作用：为序列中的位置提供向量表示
- 特点：不同位置得到不同向量
- 目的：让模型知道词的顺序

在Transformer中的结合方式：


展开代码
输入 = 词嵌入 + 位置编码

相加融合：两者维度相同，直接相加后输入模型。

通过word2vec，模型学会了什么？学会的信息对于transformer而言有什么用

Word2vec通过一个看似简单的任务——根据上下文预测中心词（CBOW）或根据中心词预测上下文（Skip-gram），学到了以下核心信息：

1. 词的“语义地图”


展开代码
示例：vec(“国王”) - vec(“男人”) + vec(“女人”) ≈ vec(“女王”)

学到了语义类比关系（性别、复数、国家-首都等）
意思相近的词在向量空间中彼此靠近
这种相似性是基于用法的统计相似性，而非词典定义

2.词频和分布信息

高频词（如“的”、“是”）向量通常较短，位于空间中心
低频词（如“晦涩”、“量子”）向量较长，位于边缘
共享相似分布的词会聚集（如各种“水果”名）

3.简单句法关系

学习到词性信息：名词、动词、形容词会形成不同簇
简单的形态变化：cat → cats, run → running

Word2vec的局限性

静态表示：每个词只有一个固定向量 “苹果”在“我吃苹果”和“苹果股价”中是同一个向量无法处理一词多义上下文无关：不考虑句子中其他词的影响纯粹基于整个语料库的共现统计仅捕捉浅层关联：无法理解复杂句法、逻辑、长距离依赖

Word2vec学到的信息对Transformer有什么用

本文作者:cc

本文链接:

版权声明:本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！

词训练上下文预测方法 >

目录

如何获取语义信息

上下文预测任务

核心思想：通过预测上下文来学习词表示，属于自监督学习。

Word2Vec、BERT 与词嵌入的关系

词嵌入（Word Embedding）

Word2Vec → 静态词嵌入

BERT → 动态上下文词嵌入

词嵌入和位置编码的关系

通过word2vec，模型学会了什么？学会的信息对于transformer而言有什么用

1. 词的“语义地图”

2.词频和分布信息

3.简单句法关系

Word2vec的局限性

Word2vec学到的信息对Transformer有什么用