transformer的结构
2026-01-25
论文阅读
00

目录

如何获取语义信息
上下文预测任务
核心思想:通过预测上下文来学习词表示,属于自监督学习。
Word2Vec、BERT 与词嵌入的关系
词嵌入(Word Embedding)
Word2Vec → 静态词嵌入
BERT → 动态上下文词嵌入
词嵌入和位置编码的关系
通过word2vec,模型学会了什么?学会的信息对于transformer而言有什么用
1. 词的“语义地图”
2.词频和分布信息
3.简单句法关系
Word2vec的局限性
Word2vec学到的信息对Transformer有什么用

如何获取语义信息

上下文预测任务

核心思想:通过预测上下文来学习词表示,属于自监督学习。

  • Word2Vec:
    • CBOW:用上下文预测中心词
    • Skip-gram:用中心词预测上下文
    • 目标:相近的词在向量空间中距离更近
  • BERT:
    • Masked Language Model (MLM):用上下文预测被遮蔽的词
    • Next Sentence Prediction (NSP):判断两个句子是否相邻
    • 目标:学习双向上下文表示

Word2Vec、BERT 与词嵌入的关系

词嵌入(Word Embedding)

将词映射为稠密向量的技术,是表示学习的基础。

Word2Vec → 静态词嵌入

  • 每个词对应一个固定向量
  • 不考虑上下文,如“银行”在“存钱”和“河岸”中向量相同
  • 轻量、训练快,适合小规模任务

BERT → 动态上下文词嵌入

  • 同一词在不同上下文中得到不同向量
  • 双向编码,能捕捉更丰富的语义
  • 参数多、计算量大,但表示能力更强
展开代码
词嵌入(概念) ├── Word2Vec(静态词嵌入的实现) │ └── 通过上下文预测学习固定向量 │ └── BERT(动态上下文词嵌入的实现) └── 通过上下文预测学习上下文相关向量

词嵌入和位置编码的关系

核心关系 互补关系:词嵌入提供“是什么”,位置编码提供“在哪里”。 具体说明

  • 词嵌入(Word Embedding)
    • 作用:将词映射为向量,编码语义
    • 特点:相同词在不同位置得到相同向量
    • 局限:不包含位置信息
  • 位置编码(Positional Encoding)
    • 作用:为序列中的位置提供向量表示
    • 特点:不同位置得到不同向量
    • 目的:让模型知道词的顺序

在Transformer中的结合方式:

展开代码
输入 = 词嵌入 + 位置编码

相加融合:两者维度相同,直接相加后输入模型。

通过word2vec,模型学会了什么?学会的信息对于transformer而言有什么用

Word2vec通过一个看似简单的任务——根据上下文预测中心词(CBOW)或根据中心词预测上下文(Skip-gram),学到了以下核心信息:

1. 词的“语义地图”

展开代码
示例:vec(“国王”) - vec(“男人”) + vec(“女人”) ≈ vec(“女王”)
  • 学到了语义类比关系(性别、复数、国家-首都等)
  • 意思相近的词在向量空间中彼此靠近
  • 这种相似性是基于用法的统计相似性,而非词典定义

2.词频和分布信息

  • 高频词(如“的”、“是”)向量通常较短,位于空间中心
  • 低频词(如“晦涩”、“量子”)向量较长,位于边缘
  • 共享相似分布的词会聚集(如各种“水果”名)

3.简单句法关系

  • 学习到词性信息:名词、动词、形容词会形成不同簇
  • 简单的形态变化:cat → cats, run → running

Word2vec的局限性

静态表示:每个词只有一个固定向量 “苹果”在“我吃苹果”和“苹果股价”中是同一个向量 无法处理一词多义 上下文无关:不考虑句子中其他词的影响 纯粹基于整个语料库的共现统计 仅捕捉浅层关联:无法理解复杂句法、逻辑、长距离依赖

Word2vec学到的信息对Transformer有什么用

本文作者:cc

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!