① Transformer 是什么?#
全称:Transformer 架构
它是目前几乎所有大语言模型(ChatGPT、Llama、Qwen、DeepSeek 等)的核心骨架。
主要特点:抛弃了传统的 RNN、LSTM,完全使用 Self-Attention(自注意力机制) 来处理序列数据。
优点:并行计算能力强,能很好地捕捉长距离依赖关系。
简单说:Transformer 是一种强大的神经网络结构。
② BERT 是什么?#
BERT = Bidirectional Encoder Representations from Transformers
中文:基于 Transformer 的双向编码器表示
BERT 是 Google 在 2018 年发布的预训练语言模型,它使用了 Transformer 中的 Encoder(编码器)部分。
BERT 的最大创新是双向理解:它能同时看一个词的左边和右边上下文(而之前的模型大多只能看一边)。
BERT 一经发布就大幅刷新了各种 NLP 任务的记录,后来几乎所有现代语言模型都受到了它的影响。
③ [CLS] 是什么?为什么会出现?#
[CLS] 是 “Class” 的缩写,中文常称为 分类标记 或 句首标记。
它的作用是:
在 BERT 处理文本时,会在输入文本的最前面自动加上一个特殊的 Token:[CLS]。
例如输入句子:
“今天天气很好”
经过 Tokenizer 处理后变成:
[CLS] 今 天 天 气 很 好
BERT 的 Transformer 编码器会对整个序列(包括 [CLS])进行处理。
关键点来了:
通过自注意力机制(Self-Attention),[CLS] 这个位置会逐渐“吸收”整个句子的所有信息。
训练时,BERT 被专门训练成:让 [CLS] 的最终向量能代表整个句子的整体语义。
因此,在做文本分类、情感分析、相似度计算等任务时,人们通常直接取出 [CLS] 位置的向量来代表整个文本块,而不需要再对所有 Token 做平均。