AI 大模型

2026-02-26

概念

LLM

LLM（Large Language Model）是一种基于深度学习的自然语言处理模型，能够理解和生成人类语言。它通过海量的文本数据进行训练，可以用于文本生成、问答、翻译等任务。

BERT

BERT（Bidirectional Encoder Representations from Transformers）是由 Google AI Language 团队开发的开源 NaturalLanguage Processing （自然语言处理，简称NLP）模型框架。它是首批利用双向 Transformer 编码结构实现深层语义理解的语言模型之一，对 NLP 技术的发展产生了广泛而持久的影响。

特点：双向、理解（Encoder-only）、识别归纳

BERT 出名是因为它当时的出现是革命性的（所以这里单独说一下）：

第一次真正“预训练 + 微调”大规模成功：先在海量文本上预训练，再用少量数据微调具体任务
双向理解：同时看左边和右边的上下文
对 NLP 领域产生了深远影响
现代 LLM 的 ”奠基人“

LLM 是一个广泛概念，也在不断发展（例如 GPT 系列、deepseek Vx 等都是 LLM），可以把 BERT 也视为一种 LLM。

Transformer

Transformer 是一种用于深度学习的神经网络架构，由 Google Brain 的研究人员在 2017 年提出。它以完全基于“注意力机制（Attention Mechanism）”的设计取代了传统的循环神经网络（RNN）结构，极大地提升了自然语言处理和生成模型的性能。在 Transformer 出现之前，常用的是 RNN 和 LSTM，但是性能慢、质量差。

Transformer 主要由两部分堆叠组成：Encoder（理解，代表模型 BERT）、Decoder（生成，代表模型 GPT）。

Transformer 是现代人工智能的基础模型架构，是现代大模型的核心技术框架，被广泛应用于机器翻译、文本生成、语音识别、计算机视觉及多模态学习。

Token

自然语言使用文本数据，机器无法立即理解这些数据。计算机要处理语言，首先需要将文本转换为数字形式。这一过程由一个称为分词器（Tokenizer）的模型分为两个主要阶段。

Tokenizer 首先将文本分割成更小的部分，无论是单词、单词的部分，还是单个字符。这些较小的文本称为 Token。

分词器将文本划分为多个 Token 后，每个 Token 都可以被赋予一个称为 Token ID 的整数。本质上，Token 就是这个整数 ID。

例如，单词 cat 被编号为 15，因此输入文本中的每个 cat 标记都用数字 15 表示。用数字表示替代文本标记的过程称为编码。同样，将编码后的标记转换回文本的过程称为解码。

分词方法主要有三种（下面只是示例，具体分成什么有分词算法决定）：

基于词 word：has having running
基于单字符 character：h a s v e i n g r u…
基于子词 subword：ha ing…（英语中现在时、过去时、单数、复数拆词根）

MCP

Model Context Protocol（MCP）是一个由 Anthropic 在 2024 年提出并开源的标准化协议，用于让大型语言模型（LLM）应用与外部系统安全地互联互通。它旨在成为人工智能系统的“USB-C 接口”，统一不同模型与数据源、工具和服务之间的交互方式，降低集成复杂度并提升可扩展性。

MCP 让 AI 应用（如 Claude、ChatGPT）能够连接到外部数据源和工具，解决了 AI 模型孤立运行、无法访问实时数据的问题。

Agent

智能体，可以帮助执行命令，例如创建目录、文件、写入内容等等。

粗浅的理解，MCP 和 Agent 的关系类似于 LSP 和 IDE 的关系，没有 LSP，依然可以开发 IDE。

RAG

Retrieval-Augmented Generation：检索增强生成，先查资料，再回答问题。常用于内部知识库。

TTS

TTS（Text To Speech）是“文本转语音”技术，将文字信息转换为自然流畅的语音输出。

概念

LLM

BERT

Transformer

Token

MCP

Agent

RAG

TTS

说些什么吧！