第一章：什么是大语言模型（LLM）

更新 2025年10月11日

< 1 min read

能产业经过许多年的发展，衍生出了种类繁多的AI模型，比如广泛用于图像识别（例如新能源汽车的自动驾驶辅助）的计算机视觉模型 (Computer Vision Models)，用于各种智能家庭助理（例如小爱同学/Siri）的语音识别与合成模型 (ASR/TTS)，用于机器人控制和自动化交易（例如AlphaGo）的强化学习模型 (Reinforcement Learning Models)等等。而在这其中，最广为人知的就是生成式AI模型 (Generative AI Models)。

生成式AI，顾名思义，就是能够“创造”新内容的AI。它们可以生成图片（Midjourney、Stable Diffusion）、谱写音乐，当然，还有我们最关心的——生成文本。而专门用于处理和生成人类语言的，就是我们今天的主角：大语言模型 (Large Language Model, LLM)。我们所熟知的 ChatGPT, Claude, Gemini, DeepSeek等，都属于LLM的范畴。

要理解LLM的工作原理，请暂时忘记所有关于“思考”、“智能”或“意识”的想象。我们可以用一个更贴切的比喻来形容它：

LLM是一位知识渊博到极致，但却患有完全失忆症的“填词游戏大师”。

这位大师有两个显著特点：

他是“终极填词大师”：他读完了人类历史上几乎所有的公开文本——书籍、百科、网页、对话……因此，他掌握了一项独一无二的超能力：预测下一个词。你给他任何一段话，他的唯一任务就是根据他脑中庞大的“语言概率数据库”，计算出在统计学上，下一个最应该出现的词是什么。他不是在理解，而是在做一种极其高级的、基于概率的“填词游戏”。这个“概率数据库”并非一张简单的表格，而是一个由数千亿个神经元连接组成的、极其复杂的网络。正是这个网络，让他能够捕捉到语言中那些微妙的风格、语气和逻辑关系。
他是“完全失忆症患者”：他的记忆力为零。每当他说完一个词或一句话，他就会立刻忘记自己刚刚说过什么，也忘记了你是谁。他的大脑会瞬间清空，等待下一次指令。

那么，我们究竟要如何与这样一位“失忆的天才”进行流畅的对话呢？答案就在于两个核心概念：Prompt 和 Context。

您的感觉是什么

还有问题？我们能帮忙吗？

更新 2025年10月11日

您的感觉是什么

分享这篇文章 ：

需要什么帮助？

分享这篇文章：