API (Application Programming Interface)

基础概念

应用程序编程接口,允许不同软件系统之间进行通信的规范。在 AI 领域,通常指通过 HTTP 请求调用大模型能力的接口。

API Key

基础概念

用于身份验证的密钥字符串。调用 AI API 时需要在请求头中携带此密钥,服务商据此识别用户并计费。

Token

核心概念

大模型处理文本的基本单位。一个 Token 并非一个字或一个词,而是模型 tokenizer 分割出的最小片段。英文中 1 个词约 1-1.5 tokens,中文中 1 个汉字约 1.5-2 tokens。

Tokenizer

核心概念

将文本切分为 Token 的工具。不同模型使用不同的 Tokenizer(如 GPT 用 tiktoken,Claude 用 SentencePiece),因此同一文本在不同模型下的 Token 数不同。

上下文窗口 (Context Window)

核心概念

模型单次对话中能处理的最大 Token 数。包括输入和输出的总和。例如 GPT-4o 的上下文窗口为 128K tokens,Claude 3.5 Sonnet 为 200K tokens。

Prompt (提示词)

核心概念

发送给 AI 模型的输入文本,用于指导模型生成期望的输出。Prompt 工程是优化模型输出质量的关键技术。

System Prompt (系统提示)

核心概念

在对话开始前设置的特殊指令,用于定义模型的行为模式、角色和约束条件。通常在 API 调用中作为 `messages` 数组的第一个元素。

LLM (Large Language Model)

基础概念

大语言模型,基于海量文本数据训练的深度学习模型,具备理解和生成自然语言的能力。代表模型包括 GPT-4、Claude、Gemini 等。

Transformer

技术架构

一种神经网络架构,是目前几乎所有大语言模型的基础。由 Google 在 2017 年的论文《Attention is All You Need》中提出。

Attention (注意力机制)

技术架构

Transformer 的核心组件。允许模型在处理每个 Token 时"关注"输入序列中的其他位置,从而捕捉上下文关系。

Fine-tuning (微调)

技术方法

在预训练大模型的基础上,使用特定领域或任务的数据进一步训练,使模型更适应目标场景。

RAG (Retrieval-Augmented Generation)

技术方法

检索增强生成。将外部知识库与大模型结合,先检索相关文档,再将检索结果作为上下文输入模型,从而提高回答的准确性和时效性。

Embedding (向量嵌入)

技术方法

将文本转换为高维数值向量的技术。向量之间的距离反映语义相似度,广泛用于搜索、推荐和 RAG 系统。

向量数据库 (Vector Database)

技术架构

专门存储和检索向量嵌入的数据库。支持高效的相似度搜索。常见产品包括 Pinecone、Weaviate、Milvus、Qdrant。

Streaming (流式输出)

技术概念

API 以 Server-Sent Events (SSE) 的方式逐步返回模型生成的内容,而非等待全部生成完毕后一次性返回。用户体验更好,首字响应更快。

SSE (Server-Sent Events)

技术概念

一种服务器向客户端推送数据的 HTTP 协议。在 AI API 中用于实现流式输出,客户端通过 `text/event-stream` 类型接收增量数据。

多模态 (Multimodal)

模型能力

模型能同时处理多种类型的数据,如文本、图片、音频、视频。GPT-4o、Gemini 等是典型的多模态模型。

Vision (视觉理解)

模型能力

模型理解和描述图片内容的能力。支持图片输入,可以进行图像描述、OCR、图表解读等任务。

Function Calling (函数调用)

模型能力

模型根据用户意图,选择并调用预定义的函数/工具的能力。模型不直接执行函数,而是返回函数名和参数,由开发者执行后将结果回传。

Tool Use (工具使用)

模型能力

Function Calling 的扩展概念。模型可以使用多种外部工具(如搜索引擎、计算器、代码执行器),实现更复杂的任务。

Agent (智能体)

应用模式

基于大模型构建的自主决策系统。能够理解目标、制定计划、调用工具、迭代执行,直到任务完成。代表项目包括 AutoGPT、Claude Computer Use 等。

Temperature (温度)

API 参数

控制模型输出随机性的参数。值越高(如 1.0)输出越多样和创造性;值越低(如 0.1)输出越确定和保守。

Top-P (核采样)

API 参数

另一种控制输出多样性的采样策略。模型只从概率累积和达到 P 值的最高概率 Token 集合中采样。与 Temperature 可组合使用。

Rate Limit (速率限制)

API 参数

API 服务商对单位时间内请求次数或 Token 消耗量的限制。常见限制包括 RPM(每分钟请求数)和 TPM(每分钟 Token 数)。

Quota (额度/配额)

计费概念

中转站套餐中的可用量限制。通常以美元额度或 Token 数量计算。超出额度后可能需要续费或按量付费。

倍率 (Multiplier)

计费概念

中转站相对于官方价格的比率。倍率 1.0 表示原价,0.5 表示半价。不同模型在同一中转站的倍率可能不同。

Endpoint (端点)

基础概念

API 接口的具体访问地址(URL)。如 `https://api.openai.com/v1/chat/completions` 就是 OpenAI 聊天补全接口的 Endpoint。

REST API

基础概念

基于 HTTP 协议的 API 设计风格。使用 GET/POST/PUT/DELETE 等方法操作资源。大部分 AI API 采用 RESTful 风格设计。

幻觉 (Hallucination)

模型局限

模型生成看似合理但实际上不正确或无中生有的内容。这是当前大模型的已知局限,可通过 RAG、事实核查等方式缓解。

延迟 (Latency)

性能指标

从发送 API 请求到收到响应的时间。包括网络传输延迟、排队等待时间和模型推理时间。TTFB(首字节延迟)是衡量用户体验的关键指标。