AI / API 术语词典
快速了解 AI 和 API 领域的常用术语
API (Application Programming Interface)
基础概念应用程序编程接口,允许不同软件系统之间进行通信的规范。在 AI 领域,通常指通过 HTTP 请求调用大模型能力的接口。
API Key
基础概念用于身份验证的密钥字符串。调用 AI API 时需要在请求头中携带此密钥,服务商据此识别用户并计费。
Token
核心概念大模型处理文本的基本单位。一个 Token 并非一个字或一个词,而是模型 tokenizer 分割出的最小片段。英文中 1 个词约 1-1.5 tokens,中文中 1 个汉字约 1.5-2 tokens。
Tokenizer
核心概念将文本切分为 Token 的工具。不同模型使用不同的 Tokenizer(如 GPT 用 tiktoken,Claude 用 SentencePiece),因此同一文本在不同模型下的 Token 数不同。
上下文窗口 (Context Window)
核心概念模型单次对话中能处理的最大 Token 数。包括输入和输出的总和。例如 GPT-4o 的上下文窗口为 128K tokens,Claude 3.5 Sonnet 为 200K tokens。
Prompt (提示词)
核心概念发送给 AI 模型的输入文本,用于指导模型生成期望的输出。Prompt 工程是优化模型输出质量的关键技术。
System Prompt (系统提示)
核心概念在对话开始前设置的特殊指令,用于定义模型的行为模式、角色和约束条件。通常在 API 调用中作为 `messages` 数组的第一个元素。
LLM (Large Language Model)
基础概念大语言模型,基于海量文本数据训练的深度学习模型,具备理解和生成自然语言的能力。代表模型包括 GPT-4、Claude、Gemini 等。
Transformer
技术架构一种神经网络架构,是目前几乎所有大语言模型的基础。由 Google 在 2017 年的论文《Attention is All You Need》中提出。
Attention (注意力机制)
技术架构Transformer 的核心组件。允许模型在处理每个 Token 时"关注"输入序列中的其他位置,从而捕捉上下文关系。
Fine-tuning (微调)
技术方法在预训练大模型的基础上,使用特定领域或任务的数据进一步训练,使模型更适应目标场景。
RAG (Retrieval-Augmented Generation)
技术方法检索增强生成。将外部知识库与大模型结合,先检索相关文档,再将检索结果作为上下文输入模型,从而提高回答的准确性和时效性。
Embedding (向量嵌入)
技术方法将文本转换为高维数值向量的技术。向量之间的距离反映语义相似度,广泛用于搜索、推荐和 RAG 系统。
向量数据库 (Vector Database)
技术架构专门存储和检索向量嵌入的数据库。支持高效的相似度搜索。常见产品包括 Pinecone、Weaviate、Milvus、Qdrant。
Streaming (流式输出)
技术概念API 以 Server-Sent Events (SSE) 的方式逐步返回模型生成的内容,而非等待全部生成完毕后一次性返回。用户体验更好,首字响应更快。
SSE (Server-Sent Events)
技术概念一种服务器向客户端推送数据的 HTTP 协议。在 AI API 中用于实现流式输出,客户端通过 `text/event-stream` 类型接收增量数据。
多模态 (Multimodal)
模型能力模型能同时处理多种类型的数据,如文本、图片、音频、视频。GPT-4o、Gemini 等是典型的多模态模型。
Vision (视觉理解)
模型能力模型理解和描述图片内容的能力。支持图片输入,可以进行图像描述、OCR、图表解读等任务。
Function Calling (函数调用)
模型能力模型根据用户意图,选择并调用预定义的函数/工具的能力。模型不直接执行函数,而是返回函数名和参数,由开发者执行后将结果回传。
Tool Use (工具使用)
模型能力Function Calling 的扩展概念。模型可以使用多种外部工具(如搜索引擎、计算器、代码执行器),实现更复杂的任务。
Agent (智能体)
应用模式基于大模型构建的自主决策系统。能够理解目标、制定计划、调用工具、迭代执行,直到任务完成。代表项目包括 AutoGPT、Claude Computer Use 等。
Temperature (温度)
API 参数控制模型输出随机性的参数。值越高(如 1.0)输出越多样和创造性;值越低(如 0.1)输出越确定和保守。
Top-P (核采样)
API 参数另一种控制输出多样性的采样策略。模型只从概率累积和达到 P 值的最高概率 Token 集合中采样。与 Temperature 可组合使用。
Rate Limit (速率限制)
API 参数API 服务商对单位时间内请求次数或 Token 消耗量的限制。常见限制包括 RPM(每分钟请求数)和 TPM(每分钟 Token 数)。
Quota (额度/配额)
计费概念中转站套餐中的可用量限制。通常以美元额度或 Token 数量计算。超出额度后可能需要续费或按量付费。
倍率 (Multiplier)
计费概念中转站相对于官方价格的比率。倍率 1.0 表示原价,0.5 表示半价。不同模型在同一中转站的倍率可能不同。
Endpoint (端点)
基础概念API 接口的具体访问地址(URL)。如 `https://api.openai.com/v1/chat/completions` 就是 OpenAI 聊天补全接口的 Endpoint。
REST API
基础概念基于 HTTP 协议的 API 设计风格。使用 GET/POST/PUT/DELETE 等方法操作资源。大部分 AI API 采用 RESTful 风格设计。
幻觉 (Hallucination)
模型局限模型生成看似合理但实际上不正确或无中生有的内容。这是当前大模型的已知局限,可通过 RAG、事实核查等方式缓解。
延迟 (Latency)
性能指标从发送 API 请求到收到响应的时间。包括网络传输延迟、排队等待时间和模型推理时间。TTFB(首字节延迟)是衡量用户体验的关键指标。