聚合AI大模型与API中转/代理服务商资讯，提供攻略教程、工具导航、价格对比与评测

应用程序编程接口，允许不同软件系统之间进行通信的规范。在 AI 领域，通常指通过 HTTP 请求调用大模型能力的接口。

相关：

用于身份验证的密钥字符串。调用 AI API 时需要在请求头中携带此密钥，服务商据此识别用户并计费。

相关：

大模型处理文本的基本单位。一个 Token 并非一个字或一个词，而是模型 tokenizer 分割出的最小片段。英文中 1 个词约 1-1.5 tokens，中文中 1 个汉字约 1.5-2 tokens。

相关：

将文本切分为 Token 的工具。不同模型使用不同的 Tokenizer（如 GPT 用 tiktoken，Claude 用 SentencePiece），因此同一文本在不同模型下的 Token 数不同。

相关：

模型单次对话中能处理的最大 Token 数。包括输入和输出的总和。例如 GPT-4o 的上下文窗口为 128K tokens，Claude 3.5 Sonnet 为 200K tokens。

相关：

发送给 AI 模型的输入文本，用于指导模型生成期望的输出。Prompt 工程是优化模型输出质量的关键技术。

相关：

在对话开始前设置的特殊指令，用于定义模型的行为模式、角色和约束条件。通常在 API 调用中作为 `messages` 数组的第一个元素。

相关：

大语言模型，基于海量文本数据训练的深度学习模型，具备理解和生成自然语言的能力。代表模型包括 GPT-4、Claude、Gemini 等。

相关：

一种神经网络架构，是目前几乎所有大语言模型的基础。由 Google 在 2017 年的论文《Attention is All You Need》中提出。

相关：

Transformer 的核心组件。允许模型在处理每个 Token 时"关注"输入序列中的其他位置，从而捕捉上下文关系。

相关：

在预训练大模型的基础上，使用特定领域或任务的数据进一步训练，使模型更适应目标场景。

相关：

检索增强生成。将外部知识库与大模型结合，先检索相关文档，再将检索结果作为上下文输入模型，从而提高回答的准确性和时效性。

相关：

将文本转换为高维数值向量的技术。向量之间的距离反映语义相似度，广泛用于搜索、推荐和 RAG 系统。

相关：

专门存储和检索向量嵌入的数据库。支持高效的相似度搜索。常见产品包括 Pinecone、Weaviate、Milvus、Qdrant。

相关：

API 以 Server-Sent Events (SSE) 的方式逐步返回模型生成的内容，而非等待全部生成完毕后一次性返回。用户体验更好，首字响应更快。

相关：

一种服务器向客户端推送数据的 HTTP 协议。在 AI API 中用于实现流式输出，客户端通过 `text/event-stream` 类型接收增量数据。

相关：

模型能同时处理多种类型的数据，如文本、图片、音频、视频。GPT-4o、Gemini 等是典型的多模态模型。

相关：

模型理解和描述图片内容的能力。支持图片输入，可以进行图像描述、OCR、图表解读等任务。

相关：

模型根据用户意图，选择并调用预定义的函数/工具的能力。模型不直接执行函数，而是返回函数名和参数，由开发者执行后将结果回传。

相关：

Function Calling 的扩展概念。模型可以使用多种外部工具（如搜索引擎、计算器、代码执行器），实现更复杂的任务。

相关：

基于大模型构建的自主决策系统。能够理解目标、制定计划、调用工具、迭代执行，直到任务完成。代表项目包括 AutoGPT、Claude Computer Use 等。

相关：

控制模型输出随机性的参数。值越高（如 1.0）输出越多样和创造性；值越低（如 0.1）输出越确定和保守。

相关：

另一种控制输出多样性的采样策略。模型只从概率累积和达到 P 值的最高概率 Token 集合中采样。与 Temperature 可组合使用。

相关：

API 服务商对单位时间内请求次数或 Token 消耗量的限制。常见限制包括 RPM（每分钟请求数）和 TPM（每分钟 Token 数）。

相关：

中转站套餐中的可用量限制。通常以美元额度或 Token 数量计算。超出额度后可能需要续费或按量付费。

相关：

中转站相对于官方价格的比率。倍率 1.0 表示原价，0.5 表示半价。不同模型在同一中转站的倍率可能不同。

相关：

API 接口的具体访问地址（URL）。如 `https://api.openai.com/v1/chat/completions` 就是 OpenAI 聊天补全接口的 Endpoint。

相关：

基于 HTTP 协议的 API 设计风格。使用 GET/POST/PUT/DELETE 等方法操作资源。大部分 AI API 采用 RESTful 风格设计。

相关：

模型生成看似合理但实际上不正确或无中生有的内容。这是当前大模型的已知局限，可通过 RAG、事实核查等方式缓解。

相关：

从发送 API 请求到收到响应的时间。包括网络传输延迟、排队等待时间和模型推理时间。TTFB（首字节延迟）是衡量用户体验的关键指标。

相关：

术语词典

AI / API 术语词典

API (Application Programming Interface)

API Key

Token

Tokenizer

上下文窗口 (Context Window)

Prompt (提示词)

System Prompt (系统提示)

LLM (Large Language Model)

Transformer

Attention (注意力机制)

Fine-tuning (微调)

RAG (Retrieval-Augmented Generation)

Embedding (向量嵌入)

向量数据库 (Vector Database)

Streaming (流式输出)

SSE (Server-Sent Events)

多模态 (Multimodal)

Vision (视觉理解)

Function Calling (函数调用)

Tool Use (工具使用)

Agent (智能体)

Temperature (温度)

Top-P (核采样)

Rate Limit (速率限制)

Quota (额度/配额)

倍率 (Multiplier)

Endpoint (端点)

REST API

幻觉 (Hallucination)

延迟 (Latency)