A

AGI（Artificial General Intelligence）
通用人工智能：具备人类水平的多领域智能的AI（尚未实现）。

Alignment（对齐）
确保AI行为与人类价值观一致的技术与伦理研究。

Agents（智能体）
能自主规划、执行任务的AI系统（如AutoGPT）。

B

BERT（Bidirectional Encoder Representations from Transformers）
谷歌开发的预训练语言模型，擅长理解上下文。

C

Chain-of-Thought（CoT，思维链）
让模型分步骤推理，提升复杂问题解答能力。

Copilot（如GitHub Copilot）
AI编程助手，基于代码生成模型辅助开发。

Chunking（分段）

定义
将长文本分割为更小的片段（Chunks），以适应模型输入限制或优化检索效果。
核心目的

解决上下文窗口限制（如GPT-4的32k token限制）。
提升检索精度（避免长文本噪声干扰）。

常用方法

固定长度分段：按字符/词数均分（如每512个token一段）。
语义分段：基于句子或段落边界分割（如Spacy、NLTK工具）。
重叠分段：相邻片段保留部分重叠内容，避免信息断裂。

D

Diffusion Model（扩散模型）
生成模型的一种，通过逐步去噪生成图像/音频（如Stable Diffusion）。

E

Embedding（嵌入）
将数据（如文本）转换为数值向量，用于计算相似性。

F

Fine-Tuning（微调）
在预训练模型基础上，用特定数据优化以适应任务。

Few-Shot Learning（小样本学习）
模型通过少量示例学习新任务。

G

GPT（Generative Pre-trained Transformer）
OpenAI的生成式预训练模型系列（如GPT-4）。

H

Hallucination（幻觉）
模型生成虚假或错误内容的现象。

K

Knowledge Base（知识库）

定义
结构化或非结构化的数据集合，用于存储领域知识（如文档、QA对、数据库等），是RAG等技术的核心组成部分。
在RAG中的作用
作为外部数据源，通过检索增强生成（Retrieval-Augmented Generation）为模型提供实时、准确的参考信息，减少幻觉。
常见类型

向量知识库：文本通过Embedding转换为向量后存储（如使用FAISS、Milvus等向量数据库）。
图数据库：以节点和关系存储知识（如Neo4j）。
传统数据库：结构化数据（MySQL、MongoDB等）。

L

LLM（Large Language Model）
大语言模型：基于海量文本训练的生成式AI（如ChatGPT）。

LoRA（Low-Rank Adaptation）
轻量级微调技术，降低计算成本。

M

MCP（Model Control Problem）
模型控制问题：确保AI行为符合设计目标。

MoE（Mixture of Experts）
混合专家模型：将任务分配给多个子模型处理（如GPT-4部分采用）。

N

Narrow AI（弱人工智能）
专注于特定任务的AI（如人脸识别）。

P

Prompt（提示词）
输入给AI的指令或问题，用于引导输出。

Prompt Engineering（提示工程）
优化提示词以提升AI性能的技术。

R

RAG（Retrieval-Augmented Generation）
检索增强生成：结合实时检索和生成的技术，减少幻觉。

RLHF（Reinforcement Learning from Human Feedback）
基于人类反馈的强化学习，用于优化模型输出。

Recall（召回）

定义
在检索阶段，系统从知识库中返回与查询相关的候选结果的能力，衡量检索的全面性。
关键指标

召回率（Recall Rate）：正确检索到的相关结果占全部相关结果的比例。
精确率（Precision）：返回结果中真正相关的比例。
排序优化：通过重排序（Re-ranking）提升Top结果的准确性。

影响召回的因素

分段的合理性（如过小的Chunk可能丢失上下文）。
检索算法（如BM25、向量相似度、混合检索）。
Embedding模型的质量（如OpenAI的text-embedding-3-large）。

T

Transformer
基于自注意力机制的模型架构（如GPT、BERT的核心）。

Toxicity（毒性）
模型生成有害内容（如歧视性言论）的倾向。

Z

Zero-Shot Learning（零样本学习）
模型在无示例情况下直接完成任务。

V

Vector Database（向量数据库）

向量数据库（Vector Database）是专门用于存储、检索和管理向量数据（Embeddings）的数据库系统，广泛应用于大模型（LLM）、推荐系统、图像搜索等领域。

（1）什么是向量数据库？

定义：存储高维向量（如文本、图像、音频的Embedding）并支持高效相似性检索的数据库。
核心能力：

相似性搜索：快速找到与查询向量最相似的向量（如K近邻搜索）。
大规模存储：支持百万/亿级向量的低延迟检索。
混合检索：结合结构化数据（如标签、元数据）和向量搜索。

（2）为什么需要向量数据库？

传统数据库（如MySQL）不适合向量搜索：

无法高效计算高维向量的相似度（如余弦相似度）。
线性搜索速度慢，无法满足实时需求。

向量数据库的优势：

使用近似最近邻（ANN）算法加速搜索（如HNSW、IVF）。
专为AI场景优化，支持高并发、低延迟查询。

蓝布编程网

分享编程技术文章，编程语言教程与实战经验

那些AI时代的词汇，学起来!（ai时代英文）

A

B

C

D

E

F

G

H

K

L

M

N

P

R

T

Z

V

（1）什么是向量数据库？

（2）为什么需要向量数据库？