蓝布编程网

分享编程技术文章,编程语言教程与实战经验

那些AI时代的词汇,学起来!(ai时代英文)

A

AGI(Artificial General Intelligence)
通用人工智能:具备人类水平的多领域智能的AI(尚未实现)。

Alignment(对齐)
确保AI行为与人类价值观一致的技术与伦理研究。

Agents(智能体)
能自主规划、执行任务的AI系统(如AutoGPT)。


B

BERT(Bidirectional Encoder Representations from Transformers)
谷歌开发的预训练语言模型,擅长理解上下文。


C

Chain-of-Thought(CoT,思维链)
让模型分步骤推理,提升复杂问题解答能力。

Copilot(如GitHub Copilot)
AI编程助手,基于代码生成模型辅助开发。

Chunking(分段)

  • 定义
    将长文本分割为更小的片段(Chunks),以适应模型输入限制或优化检索效果。
  • 核心目的
    • 解决上下文窗口限制(如GPT-4的32k token限制)。
    • 提升检索精度(避免长文本噪声干扰)。
  • 常用方法
    • 固定长度分段:按字符/词数均分(如每512个token一段)。
    • 语义分段:基于句子或段落边界分割(如Spacy、NLTK工具)。
    • 重叠分段:相邻片段保留部分重叠内容,避免信息断裂。

D

Diffusion Model(扩散模型)
生成模型的一种,通过逐步去噪生成图像/音频(如Stable Diffusion)。


E

Embedding(嵌入)
将数据(如文本)转换为数值向量,用于计算相似性。


F

Fine-Tuning(微调)
在预训练模型基础上,用特定数据优化以适应任务。

Few-Shot Learning(小样本学习)
模型通过少量示例学习新任务。


G

GPT(Generative Pre-trained Transformer)
OpenAI的生成式预训练模型系列(如GPT-4)。


H

Hallucination(幻觉)
模型生成虚假或错误内容的现象。

K

Knowledge Base(知识库)

  • 定义
    结构化或非结构化的数据集合,用于存储领域知识(如文档、QA对、数据库等),是RAG等技术的核心组成部分。
  • 在RAG中的作用
    作为外部数据源,通过检索增强生成(Retrieval-Augmented Generation)为模型提供实时、准确的参考信息,减少幻觉。
  • 常见类型
    • 向量知识库:文本通过Embedding转换为向量后存储(如使用FAISS、Milvus等向量数据库)。
    • 图数据库:以节点和关系存储知识(如Neo4j)。
    • 传统数据库:结构化数据(MySQL、MongoDB等)。

L

LLM(Large Language Model)
大语言模型:基于海量文本训练的生成式AI(如ChatGPT)。

LoRA(Low-Rank Adaptation)
轻量级微调技术,降低计算成本。


M

MCP(Model Control Problem)
模型控制问题:确保AI行为符合设计目标。

MoE(Mixture of Experts)
混合专家模型:将任务分配给多个子模型处理(如GPT-4部分采用)。


N

Narrow AI(弱人工智能)
专注于特定任务的AI(如人脸识别)。


P

Prompt(提示词)
输入给AI的指令或问题,用于引导输出。

Prompt Engineering(提示工程)
优化提示词以提升AI性能的技术。


R

RAG(Retrieval-Augmented Generation)
检索增强生成:结合实时检索和生成的技术,减少幻觉。

RLHF(Reinforcement Learning from Human Feedback)
基于人类反馈的强化学习,用于优化模型输出。

Recall(召回)

  • 定义
    在检索阶段,系统从知识库中返回与查询相关的候选结果的能力,衡量检索的全面性。
  • 关键指标
    • 召回率(Recall Rate):正确检索到的相关结果占全部相关结果的比例。
    • 精确率(Precision):返回结果中真正相关的比例。
    • 排序优化:通过重排序(Re-ranking)提升Top结果的准确性。
  • 影响召回的因素
    • 分段的合理性(如过小的Chunk可能丢失上下文)。
    • 检索算法(如BM25、向量相似度、混合检索)。
    • Embedding模型的质量(如OpenAI的text-embedding-3-large)。

T

Transformer
基于自注意力机制的模型架构(如GPT、BERT的核心)。

Toxicity(毒性)
模型生成有害内容(如歧视性言论)的倾向。


Z

Zero-Shot Learning(零样本学习)
模型在无示例情况下直接完成任务。

V

Vector Database(向量数据库)

向量数据库(Vector Database)是专门用于存储、检索和管理向量数据(Embeddings)的数据库系统,广泛应用于大模型(LLM)、推荐系统、图像搜索等领域。

(1)什么是向量数据库?

  • 定义:存储高维向量(如文本、图像、音频的Embedding)并支持高效相似性检索的数据库。
  • 核心能力:
    • 相似性搜索:快速找到与查询向量最相似的向量(如K近邻搜索)。
    • 大规模存储:支持百万/亿级向量的低延迟检索。
    • 混合检索:结合结构化数据(如标签、元数据)和向量搜索。

(2)为什么需要向量数据库?

  • 传统数据库(如MySQL)不适合向量搜索:
    • 无法高效计算高维向量的相似度(如余弦相似度)。
    • 线性搜索速度慢,无法满足实时需求。
  • 向量数据库的优势:
    • 使用近似最近邻(ANN)算法加速搜索(如HNSW、IVF)。
    • 专为AI场景优化,支持高并发、低延迟查询。
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言