LlamaIndex

LlamaIndex (原名 GPT Index) 是一个专注于数据检索和 Retrieval Augmented Generation (检索增强生成) 的开源框架，由 Jerry Liu 和 Simon Suo 于 2022 年11月创建。它提供了一套工具和 API，帮助开发者将私有数据与 Large Language Model (LLM) 连接起来，实现高质量的检索增强生成。

概览

与 LangChain 不同，LlamaIndex 更专注于"数据架构"层，提供了更精细的数据索引、查询和检索能力。它支持多种数据源和向量数据库，并提供了高级的检索策略和重排序算法。

核心组件

数据处理

组件	功能
Data Loaders	从 160+ 数据源加载数据 (PDF、SQL、Notion、Slack 等)
Node Parsers	将文档分割成有意义的块 (Chunking)
Embeddings	支持 OpenAI、Cohere、Hugging Face 等多种嵌入模型
Vector Stores	支持 Chroma、Pinecone、Weaviate、Milvus 等

检索策略

基础检索: 向量相似度搜索
高级检索: 路由检索、子问题分解、多跳检索
重排序: 使用 LLM 对检索结果进行重新排序
压缩: 使用 LLM 生成摘要和关键词

Agent 和工作流

Query Engine: 简单的问答接口
Chat Engine: 带上下文的对话接口
Agents: 多步推理和工具调用
Workflows: 复杂的多步骤处理流程

主要功能

数据连接

python

from llama_index import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleDirectoryReader('data').load_data()
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
response = query_engine.query("问题")

高级 RAG 模式

自动检索优化: 根据查询类型自动选择最佳检索策略
多模态 RAG: 支持图像、视频、音频等非结构化数据
知识图谱: 将数据结构化为图，支持关系检索

定价

产品	定价模式
LlamaIndex (开源)	免费使用 (MIT 许可)
LlamaIndex Cloud	免费额度 + 按量付费
LlamaParse	文档解析服务，按页计费

生态定位

与 LangChain 对比: LlamaIndex 更专注数据检索，LangChain 更全面
数据中心: 强调数据索引和查询优化
与云服务集成: 提供托管云服务降低使用门槛

LlamaIndex ​

概览 ​

核心组件 ​

数据处理 ​

检索策略 ​

Agent 和工作流 ​

主要功能 ​

数据连接 ​

高级 RAG 模式 ​

定价 ​

生态定位 ​

相关实体 ​