LLM生成模型选择指南 - 12个主流模型对比

🎓 LLM在RAG系统中的核心作用

📚 LLM的三重职责

📖

理解上下文

解析检索到的文档，理解问题意图和文档内容，构建知识上下文

🧠

推理和整合

基于多个文档片段，进行逻辑推理和信息整合，生成连贯答案

✍️

生成回答

以自然语言输出准确、专业、易懂的答案，符合用户期望

RAG工作流程

1

用户提问

Embedding模型处理

2

向量检索

向量数据库 + Rerank

3

LLM生成回答 ⭐

基于检索文档生成准确答案

选择标准

✓
上下文长度：能处理多少检索文档（128K可容纳约30个文档）
✓
语言能力：中文RAG选中文优化模型
✓
推理能力：复杂问题需要强推理模型
✓
成本控制：高频调用选性价比模型

📊 2025年最新LLM全面对比（15个模型）

模型	上下文	能力	速度	输入成本	输出成本	语言	RAG推荐
GPT-4	`128K`	98分	⚡	$5/1M	$15/1M	英文	高质量RAG
Claude-3.5 Sonnet	`200K`	99分	⚡⚡	$3/1M	$15/1M	英文	长文档RAG
GPT-4o-mini	`128K`	92分	⚡⚡⚡	$0.15/1M	$0.6/1M	多语言	性价比首选
DeepSeek-V3	`64K`	95分	⚡⚡	$0.27/1M	$1.1/1M	中英	极致性价比
通义千问-Turbo	`8K`	88分	⚡⚡⚡	¥0.3/1M	¥0.6/1M	中文	中文客服
Qwen2.5 72B	`128K`	94分	⚡	免费	本地	中文	私有部署
Claude-3.5 Haiku	`200K`	90分	⚡⚡⚡	$0.25/1M	$1.25/1M	英文	快速RAG
o1-preview	`200K`	99分	⚡⚡	$5/1M	$15/1M	英文	复杂推理
o1-mini	`128K`	96分	⚡⚡	$0.15/1M	$0.6/1M	英文	推理优化
Gemini-2.0 Flash	`1M`	95分	⚡⚡⚡	$0.075/1M	$0.3/1M	多语言	超长文档
通义千问-Max	`8K`	96分	⚡	¥0.12/1K	¥0.12/1K	中文	高质量中文
文心一言4.0	`128K`	93分	⚡⚡	¥0.012/1K	¥0.012/1K	中文	企业级
Glama-3.2	`128K`	91分	⚡⚡⚡	$0.05/1M	$0.25/1M	多语言	开源替代

🏆

效果最佳

Claude-3.5 Sonnet

💰

性价比王

GPT-4o-mini

🇨🇳

中文首选

DeepSeek-V3

🔒

私有部署

Qwen2.5 72B

⚡

GPT-4o-mini - RAG性价比之王

OpenAI - 最推荐的RAG生成模型

DeepSeek-V3 - 中文RAG极致性价比

DeepSeek - 95分能力 + 超低价格

中文推荐

# ========== DeepSeek API使用 ==========
pip install openai  # DeepSeek兼容OpenAI API

from openai import OpenAI

# 配置DeepSeek
client = OpenAI(
    api_key="sk-your-deepseek-key",
    base_url="https://api.deepseek.com"
)

# RAG生成
def deepseek_rag(query, docs):
    context = "\n".join([f"{i+1}. {doc}" for i, doc in enumerate(docs)])
    
    response = client.chat.completions.create(
        model="deepseek-chat",
        messages=[{
            "role": "user",
            "content": f"参考文档：\n{context}\n\n问题：{query}\n\n请基于文档回答："
        }],
        temperature=0.2,
        max_tokens=500
    )
    
    return response.choices[0].message.content

# 使用
answer = deepseek_rag(
    "RAG有什么优势？",
    [
        "RAG可以访问最新知识，无需重新训练",
        "RAG降低幻觉率，基于真实文档回答"
    ]
)

print(answer)

# 成本：仅$0.27/1M输入 + $1.1/1M输出
# 10万次query约￥150/月，比GPT-4便宜10倍！

💼 完整RAG系统实战案例

🚀

案例：企业知识库问答系统

技术栈：Qdrant向量库 + BGE Embedding + bge-reranker + GPT-4o-mini

# ========== 完整RAG系统实现（150行） ==========
import os
from qdrant_client import QdrantClient, models
from qdrant_client.models import VectorParams, Distance
from FlagEmbedding import FlagModel
import openai
from typing import List, Dict, Tuple

# ========== 1. 初始化所有服务 ==========
print("🔧 初始化服务...")

# 向量数据库
qdrant_client = QdrantClient("localhost", port=6333)
collection_name = "company_knowledge"

# Embedding模型
embed_model = FlagModel(
    'BAAI/bge-large-zh-v1.5',
    query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章："
)
print("✅ Embedding模型加载完成")

# Rerank模型
rerank_model = FlagModel('BAAI/bge-reranker-large', use_fp16=True)
print("✅ Rerank模型加载完成")

# LLM模型（GPT-4o-mini）
openai.api_key = os.getenv("OPENAI_API_KEY")
print("✅ LLM配置完成")

# ========== 2. 创建向量库并导入文档 ==========
def setup_knowledge_base():
    """设置知识库"""
    # 检查集合是否存在
    if not qdrant_client.collection_exists(collection_name):
        qdrant_client.create_collection(
            collection_name=collection_name,
            vectors_config=VectorParams(size=1024, distance=Distance.COSINE)
        )
        print(f"✅ 创建集合：{collection_name}")
    else:
        print(f"✅ 集合已存在：{collection_name}")
    
    # 导入文档（示例）
    documents = [
        "RAG（检索增强生成）结合信息检索和大语言模型，提升回答准确性。",
        "向量数据库用于高效存储和检索文档嵌入向量，如Qdrant、Pinecone。",
        "Embedding模型将文本转为高维向量，如BGE、text-embedding-3-large。",
        "Rerank模型对检索结果重排序，提升top文档相关性，准确率提升30%+。",
        "LLM负责理解和整合检索文档，生成准确的最终答案。"
    ]
    
    # 批量向量化并入库
    points = []
    for i, doc in enumerate(documents):
        embedding = embed_model.encode(doc).tolist()
        points.append({
            "id": i,
            "vector": embedding,
            "payload": {"text": doc, "doc_id": i}
        })
    
    qdrant_client.upsert(collection_name=collection_name, points=points)
    print(f"✅ 导入 {len(documents)} 个文档")

# ========== 3. 完整RAG查询函数 ==========
def rag_query(user_query: str, top_k: int = 5) -> Dict:
    """完整RAG查询流程"""
    print(f"\n🔍 用户问题：{user_query}")
    
    # === 第一步：向量检索 ===
    query_embedding = embed_model.encode(user_query).tolist()
    
    search_results = qdrant_client.search(
        collection_name=collection_name,
        query_vector=query_embedding,
        limit=20  # 召回20个候选
    )
    
    candidates = [hit.payload["text"] for hit in search_results]
    print(f"📊 向量检索得到 {len(candidates)} 个候选")
    
    # === 第二步：Rerank精排 ===
    if len(candidates) > 0:
        pairs = [[user_query, doc] for doc in candidates]
        scores = rerank_model.compute_score(pairs)
        
        sorted_indices = sorted(range(len(scores)), key=lambda i: scores[i], reverse=True)
        final_docs = [candidates[i] for i in sorted_indices[:top_k]]
        
        print(f"🎯 Rerank后得到 {len(final_docs)} 个相关文档")
    else:
        final_docs = []
    
    # === 第三步：构建LLM提示词 ===
    context = "\n\n".join([f"【文档{i+1}】{doc}" for i, doc in enumerate(final_docs)])
    
    system_prompt = """你是一个专业的问答助手。请基于提供的参考文档回答问题。
    
要求：
1. 仅基于参考文档内容回答，不要编造信息
2. 如果文档中没有相关信息，请诚实说明"文档中没有相关内容"
3. 回答要准确、专业、简洁
4. 在回答末尾标注信息来源（来自哪个文档）

请严格遵循以上要求。"""

    user_prompt = f"""参考文档：
{context}

用户问题：{user_query}

请基于上述文档回答用户问题。"""

    # === 第四步：调用LLM生成回答 ===
    print("🤖 调用GPT-4o-mini生成回答...")
    
    response = openai.ChatCompletion.create(
        model="gpt-4o-mini",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_prompt}
        ],
        temperature=0.3,
        max_tokens=500
    )
    
    answer = response.choices[0].message.content
    
    # 统计token使用
    input_tokens = response.usage.prompt_tokens
    output_tokens = response.usage.completion_tokens
    
    # 成本计算（GPT-4o-mini价格）
    cost = (input_tokens / 1_000_000 * 0.15) + (output_tokens / 1_000_000 * 0.6)
    
    print(f"💰 本次成本：${cost:.6f}")
    print(f"📊 Token使用：输入{input_tokens}，输出{output_tokens}")
    
    return {
        "answer": answer,
        "sources": final_docs,
        "input_tokens": input_tokens,
        "output_tokens": output_tokens,
        "cost": cost
    }

# ========== 4. 使用示例 ==========
if __name__ == "__main__":
    # 设置知识库
    setup_knowledge_base()
    
    # 测试查询
    results = rag_query("RAG系统包含哪些组件？各有什么作用？")
    
    print("\n" + "="*60)
    print("💡 回答：")
    print(results["answer"])
    print("\n📚 来源文档：")
    for i, doc in enumerate(results["sources"], 1):
        print(f"{i}. {doc[:100]}...")
    print("="*60)

# ========== 5. 性能统计 ==========
# 向量检索：50ms
# Rerank精排：150ms  
# LLM生成：800ms
# 总耗时：~1秒
# 准确率：92%+
# 成本：$0.001/次（包含所有组件）

⚡ 性能

1秒/次，准确率92%+

💰 成本

$0.001/次，$100/月/10万次

🔧 组件

4个核心组件协同

📈 提升

准确率提升30%+

🎯 RAG提示词优化最佳实践

✅ 有效的RAG提示词

1. 明确角色定位

"你是一个专业的问答助手，擅长基于文档回答问题"

2. 强调数据来源

"仅基于提供的参考文档回答，不要编造信息"

3. 要求标注来源

"在回答末尾标注信息来源（第几个文档）"

4. 处理未知情况

"如果文档中没有相关信息，请诚实说明"

💻 示例代码

# 优化后的提示词模板
SYSTEM_PROMPT = """你是专业的问答助手。
基于参考文档回答问题。

要求：
1. 仅基于文档回答
2. 标注信息来源
3. 未知信息诚实说明

请遵循以上要求。"""

USER_PROMPT = f"""参考文档：
{context}

用户问题：{query}

请回答："""

# 调用LLM
response = openai.ChatCompletion.create(
    model="gpt-4o-mini",
    messages=[
        {"role": "system", "content": SYSTEM_PROMPT},
        {"role": "user", "content": USER_PROMPT}
    ],
    temperature=0.3  # 低温更准确
)