1. 引言:为什么RAG评估不能只靠“感觉”?

想象这样一个场景:你辛辛苦苦搭建好一套RAG系统,知识库里有上万份专业文档,大模型也用的是业内公认的顶级闭源模型。用户问“高血压患者服用利尿剂后,血钾水平会如何变化?”,系统给出的回答引经据典、逻辑通顺,甚至附上了参考文献。你颇为得意,觉得这系统真厉害。然而,突然来了个新用户问“高血压患者服用噻嗪类利尿剂,血钾会降低吗?

”,系统却回答“无需担心血钾问题,因为现代利尿剂副作用可控”。这明显是错误的:噻嗪类利尿剂最常见的副作用恰恰是低钾血症。你的第一反应是什么?是不是觉得大模型在“胡说八道”?

这种“指标好看但体验差”的困境,是所有RAG实践者的噩梦。传统上,我们可能会用几个简单的指标,比如BLEU、ROUGE来评估生成文本的相似度,或者用Recall@K、Precision@K来评估检索结果的质量。但问题在于,这些指标往往是孤立的、片面的。即使检索结果的相关度Recall@K达到了0.9,生成文本的BLEU得分也很高,但最终用户得到的答案依然可能是错误、不完整,甚至带有幻觉的。

为什么?因为RAG系统是一个复杂的全链路系统。从Embedding模型的编码、向量数据库的检索,到大模型的融合生成,每一个环节都会引入噪声。如果只盯着检索或生成的单一环节,那就是盲人摸象。更致命的是,很多团队会陷入“指标优化陷阱”——为了提高Recall@K,不惜检索大量无关文档;为了提高BLEU得分,让模型输出千篇一律的安全回复,彻底牺牲了针对性和实用性。

因此,我们需要一套系统化的、全链路的评测体系。这就是为什么要引入以 Ragas指标体系为代表的新一代评估框架。Ragas不再仅仅关注文本表面的相似度,而是深入评估RAG系统的三大核心能力:上下文相关性(检索到的文档是否与问题有关)、事实依据性(生成回答是否基于检索到的上下文)和答案相关性(最终答案是否直接回答了用户问题)。

本文将从顶层设计到底层实现,为你拆解一套可落地的 RAG评估指标体系。你将学到:

  • 评估的核心原则:如何避免“自嗨式评测”,真正做到对齐业务目标。

  • Ragas指标体系全景:从离散型到连续型,从文本到多模态,有哪些核心指标值得关注。

  • 全链路评测指标详解:每个指标是什么、为什么重要、如何计算,并辅以代码示例。

  • 实战:构建你的评估流水线:用Python代码直接跑通Ragas的评估流程,并学会用雷达图可视化结果。

  • 进阶技巧与踩坑记录:如何选择指标、处理中文场景、应对多模态扩展,以及常见陷阱的解决方案。

读完本文,你将拥有构建一套“看得见、说得清、改得动”的RAG评估体系的能力,彻底告别“玄学调优”和“指标幻觉”。让我们开始吧。

2. RAG评估核心原则:白盒+黑盒,对齐业务目标

在深入具体指标之前,我们必须先明确评估的顶层设计原则。一个常见的错误是,团队会直接套用学术论文中的评估方法,而不考虑自己的业务场景。这往往导致评估结果与真实用户体验之间存在巨大鸿沟。

一个健康的RAG评估体系,必须遵循“白盒+黑盒”相结合的原则。

  • 白盒评估:关注过程,追求可观测性。 白盒评估关注的是RAG系统内部各个环节的表现。这就像检查一个流水线的每个工位:原材料(查询)是否被正确编码?检索模块是否找到了最相关的零件(上下文)?大模型生成时是否严格遵循了零件说明书(上下文)?

白盒指标包括检索阶段的Context Precision(上下文精确率)Context Entities Recall(上下文实体召回率),以及生成阶段的Faithfulness(忠实度)Groundedness(回答根植性)。这些指标能帮助我们定位问题出在哪个环节,是检索不准、还是模型胡编。

  • 黑盒评估:关注结果,追求用户体验。 黑盒评估则聚焦于用户最终能感知到的结果。它不关心内部如何运作,只问:最终答案是否准确、完整、有说服力?用户是否满意?黑盒指标包括Response Relevancy(回答相关性)Tool Call Accuracy(工具调用准确性,适用于Agent场景),以及更贴近业务的指标,比如客服场景的解决率金融场景的合规性通过率

对齐业务目标是评估体系设计的灵魂。没有对齐业务的评估,如同没有方向的航船。例如,对于一个面向金融投研的分析师,他们最关心的是事实准确性和引用来源的可追溯性。此时,Faithfulness(忠实度)Context Precision(上下文精确率)的权重就应该极高。而如果是一个面向泛化知识问答的客服机器人,用户可能更关心回答的全面性和易用性,那么Response Relevancy(回答相关性)上下文实体召回率的重要性会上升。

最佳实践: 在项目启动阶段,就应和业务方一起定义好核心的“北极星指标”。比如,对于金融领域的RAG,可以设定“事实准确性(由领域专家人工标注)”作为最终的评估标准。然后,再反向推导出与这个北极星指标相关性最高的自动化评估指标(如Faithfulness),并反复验证它们之间是否存在强关联。

3. Ragas指标体系全景:从离散到连续,从文本到多模态

理解了评估原则后,我们来全景式地了解Ragas生态中丰富的指标类型。Ragas的设计哲学是提供一个模块化、可扩展的框架,允许开发者根据自己的需求自由组合。Ragas的指标体系大体可以分为三大类:离散型指标连续型指标扩展型指标

3.1 离散型指标:定性分类,快速决策

离散型指标返回的是预定义的类别结果,而非具体的数值。这类指标非常适合用于粗粒度的快速筛察和人工复审环节。例如,一个简单的discrete_metric可以返回"pass""fail"。你可以用它来标记“是否有幻觉”、“是否包含攻击性语言”等二元问题。在Ragas中,你可以通过@discrete_metric装饰器来定义自己的离散指标:

1
2
3
4
5
6
7
8
9
# 定义一个离散型指标:回答质量
@discrete_metric(name="response_quality", allowed_values=["high", "medium", "low"])
def assess_quality(response: str) -> str:
if len(response) > 200:
return "high"
elif len(response) > 50:
return "medium"
else:
return "low"

离散指标的优势在于可解释性强,团队成员都能一眼看懂。在快速迭代开发阶段,你可以先用离散指标做“通过/不通过”的冒烟测试,确保基础功能没问题。

3.2 连续型指标:定量评分,精细度量

连续型指标是Ragas体系的核心,它们返回一个连续的数值(通常是0到1之间),用于精细量化系统表现。这些指标构成了自动化Benchmark的基础。Ragas中最常用的连续型指标包括:

  • **Context Precision (上下文精确率)**:衡量检索到的上下文与问题的相关程度。0.8分意味着80%的检索结果与问题直接相关。

  • **Context Entities Recall (上下文实体召回率)**:衡量检索上下文能否覆盖问题中所包含的关键实体(如人名、地名、专业术语)。

  • Faithfulness (忠实度):确保生成回答的每个陈述都能在检索到的上下文中找到依据。这是RAG系统最重要的指标之一

  • **Response Relevancy (回答相关性)**:评估生成回答是否直接、完整地回答了用户问题。

这些连续指标的价值在于,你可以通过设定阈值来驱动自动化流程。例如,你可以设置一个规则:如果Faithfulness得分低于0.85,则标记该回答为“需要人工审核”。

3.3 扩展型指标:拥抱多模态与复杂场景

随着RAG场景的复杂化,Ragas也在持续扩展其指标家族,以应对多模态、工具调用等新兴需求。

  • 多模态忠实度:当RAG系统处理包含图像、音频或视频的多模态内容时,传统的文本忠实度指标就失效了。多模态忠实度通过跨模态对齐技术,评估生成回答是否与视觉或听觉信息保持一致。例如,在医疗影像报告中,它需要判断AI生成的结论是否与CT扫描图中的病灶区域一致。

  • 工具调用准确性:在Agent场景中,RAG系统会调用外部的API或工具(如数据库查询、计算器、日历)。Tool Call Accuracy会评估智能体是否正确选择了工具,以及参数传递和调用时机是否准确。这在代码生成(text-to-SQL)或多步骤任务规划中至关重要。

Ragas的指标生态已经非常成熟,从基础的文本评估发展到覆盖多模态和智能体,为开发者提供了构建全面评估体系的强大武器。

4. 全链路评测指标详解:检索、生成与端到端质量

理解了指标类别后,我们来逐一拆解RAG链路中的核心指标,看看它们到底如何工作,为什么重要。

4.1 检索阶段:精准是王道

Context Precision(上下文精确率):这个指标衡量的是检索结果集合中,到底有多少是真的与查询相关的。想象一下,用户问“上海今天的天气”,检索系统返回了“北京天气”、“上海历史天气”和“上海天气预报”三篇文档。如果前两篇是噪声,那Context Precision就是1/3=0.33。

高Context Precision意味着检索结果非常聚焦,减少了噪音对大模型的干扰,能有效降低生成阶段的幻觉风险。在Ragas中,这个指标的计算逻辑可以简化理解为:对于每个查询,将检索到的文档按与问题的相关性排序,然后计算相关文档在整个序列中的累积比率。

Context Entities Recall(上下文实体召回率):这是衡量检索覆盖率的关键指标。尤其适用于知识密集型查询,例如法律条文、疾病诊断。比如用户问“甲基苯丙胺代谢产物主要是什么?”。问题中包含两个关键实体:“甲基苯丙胺”和“代谢产物”。如果你的上下文只提到了“甲基苯丙胺”而遗漏了“代谢产物”,那么实体召回率就会很低。

这个指标通过识别问题中的命名实体(NER),然后去上下文中检查它们是否被覆盖。上下文实体召回率非常高,才能够支撑下游模型给出完整、有据可查的回答。

提示: 实体召回率通常比精确率更难优化,因为它依赖于Embedding模型对领域实体的理解能力。如果你的系统常常漏掉关键信息,可以尝试使用混合检索(稠密+稀疏)重排序模型来提升。

4.2 生成阶段:事实与相关并重

Faithfulness(忠实度):这是RAG评估体系中最硬核的指标之一,直接衡量大模型是否在“照本宣科”而非“凭空捏造”。它的工作流程通常是:先将生成的回答拆解成若干个独立的陈述(Claim),然后逐一检查每个陈述是否能在提供的上下文(Context)中找到直接证据。如果某个陈述是“基于最新医学研究,该药物能治愈癌症”,但上下文中根本没有提到“最新医学研究”,那么该陈述就会被标记为“不忠实”。

一个高忠实的系统,其回答中的每一个事实点都应该能溯源到知识库。Ragas在实现这一指标时采用了多步骤Prompt设计(见faithfulness.py),它本质上是让一个LLM(或者专门的评估模型)来执行这个拆解和验证的过程。

Response Relevancy(回答相关性):这个指标评估最终答案是否扣题。一个有趣的反例是,当用户问“为什么天空是蓝色的”,系统却回答“因为瑞利散射,而且空气很干燥,地面温度较高”。虽然回答包含了“瑞利散射”这个正确概念,但后半句的“空气干燥”和“地面温度”完全跑题了。Response Relevancy会衡量回答是否全面、直接地回答了用户问题,且没有引入无关信息。

它通常通过计算问题和生成回答之间的语义相似度来量化。

Response Groundedness(回答根植性):这个指标与Faithfulness类似,但视角略有不同。Faithfulness是从生成内容的角度,检查它是否忠于上下文。而Groundedness是从上下文的角度,衡量生成回答是否“根植于”(即充分利用了)提供的上下文。想象一下,系统虽然生成了无错但空洞的、万金油式的回答,比如“这需要具体情况具体分析”。

即使这个回答没有事实错误,但它根本没有利用具体的上下文信息,这样的回答就缺乏根植性。高根植性意味着回答是基于检索到的特定信息而非模型的先验知识。

4.3 端到端能力:Agent场景下的特殊考验

Tool Call Accuracy(工具调用准确性):在更先进的Agent+RAG场景中,系统可能不仅仅是检索文本,还会调用外部API。例如,一个金融分析Agent被问“查询苹果公司2023年第四季度的营收”。它会调用一个工具如get_company_financial_data(company="AAPL", quarter="Q4", year=2023)

Tool Call Accuracy会综合评估:1)工具选择是否正确(比如,它有没有错误地调用get_stock_price);2)参数传递是否正确(比如,年份传的是2024还是2023);3)调用时机是否合适(比如,在获得知识库背景前就盲目调用)。Ragas通过将questiontool_callsexecution_results作为输入,来评估这一系列操作的正确性。

这在构建自主决策的AI Agent时尤为重要。

5. 实战:用Ragas构建你的RAG评估流水线(附代码)

理论说再多,不如一行能跑的代码。下面我们用一个完整的Python实战,展示如何使用Ragas库来评估一个简单的RAG系统。我们将使用Context PrecisionFaithfulnessResponse Relevancy三个核心指标,并最终用雷达图进行可视化。

5.1 安装与准备

首先,确保安装Ragas和相关依赖。

1
2
# 安装ragas和核心依赖
pip install ragas datasets matplotlib

5.2 构造评估数据集

Ragas的评估是基于数据集的。数据集需要包含三个核心字段:question(用户问题)、answer(模型生成的回答)、contexts(检索到的上下文列表)。我们来创建一个简化的例子。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
from datasets import Dataset
import pandas as pd

# 模拟一个评估数据集
# 注意:在实际项目中,你可以从你的RAG流水线日志中批量生成这些数据
data_samples = {
'question': [
'What is the capital of France?',
'What is the capital of Germany?',
'What is the chemical formula for water?'
],
'answer': [
'Paris is the capital of France.', # 正确的、基于上下文的回答
'Berlin is the capital of Germany.', # 正确的回答
'H2O is the chemical formula for water.' # 正确的回答
],
'contexts': [
# 为第一个问题提供的上下文(包含噪声)
['France is a country in Europe. Its capital is Paris. The Eiffel Tower is in Paris.'],
# 为第二个问题提供的上下文(完美匹配)
['Germany, officially the Federal Republic of Germany, is a country in Central Europe. Its capital is Berlin.'],
# 为第三个问题提供的上下文(不完整,仅包含水)
['Water is a liquid. It can be solid, liquid, or gas.']
# 注意:第三个上下文没有提到H2O,这将导致Faithfulness和Groundedness得分低
]
}

# 构建一个Hugging Face Dataset
dataset = Dataset.from_pandas(pd.DataFrame(data_samples))
print(dataset)

最佳实践:数据准备是评估中最关键的一步。建议在生产环境中,将你的RAG流水线每次请求的questionanswer和检索到的contexts都持久化到数据库或日志中,然后定期用脚本批量构造Dataset进行评估。

5.3 定义与运行评估

现在我们来定义要评估的指标并运行评估。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
from ragas.metrics import (
context_precision,
faithfulness,
response_relevancy
)
from ragas import evaluate

# 定义需要评估的指标列表
metrics = [
faithfulness, # 忠实度:回答是否忠于上下文
context_precision, # 上下文精确率:上下文是否与问题相关
response_relevancy # 回答相关性:回答是否回答了问题
]

# 运行评估
result = evaluate(
dataset=dataset,
metrics=metrics,
# 可选:如果你有专门的LLM来做评估,可以在此指定
# llm=your_llm_object
)

# 将结果转换为DataFrame以便查看
df = result.to_pandas()
print(df)

运行这段代码,你会得到一个DataFrame,其中每一行对应一个测试样本,每一列对应一个评估指标的具体得分。例如,你会看到第三个样本(water)的faithfulness得分可能会很低,因为它乱填充了回答,但上下文根本没有提供化学式的信息。

5.4 结果可视化:使用雷达图

单纯看表格不够直观,我们用雷达图来快速对比不同样本在各维度上的表现。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import numpy as np
import matplotlib.pyplot as plt

# 准备数据:计算每个指标的平均分
# 同样,你可以按样本绘制,但这里为了演示整体,我们计算平均分
metrics_names = [m.name for m in metrics]
scores = [df[m.name].mean() for m in metrics]

# 绘制雷达图
angles = np.linspace(0, 2 * np.pi, len(metrics_names), endpoint=False).tolist()
# 使图形闭合
scores.append(scores[0])
angles.append(angles[0])

fig, ax = plt.subplots(figsize=(6, 6), subplot_kw=dict(polar=True))
ax.fill(angles, scores, color='blue', alpha=0.25)
ax.plot(angles, scores, color='blue', linewidth=2)

# 设置标签
ax.set_thetagrids(np.degrees(angles[:-1]), metrics_names)
ax.set_title("RAG System Performance Metrics (Average)")
plt.show()

这个雷达图可以非常直观地显示出你的RAG系统在哪些方面做得不错(比如回答相关性),在哪些方面需要改进(比如上下文精确率)。

5.5 CI/CD集成

为了让评估持续发挥作用,可以将其集成到CI/CD流程中。例如,在GitHub Actions中,每次代码合并时都自动运行一次评估,并设置质量门禁。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# .github/workflows/ragas-eval.yml
name: RAG Evaluation
on:
push:
branches: [ main ]
jobs:
evaluate:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- uses: actions/setup-python@v5
- run: pip install ragas datasets
- run: python your_evaluation_script.py > evaluation_report.json
- uses: actions/upload-artifact@v4
with:
name: evaluation-report
path: evaluation_report.json
# 你可以添加一个步骤,检查是否符合设定的阈值(例如faithfulness > 0.8)

6. 进阶技巧:指标选择策略、可解释性与多模态扩展

掌握了基础,我们来聊聊如何把评估体系做得更“聪明”。

6.1 指标选择策略:根据业务场景“量体裁衣”

不是所有指标都适用于所有业务。在一套成熟的评估体系中,你应该有一个“指标矩阵”,针对不同场景选择不同的组合。

  • 金融投研/法律合规:优先级最高的是FaithfulnessContext Precision。因为错一个字可能导致巨大风险。可放弃对全面性的过度追求(即不过分强调上下文的Recall)。

  • 客服机器人:优先级高的是Response RelevancyContext Entities Recall。客服希望快速解决问题,回答要切题,且不能遗漏关键实体(如订单号、用户名)。

  • Text-to-SQL系统:这是典型的工具调用场景。更推荐使用“执行准确率”而不是基于语义相似度的指标。

比如,两个SQL语句虽然写法不同,但执行结果一样,那都应算正确。Tool Call Accuracy中的Execution based Datacompy Score就是为此设计。

6.2 可解释性:让非技术团队也能看懂

评估体系的价值在于指导决策。因此,指标必须是可解释的。应选择团队全员都能理解的指标。在Text-to-SQL系统中,“执行准确率”(执行后SQL语句返回的结果是否与正确答案一致)比抽象的“语义相似度”更容易向业务方解释。同样,在RAG系统中,“回答中是否有事实错误”(Faithfulness的简单解释)比“余弦相似度得分”更直白。

可以尝试将连续指标进行“可解释性映射”,例如,将忠实度得分>=0.9映射为“优秀”,0.7-0.9映射为“需关注”,<0.7映射为“不合格”。

6.3 多模态扩展与定制化评估

  • 多模态忠实度:当RAG系统开始处理包含图片、表格或音视频的文档时,评估变得更加复杂。Ragas的Multimodal Faithfulness指标是扩展方向。例如,一份医学报告包含一张CT图像和一段文字描述。AI生成的结论是“肺部存在毛玻璃样结节”。评估过程需要交叉验证:文字描述是否支持“结节”的说法?

CT图像中的相关区域是否也呈现出毛玻璃样特征?多模态忠实度通过图像和文本的跨模态匹配来实现。

  • Instance specific rubrics scoring(实例级别的评分准则):这是实现精细定制评估的关键。有时候,通用指标无法捕捉特定领域的微妙要求。比如,在评估一个创意写作的RAG系统时,你可能希望它的“回答更具文学性”和“引用更少”。

你可以为特定测试案例(如“写一首关于秋天的诗”)定制评分标准:1)是否包含原文中未有的个人情感(+0.5);2)引用文献的次数过多(-0.3)。通过编写rubrics,你可以获得一个高度定制化的质量分数。

7. 踩坑记录:常见陷阱与解决方案

在长期使用Ragas进行RAG评估的过程中,必然会遇到各种问题。这里是几个常见的“坑”以及我的解决建议。

7.1 标注数据偏差导致忠实度误判

忠实度指标依赖于一个“评估者LLM”来判断陈述是否忠实于上下文。但这个评估者LLM本身可能被“带偏”。例如,如果你的知识库中包含了很多“据研究表明”这样的模糊句子,而生成的回答却变成了“研究者一致认为”,虽然人类觉得这是等效,但评估模型可能判定为“不忠实”。解决方案:定期人工抽检评估结果,尤其是低分样本,分析是真正的幻觉还是评估模型的误判。

可以尝试使用多个不同的评估模型(如GPT-4、Llama3-70B)进行投票取结果。

7.2 指标冲突:高精准但低召回

你可能会发现某个任务的Context Precision得分很高(都是相关文档),但Context Entities Recall得分很低(漏掉了关键实体)。这是因为系统过于保守,只检索了最相关的一小部分文档,牺牲了完整性。这通常是RAG系统在“精确”和“召回”之间的经典权衡。解决方案:需要根据业务场景做明确取舍。

如果业务场景是查找精准的法律条文(高精度),低召回是可接受的;但如果业务场景是回答综合性的问题,则需要优化检索策略提高召回率。可以考虑自适应检索多轮检索

7.3 多模态评估的计算成本

启动多模态评估(如使用CLIP模型进行图像-文本对比)在计算上很昂贵。如果每天都对所有数据进行一次评估,GPU账单会非常惊人。解决方案:采用分阶段评估策略。先用轻量级的文本指标(如Faithfulness)做初步筛查,只有文本指标通过后,再对必要样本进行多模态评估。或者,使用更高效的蒸馏模型进行多模态评估。

7.4 中文场景的适配性

Ragas的默认模型(尤其是用于评估的LLM)对中文的理解能力可能不如英文。例如,中文里的指代消解、一词多义等问题,可能导致评估模型产生误判。解决方案

  • 替换评估LLM:使用对中文支持更好的模型,例如Qwen、Yi等国产大模型,作为Ragas的评估后端。
  • 调整Prompt:修改Ragas底层用于评估的Prompt模板,使其更适应中文语境。

例如,在Faithfulness的Prompt中加入“请基于给定的中文段落,逐句检查回答中的中文陈述是否可以被找到依据”。

  • 多做人工标注:在中文项目中,建议先由领域专家对一定数量的样本进行人工标注,作为黄金标准,再与Ragas的自动化评估结果进行比对,校准阈值。

8. 总结与拓展:持续迭代的评估闭环

总而言之,RAG系统评估不是一次性的工作,而是一个需要持续迭代和优化的闭环过程。

回顾核心知识点

  • 评估体系必须是全链路的,覆盖检索(Context Precision, Context Entities Recall)和生成(Faithfulness, Response Relevancy, Groundedness)两端。

  • Ragas指标体系提供了一套强大的评估工具集,从线性到多模态,帮助你实现从主观判断到客观量化的转变。

  • 评估不是目的,优化才是。通过分析评估结果(例如,看看哪个维度的指标低),你可以精准定位问题(是Embedding模型、检索策略还是大模型Prompt),然后进行针对性优化,再上线重新评估,形成一个飞轮效应。

未来展望

  1. 由大模型驱动的自动化评测:利用大模型本身(如GPT-4作为裁判)进行更复杂、更贴近人类判断的自动化评估。Ragas已经支持了这一模式,未来会更加成熟。
  2. 引入对抗性测试:不再只用标准测试集,而是主动由AI生成“对抗样本”——故意构造容易混淆、有陷阱的问题,来检验系统的鲁棒性。

这能发现很多在常规测试中找不到的边界问题。
3. 统一的跨模态评估框架:随着RAG系统变得越来越无处不在(从文本到视频),需要一个统一的框架来评估不同模态下的忠实度、准确性和质量。Ragas的多模态忠实度指标只是开始。

最后,也是最重要的一点:永远追求你自己的评测体系。不要盲目相信任何一个现成的工具,包括Ragas。把它当作一个强大的起点,根据你的业务数据和用户体验,不断调整指标权重、引入新的评估维度。只有因地制宜、持续迭代的评估体系,才能真正成为你构建可靠、可信、高智能的RAG应用、甚至优秀的AI Agent的导航仪。现在,就从构建你的第一个评估流水线开始吧。

总结

通过本文的学习,相信你已经对「RAG评估指标体系」有了更深入的理解。建议结合实际项目多加练习。如有疑问,欢迎交流!