RAG(Retrieval-Augmented Generation)现在已经成了大模型落地最重要的方式之一;那我们该如何 衡量一个 RAG 系统做得好不好 呢?
这时候,就该请出今天的主角—
Ragas
。
一、开卷考试的灵魂拷问
大模型的能力是通用的,而 RAG 系统往往用于解决某些具体领域问题,比如:
- 企业内部知识库问答
- 产品使用文档查询
- 结构化文档问答(PDF、Word、网页)
在这类场景中,光靠模型本身能力还不够,需要通过 “检索” 拿到参考资料,再交给模型进行“生成”。
这就像一次开卷考试:
- 你是大语言模型;
- 开卷材料是知识库或检索内容;
- 最后你的回答,要尽可能基于材料,内容准确、有用。
问题来了:我们怎么知道你这份答案答得好不好?
more >>