如何组合来自多个检索器的结果

先决条件

本指南假设您熟悉以下概念

EnsembleRetriever 支持组合来自多个检索器的结果。它使用 BaseRetriever 对象列表进行初始化。EnsembleRetriever 基于倒数排名融合算法对组成检索器的结果进行重新排序。

通过利用不同算法的优势，EnsembleRetriever 可以实现比任何单一算法更好的性能。

一种有用的模式是将关键字匹配检索器与密集检索器（如嵌入相似性）结合使用，因为它们的优势互补。这可以被认为是“混合搜索”的一种形式。稀疏检索器擅长根据关键字查找相关文档，而密集检索器擅长根据语义相似性查找相关文档。

下面我们演示如何组合一个简单的自定义检索器，该检索器仅返回直接包含输入查询的文档，以及一个从演示的内存向量存储派生的检索器。

import { EnsembleRetriever } from "langchain/retrievers/ensemble";
import { MemoryVectorStore } from "langchain/vectorstores/memory";
import { OpenAIEmbeddings } from "@langchain/openai";
import { BaseRetriever, BaseRetrieverInput } from "@langchain/core/retrievers";
import { Document } from "@langchain/core/documents";

class SimpleCustomRetriever extends BaseRetriever {
  lc_namespace = [];

  documents: Document[];

  constructor(fields: { documents: Document[] } & BaseRetrieverInput) {
    super(fields);
    this.documents = fields.documents;
  }

  async _getRelevantDocuments(query: string): Promise<Document[]> {
    return this.documents.filter((document) =>
      document.pageContent.includes(query)
    );
  }
}

const docs1 = [
  new Document({ pageContent: "I like apples", metadata: { source: 1 } }),
  new Document({ pageContent: "I like oranges", metadata: { source: 1 } }),
  new Document({
    pageContent: "apples and oranges are fruits",
    metadata: { source: 1 },
  }),
];

const keywordRetriever = new SimpleCustomRetriever({ documents: docs1 });

const docs2 = [
  new Document({ pageContent: "You like apples", metadata: { source: 2 } }),
  new Document({ pageContent: "You like oranges", metadata: { source: 2 } }),
];

const vectorstore = await MemoryVectorStore.fromDocuments(
  docs2,
  new OpenAIEmbeddings()
);

const vectorstoreRetriever = vectorstore.asRetriever();

const retriever = new EnsembleRetriever({
  retrievers: [vectorstoreRetriever, keywordRetriever],
  weights: [0.5, 0.5],
});

const query = "apples";
const retrievedDocs = await retriever.invoke(query);

console.log(retrievedDocs);

/*
  [
    Document { pageContent: 'You like apples', metadata: { source: 2 } },
    Document { pageContent: 'I like apples', metadata: { source: 1 } },
    Document { pageContent: 'You like oranges', metadata: { source: 2 } },
    Document {
      pageContent: 'apples and oranges are fruits',
      metadata: { source: 1 }
    }
  ]
*/

API 参考

EnsembleRetriever 来自 langchain/retrievers/ensemble
MemoryVectorStore 来自 langchain/vectorstores/memory
OpenAIEmbeddings 来自 @langchain/openai
BaseRetriever 来自 @langchain/core/retrievers
BaseRetrieverInput 来自 @langchain/core/retrievers
文档来自 @langchain/core/documents

下一步

您现在已经学习了如何组合来自多个检索器的结果。接下来，查看其他检索操作指南，例如如何使用每个文档的多个嵌入来改进结果，或如何创建您自己的自定义检索器。

如何组合来自多个检索器的结果

API 参考

下一步

此页对您有帮助吗？

您也可以留下详细的反馈在 GitHub 上.

如何组合来自多个检索器的结果

API 参考

下一步​

此页对您有帮助吗？

您也可以留下详细的反馈 在 GitHub 上.

下一步

您也可以留下详细的反馈在 GitHub 上.