MemoryVectorStore

LangChain 提供了一个内存中的、短暂的向量存储，它将嵌入存储在内存中并对最相似的嵌入进行精确的线性搜索。默认的相似度度量是余弦相似度，但可以更改为ml-distance 支持的任何相似度度量。

由于它旨在用于演示，因此它目前不支持 ID 或删除。

本指南快速概述了如何在内存中使用向量存储 的入门方法。有关所有 MemoryVectorStore 功能和配置的详细文档，请转到API 参考。

概述

集成详细信息

类	包	PY 支持	最新包
`MemoryVectorStore`	`langchain`	❌

设置

要使用内存中的向量存储，您需要安装 langchain 包

本指南还将使用OpenAI 嵌入，这需要您安装 @langchain/openai 集成包。如果您愿意，也可以使用其他支持的嵌入模型。

提示

查看此部分了解有关安装集成包的一般说明。

npm
yarn
pnpm

npm i langchain @langchain/openai

yarn add langchain @langchain/openai

pnpm add langchain @langchain/openai

凭据

使用内存中的向量存储不需要任何必备凭据。

如果您在本指南中使用 OpenAI 嵌入，则需要设置您的 OpenAI 密钥

process.env.OPENAI_API_KEY = "YOUR_API_KEY";

如果您希望自动跟踪您的模型调用，您还可以通过取消下面注释来设置您的LangSmith API 密钥

// process.env.LANGCHAIN_TRACING_V2="true"
// process.env.LANGCHAIN_API_KEY="your-api-key"

实例化

import { MemoryVectorStore } from "langchain/vectorstores/memory";
import { OpenAIEmbeddings } from "@langchain/openai";

const embeddings = new OpenAIEmbeddings({
  model: "text-embedding-3-small",
});

const vectorStore = new MemoryVectorStore(embeddings);

管理向量存储

将项目添加到向量存储

import type { Document } from "@langchain/core/documents";

const document1: Document = {
  pageContent: "The powerhouse of the cell is the mitochondria",
  metadata: { source: "https://example.com" },
};

const document2: Document = {
  pageContent: "Buildings are made out of brick",
  metadata: { source: "https://example.com" },
};

const document3: Document = {
  pageContent: "Mitochondria are made out of lipids",
  metadata: { source: "https://example.com" },
};

const documents = [document1, document2, document3];

await vectorStore.addDocuments(documents);

查询向量存储

在创建向量存储并添加相关文档后，您很可能希望在链或代理运行期间查询它。

直接查询

执行简单的相似性搜索可以通过以下方式完成

const filter = (doc) => doc.metadata.source === "https://example.com";

const similaritySearchResults = await vectorStore.similaritySearch(
  "biology",
  2,
  filter
);

for (const doc of similaritySearchResults) {
  console.log(`* ${doc.pageContent} [${JSON.stringify(doc.metadata, null)}]`);
}

* The powerhouse of the cell is the mitochondria [{"source":"https://example.com"}]
* Mitochondria are made out of lipids [{"source":"https://example.com"}]

过滤器是可选的，它必须是一个谓词函数，该函数接受一个文档作为输入，并根据文档是否应该被返回而返回 true 或 false。

如果您希望执行相似性搜索并接收相应的得分，您可以运行

const similaritySearchWithScoreResults =
  await vectorStore.similaritySearchWithScore("biology", 2, filter);

for (const [doc, score] of similaritySearchWithScoreResults) {
  console.log(
    `* [SIM=${score.toFixed(3)}] ${doc.pageContent} [${JSON.stringify(
      doc.metadata
    )}]`
  );
}

* [SIM=0.165] The powerhouse of the cell is the mitochondria [{"source":"https://example.com"}]
* [SIM=0.148] Mitochondria are made out of lipids [{"source":"https://example.com"}]

通过将其转换为检索器进行查询

您还可以将向量存储转换为检索器，以便更轻松地在链中使用它

const retriever = vectorStore.asRetriever({
  // Optional filter
  filter: filter,
  k: 2,
});

await retriever.invoke("biology");

[
  Document {
    pageContent: 'The powerhouse of the cell is the mitochondria',
    metadata: { source: 'https://example.com' },
    id: undefined
  },
  Document {
    pageContent: 'Mitochondria are made out of lipids',
    metadata: { source: 'https://example.com' },
    id: undefined
  }
]

最大边际相关性

此向量存储还支持最大边际相关性 (MMR)，这是一种技术，它首先使用经典相似性搜索获取更多结果（由 searchKwargs.fetchK 指定），然后重新排序以实现多样性并返回前 k 个结果。这有助于防止冗余信息。

const mmrRetriever = vectorStore.asRetriever({
  searchType: "mmr",
  searchKwargs: {
    fetchK: 10,
  },
  // Optional filter
  filter: filter,
  k: 2,
});

await mmrRetriever.invoke("biology");

[
  Document {
    pageContent: 'The powerhouse of the cell is the mitochondria',
    metadata: { source: 'https://example.com' },
    id: undefined
  },
  Document {
    pageContent: 'Buildings are made out of brick',
    metadata: { source: 'https://example.com' },
    id: undefined
  }
]

用于检索增强生成

有关如何使用此向量存储进行检索增强生成 (RAG) 的指南，请参阅以下部分

API 参考

有关所有 MemoryVectorStore 功能和配置的详细文档，请转到API 参考。

向量存储概念指南
向量存储操作指南

MemoryVectorStore

概述

集成详细信息

设置

凭据

实例化

管理向量存储

将项目添加到向量存储

查询向量存储

直接查询

通过将其转换为检索器进行查询

最大边际相关性

用于检索增强生成

API 参考

本页内容是否有帮助？

您也可以留下详细的反馈在 GitHub 上.

概述​

集成详细信息​

设置​

凭据​

实例化​

管理向量存储​

将项目添加到向量存储​

查询向量存储​

直接查询​

通过将其转换为检索器进行查询​

最大边际相关性​

用于检索增强生成​

API 参考​

相关​

本页内容是否有帮助？

您也可以留下详细的反馈 在 GitHub 上.

概述

集成详细信息

设置

凭据

实例化

管理向量存储

将项目添加到向量存储

查询向量存储

直接查询

通过将其转换为检索器进行查询

最大边际相关性

用于检索增强生成

API 参考

相关

您也可以留下详细的反馈在 GitHub 上.