Upstash 速率限制回调

在本指南中，我们将介绍如何使用 UpstashRatelimitHandler 基于请求数或令牌数添加速率限制。此处理程序使用 Upstash 的 ratelimit 库，该库利用 Upstash Redis。

Upstash 速率限制的工作原理是，每次调用 limit 方法时，都会向 Upstash Redis 发送 HTTP 请求。检查并更新用户的剩余令牌/请求。根据剩余令牌，我们可以停止执行昂贵的操作，例如调用 LLM 或查询向量存储。

const response = await ratelimit.limit();
if (response.success) {
  execute_costly_operation();
}

UpstashRatelimitHandler 允许您在几分钟内将此速率限制逻辑整合到您的链中。

设置

首先，您需要访问 Upstash 控制台并创建一个 redis 数据库（请参阅我们的文档）。创建数据库后，您需要设置环境变量。

UPSTASH_REDIS_REST_URL="****"
UPSTASH_REDIS_REST_TOKEN="****"

接下来，您需要安装 Upstash Ratelimit 和 @langchain/community

提示

请参阅此部分，了解有关安装集成包的通用说明。

npm
Yarn
pnpm

npm install @upstash/ratelimit @langchain/community @langchain/core

yarn add @upstash/ratelimit @langchain/community @langchain/core

pnpm add @upstash/ratelimit @langchain/community @langchain/core

现在，您已准备好为您的链添加速率限制！

基于请求的速率限制

假设我们希望允许用户每分钟调用我们的链 10 次。实现此目的非常简单，只需：

const UPSTASH_REDIS_REST_URL = "****";
const UPSTASH_REDIS_REST_TOKEN = "****";

import {
  UpstashRatelimitHandler,
  UpstashRatelimitError,
} from "@langchain/community/callbacks/handlers/upstash_ratelimit";
import { RunnableLambda } from "@langchain/core/runnables";
import { Ratelimit } from "@upstash/ratelimit";
import { Redis } from "@upstash/redis";

// create ratelimit
const ratelimit = new Ratelimit({
  redis: new Redis({
    url: UPSTASH_REDIS_REST_URL,
    token: UPSTASH_REDIS_REST_TOKEN,
  }),
  // 10 requests per window, where window size is 60 seconds:
  limiter: Ratelimit.fixedWindow(10, "60 s"),
});

// create handler
const user_id = "user_id"; // should be a method which gets the user id
const handler = new UpstashRatelimitHandler(user_id, {
  requestRatelimit: ratelimit,
});

// create mock chain
const chain = new RunnableLambda({ func: (str: string): string => str });

try {
  const response = await chain.invoke("hello world", {
    callbacks: [handler],
  });
  console.log(response);
} catch (err) {
  if (err instanceof UpstashRatelimitError) {
    console.log("Handling ratelimit.");
  }
}

请注意，我们将处理程序传递给 invoke 方法，而不是在定义链时传递处理程序。

对于 FixedWindow 以外的速率限制算法，请参阅 upstash-ratelimit 文档。

在执行管道中的任何步骤之前，速率限制将检查用户是否已超出请求限制。如果是，则会引发 UpstashRatelimitError。

基于令牌的速率限制

另一种选择是基于以下内容限制链调用的速率：

提示中的令牌数量
提示和 LLM 完成中的令牌数量

这仅在您的链中包含 LLM 时才有效。另一个要求是，您正在使用的 LLM 应在其 LLMOutput 中返回令牌使用情况。返回的令牌使用情况字典的格式取决于 LLM。要了解如何根据您的 LLM 配置处理程序，请参阅下面的“配置”部分的末尾。

工作原理

处理程序将在调用 LLM 之前获取剩余令牌。如果剩余令牌大于 0，则将调用 LLM。否则，将引发 UpstashRatelimitError。

调用 LLM 后，令牌使用情况信息将用于从用户的剩余令牌中扣除。在此链的阶段不会引发错误。

配置

对于第一种配置，只需像这样初始化处理程序：

const user_id = "user_id"; // should be a method which gets the user id
const handler = new UpstashRatelimitHandler(user_id, {
  requestRatelimit: ratelimit,
});

对于第二种配置，以下是如何初始化处理程序：

const user_id = "user_id"; // should be a method which gets the user id
const handler = new UpstashRatelimitHandler(user_id, {
  tokenRatelimit: ratelimit,
});

您还可以同时采用基于请求和令牌的速率限制，只需传递 request_ratelimit 和 token_ratelimit 参数即可。

为了使令牌使用情况正确工作，LangChain.js 中的 LLM 步骤应以以下格式返回令牌使用情况字段：

{
  "tokenUsage": {
    "totalTokens": 123,
    "promptTokens": 456,
    "otherFields: "..."
  },
  "otherFields: "..."
}

但是，并非 LangChain.js 中的所有 LLM 都符合此格式。如果您的 LLM 返回相同的值但键不同，则可以使用参数 llmOutputTokenUsageField、llmOutputTotalTokenField 和 llmOutputPromptTokenField 将它们传递给处理程序。

const handler = new UpstashRatelimitHandler(
  user_id,
  {
    requestRatelimit: ratelimit
    llmOutputTokenUsageField: "usage",
    llmOutputTotalTokenField: "total",
    llmOutputPromptTokenField: "prompt"
  }
)

这是一个利用 LLM 的链的示例：

const UPSTASH_REDIS_REST_URL = "****";
const UPSTASH_REDIS_REST_TOKEN = "****";
const OPENAI_API_KEY = "****";

import {
  UpstashRatelimitHandler,
  UpstashRatelimitError,
} from "@langchain/community/callbacks/handlers/upstash_ratelimit";
import { RunnableLambda, RunnableSequence } from "@langchain/core/runnables";
import { OpenAI } from "@langchain/openai";
import { Ratelimit } from "@upstash/ratelimit";
import { Redis } from "@upstash/redis";

// create ratelimit
const ratelimit = new Ratelimit({
  redis: new Redis({
    url: UPSTASH_REDIS_REST_URL,
    token: UPSTASH_REDIS_REST_TOKEN,
  }),
  // 500 tokens per window, where window size is 60 seconds:
  limiter: Ratelimit.fixedWindow(500, "60 s"),
});

// create handler
const user_id = "user_id"; // should be a method which gets the user id
const handler = new UpstashRatelimitHandler(user_id, {
  tokenRatelimit: ratelimit,
});

// create mock chain
const asStr = new RunnableLambda({ func: (str: string): string => str });
const model = new OpenAI({
  apiKey: OPENAI_API_KEY,
});
const chain = RunnableSequence.from([asStr, model]);

// invoke chain with handler:
try {
  const response = await chain.invoke("hello world", {
    callbacks: [handler],
  });
  console.log(response);
} catch (err) {
  if (err instanceof UpstashRatelimitError) {
    console.log("Handling ratelimit.");
  }
}

Upstash 速率限制回调

设置

基于请求的速率限制

基于令牌的速率限制

工作原理

配置

此页对您有帮助吗？

您也可以留下详细的反馈在 GitHub 上.

Upstash 速率限制回调

设置​

基于请求的速率限制​

基于令牌的速率限制​

工作原理​

配置​

此页对您有帮助吗？

您也可以留下详细的反馈 在 GitHub 上.

设置

基于请求的速率限制

基于令牌的速率限制

工作原理

配置

您也可以留下详细的反馈在 GitHub 上.