跳至主要内容

如何按令牌分割文本

先决条件

本指南假设您熟悉以下概念

语言模型有令牌限制。您不应该超过令牌限制。因此,当您将文本分割成块时,最好计算令牌数量。有许多令牌化器。当您在文本中计算令牌时,您应该使用与语言模型中使用的相同的令牌化器。

js-tiktoken

注意

js-tiktoken 是 OpenAI 创建的 BPE 令牌化器的 JavaScript 版本。

我们可以使用 js-tiktoken 来估计使用的令牌。它已针对 OpenAI 模型进行了调整。

  1. 文本分割方式:按传入的字符。
  2. 块大小的测量方式:使用 js-tiktoken 令牌化器。

您可以像这样使用 TokenTextSplitter

import { TokenTextSplitter } from "@langchain/textsplitters";
import * as fs from "node:fs";

// Load an example document
const rawData = await fs.readFileSync(
"../../../../examples/state_of_the_union.txt"
);
const stateOfTheUnion = rawData.toString();

const textSplitter = new TokenTextSplitter({
chunkSize: 10,
chunkOverlap: 0,
});

const texts = await textSplitter.splitText(stateOfTheUnion);

console.log(texts[0]);
Madam Speaker, Madam Vice President, our

注意: 一些书面语言(例如中文和日语)的字符编码为 2 个或更多个令牌。直接使用 TokenTextSplitter 会将字符的令牌拆分到两个块之间,从而导致 Unicode 字符格式错误。

下一步

现在您已经学习了一种根据令牌数量分割文本的方法。

接下来,请查看 检索增强生成完整教程


此页面对您有帮助吗?


您也可以留下详细的反馈 在 GitHub 上.