Docx 文件
DocxLoader
允许您从 Microsoft Word 文档中提取文本数据。它支持现代 .docx
格式和旧版 .doc
格式。根据文件类型,可能需要额外的依赖项。
设置
要使用 DocxLoader
,您需要 @langchain/community
集成以及 mammoth
或 word-extractor
包。
mammoth
:用于处理.docx
文件。word-extractor
:用于处理.doc
文件。
安装
对于 .docx
文件
- npm
- Yarn
- pnpm
npm install @langchain/community @langchain/core mammoth
yarn add @langchain/community @langchain/core mammoth
pnpm add @langchain/community @langchain/core mammoth
对于 .doc
文件
- npm
- Yarn
- pnpm
npm install @langchain/community @langchain/core word-extractor
yarn add @langchain/community @langchain/core word-extractor
pnpm add @langchain/community @langchain/core word-extractor
用法
加载 .docx
文件
对于 .docx
文件,初始化加载器时无需显式指定任何参数。
import { DocxLoader } from "@langchain/community/document_loaders/fs/docx";
const loader = new DocxLoader(
"src/document_loaders/tests/example_data/attention.docx"
);
const docs = await loader.load();
加载 .doc
文件
对于 .doc
文件,初始化加载器时,您必须显式指定 type
为 doc
。
import { DocxLoader } from "@langchain/community/document_loaders/fs/docx";
const loader = new DocxLoader(
"src/document_loaders/tests/example_data/attention.doc",
{
type: "doc",
}
);
const docs = await loader.load();