蜘蛛
蜘蛛 是 最快 的爬虫。它将任何网站转换为纯 HTML、markdown、元数据或文本,同时允许您使用 AI 执行自定义操作进行爬取。
概述
蜘蛛允许您使用高性能代理来防止检测、缓存 AI 操作、爬取状态的 Webhook、计划的爬取等等。
本指南展示了如何使用 蜘蛛 爬取/抓取网站,以及如何使用 LanghChain 中的 SpiderLoader
加载 LLM 就绪的文档。
设置
在 spider.cloud 上获取您自己的蜘蛛 API 密钥。
使用
以下是如何使用 SpiderLoader
的示例
蜘蛛提供两种抓取模式 scrape
和 crawl
。Scrape 仅获取所提供 URL 的内容,而 crawl 获取所提供 URL 的内容,并按照子页面进行更深层的爬取。
- npm
- Yarn
- pnpm
npm install @langchain/community @langchain/core @spider-cloud/spider-client
yarn add @langchain/community @langchain/core @spider-cloud/spider-client
pnpm add @langchain/community @langchain/core @spider-cloud/spider-client
import { SpiderLoader } from "@langchain/community/document_loaders/web/spider";
const loader = new SpiderLoader({
url: "https://spider.cloud", // The URL to scrape
apiKey: process.env.SPIDER_API_KEY, // Optional, defaults to `SPIDER_API_KEY` in your env.
mode: "scrape", // The mode to run the crawler in. Can be "scrape" for single urls or "crawl" for deeper scraping following subpages
// params: {
// // optional parameters based on Spider API docs
// // For API documentation, visit https://spider.cloud/docs/api
// },
});
const docs = await loader.load();
API 参考
- SpiderLoader 来自
@langchain/community/document_loaders/web/spider
其他参数
请查看 蜘蛛文档 以了解所有可用的 params
。