跳至主要内容

蜘蛛

蜘蛛最快 的爬虫。它将任何网站转换为纯 HTML、标记语言、元数据或文本,同时允许您使用 AI 执行自定义操作进行爬取。

概述

蜘蛛允许您使用高性能代理来防止检测,缓存 AI 操作,用于爬取状态的 Webhook,计划爬取等...

本指南展示了如何使用 蜘蛛 爬取/抓取网站,并在 LanghChain 中使用 SpiderLoader 加载 LLM 就绪文档。

设置

spider.cloud 上获取您自己的蜘蛛 API 密钥。

用法

以下是如何使用 SpiderLoader 的示例

蜘蛛提供两种抓取模式 scrapecrawl。抓取仅获取提供的 URL 的内容,而爬取获取提供的 URL 的内容,并通过遵循子页面进行更深入的爬取。

npm install @spider-cloud/spider-client
import { SpiderLoader } from "@langchain/community/document_loaders/web/spider";

const loader = new SpiderLoader({
url: "https://spider.cloud", // The URL to scrape
apiKey: process.env.SPIDER_API_KEY, // Optional, defaults to `SPIDER_API_KEY` in your env.
mode: "scrape", // The mode to run the crawler in. Can be "scrape" for single urls or "crawl" for deeper scraping following subpages
// params: {
// // optional parameters based on Spider API docs
// // For API documentation, visit https://spider.cloud/docs/api
// },
});

const docs = await loader.load();

API 参考

  • SpiderLoader 来自 @langchain/community/document_loaders/web/spider

其他参数

查看 蜘蛛文档 以了解所有可用的 params


此页面是否有帮助?


您也可以在 GitHub 上留下详细的反馈 on GitHub.