📄️ html-to-text当摄取 HTML 文档以供后续检索时,我们通常只对网页的实际内容感兴趣,而不是语义。📄️ @mozilla/readability当摄取 HTML 文档以供后续检索时,我们通常只对网页的实际内容感兴趣,而不是语义。📄️ OpenAI 函数元数据标记器为摄取的文档标记结构化元数据通常很有用,例如文档的标题、语气或长度,以便稍后进行更有针对性的相似性搜索。但是,对于大量文档,手动执行此标记过程可能很繁琐。