📄️ html-to-text在将 HTML 文档导入以供日后检索时,我们通常只对网页的实际内容感兴趣,而不是语义。📄️ @mozilla/readability在将 HTML 文档导入以供日后检索时,我们通常只对网页的实际内容感兴趣,而不是语义。📄️ OpenAI 函数元数据标记器使用结构化元数据(如文档的标题、语调或长度)标记导入的文档通常很有用,以便日后进行更精准的相似性搜索。但是,对于大量的文档来说,手动执行此标记过程可能很繁琐。