Langflow微教程 — 链接收集器

欢迎回到我们的Langflow微教程系列！在本文中，我们将继续探索简单的Langflow示例和自定义组件设计。

您可以下载我们将要讨论的流程，以便修改和了解正在使用的组件。

今天，我们将专注于一个基本的网络爬虫流程，用于提取可能包含有价值信息的链接。希望你喜欢！

主要特点

HTML加载器：HTML加载器自定义组件使用BeautifulSoup库从给定的URL中检索出soup对象。这样可以轻松从HTML文档中提取相关信息。

HTML链接提取器：HTML链接提取器可以获取HTML内容中的链接。通过利用BeautifulSoup，该组件可以减少在信息被LLM处理之前的文本量，从而节省时间和令牌成本。

该流程的目标是从HTML文档中提取相关链接，并将它们作为项目符号呈现给语言模型。

该模型旨在识别可能包含公司电子邮件的链接（在此示例中使用了“email”，但您可以想象其他不同查询的类似用例），如“关于我们”和“联系我们”页面。

注意，在将HTML信息传递给提示模板之前，会对其进行一些预处理，这使得自定义组件和LLM管道更具吸引力。