我测试了15个大语言模型用于网络爬虫，但最终选择了构建启发式算法

无人提及的问题：600KB 的文档对象模型（DOM）

当我开始构建网络爬虫时，显而易见的做法是将页面发送给大型语言模型（LLM），并要求它提取数据。很简单，对吧？

错。典型的产品列表页面包含 500–700KB 的原始文档对象模型（DOM）数据。将其发送给任何模型都意味着你每页需要支付约 150,000 个令牌（token）的费用，每个请求等待 15–30 秒，并且在处理任何复杂内容时都会触及上下文长度限制。

我在第一页就撞上了这堵墙。

我测试了所有模型：GPT-4、GPT-4o、Gemini 1.5 Pro、Gemini Ultra、Claude 3 Opus、Claude 3.5 Sonnet、Mistral Large、Llama 3 70B、Cohere Command R+，以及一些较小的微调模型。

结果始终如一：

没有模型能解决延迟问题，因为我要求它们解决的是一个错误的问题。

真正的问题不在于模型，而在于输入大小。

我构建了一个文档对象模型（DOM）预处理器：

结果：580KB → 4.2KB。减少了 99.3%。

当输入大小为 4KB 时，每个模型都变得快速起来。但更有趣的事情发生了：在这种规模下，重复模式变得显而易见。相同的结构重复了 20、50、100 次——产品卡片、目录行、搜索结果。

如果仅从结构上看模式已经显而易见，为什么我还要付费让模型去寻找它呢？

我编写了一个启发式检测器：

然后，人工智能在检测之后介入——不是为了识别列表，而是为了标记字段并结构化输出。这是一个只需 200 个令牌的任务，而不是 150,000 个令牌的任务。

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。

扫一扫在手机上阅读

看了又看

DevOps 很难。但没人愿意承认，原因如下。

刚刚发布了碳足迹快照 🌱 —— 一种简单而强大的方式，用于追踪您的碳足迹并发现更智能、环保的替代方案。这是为地球日挑战构建的，专注于简洁的用户界面、实用的洞察以及现实世界的影响。

Obsidian AI 导出器：当前支持多种人工智能的演进版本

十大悄然吞噬你联网电视广告收入的VAST错误

关于我们

步骤	方法	延迟
列表检测	启发式算法	0.2 毫秒
字段标记	大型语言模型（小输入）