Reddit 数据抓取 AI 代理:ThreadLens
由 Mux 主办的 DEV 全球展示挑战赛:展示你的项目!
这是参加由 n8n 和 Bright Data 支持的 AI Agents Challenge的参赛作品。
我建造的
AI驱动的自动化功能可以将任何公开的Reddit帖子转化为简洁、可操作的见解,从而消除数小时的手动阅读,并确保团队不会错过隐藏在冗长讨论中的关键点。
它解决了什么问题?
在 Reddit 上搜索产品反馈、硬件推荐或新兴趋势,每个帖子可能需要 30 到 60 分钟。ThreadLens 会自动抓取每条评论和回复,利用大型语言模型分析对话,并在五分钟内生成一份重点突出的摘要。这加快了决策速度,确保了研究的一致性,并使相关见解能够轻松地在我们的 Notion 知识库中搜索。
演示
n8n 工作流程
https://gist.github.com/kris70lesgo/c03f64c8b5decb7f7f6da49aeff5e529
技术实施
- n8n 聊天触发器:通过 Telegram 或网页捕获用户输入(线程 URL)。
- Bright Data 验证节点(网络爬虫):将所有线程 URL 批量处理到配置的“网络爬虫”配方中,处理代理轮换、指纹识别和验证码,然后监控并下载快照内容。
- n8n SplitInBatches & IF 节点:控制快照就绪的轮询循环。
- n8n 代码和聚合节点:将 JSON 输出重塑为单个文本有效负载。
- n8n AI 代理节点:将合并后的评论文本发送到 GPT-3.5-turbo 并检索摘要。
- n8n Notion 节点:将最终摘要追加到共享的 Notion 数据库中。
明亮数据验证节点
Bright Data 节点支持所有抓取和解锁操作:
启动批量提取:将一组 Reddit 评论页面 URL 发送到预先配置的 Web 抓取器脚本。
监控进度:轮询 Bright Data 的 API,直到快照“准备就绪”。
下载快照内容:检索所有评论和元数据的结构化 JSON,无需我们进行任何 HTML 解析。
旅行
构建 ThreadLens 教会了我们如何处理异步批量 API 并转换其输出以供 AI 使用。
挑战:通过结合 IF、Wait 和 SplitInBatches 节点来解决轮询循环管理问题,避免无限期挂起。
经验教训:将数组聚合到单个提示有效负载中可以减少重复的 API 调用,从而降低成本。
结果:一个功能强大的端到端代理,任何团队成员都可以通过聊天触发该代理,并在五分钟内提供经过验证的见解。
文章来源:https://dev.to/agastya_khati_f72c89077c8/reddit-scraper-ai-agent-threadlens-34mp