Reddit 数据抓取 AI 代理：ThreadLens

由 Mux 主办的 DEV 全球展示挑战赛：展示你的项目！

这是参加由 n8n 和 Bright Data 支持的 AI Agents Challenge的参赛作品。

我建造的

AI驱动的自动化功能可以将任何公开的Reddit帖子转化为简洁、可操作的见解，从而消除数小时的手动阅读，并确保团队不会错过隐藏在冗长讨论中的关键点。

它解决了什么问题？
在 Reddit 上搜索产品反馈、硬件推荐或新兴趋势，每个帖子可能需要 30 到 60 分钟。ThreadLens 会自动抓取每条评论和回复，利用大型语言模型分析对话，并在五分钟内生成一份重点突出的摘要。这加快了决策速度，确保了研究的一致性，并使相关见解能够轻松地在我们的 Notion 知识库中搜索。

演示

https://youtu.be/4TgBGNGRn5o

n8n 工作流程

https://gist.github.com/kris70lesgo/c03f64c8b5decb7f7f6da49aeff5e529

技术实施

n8n 聊天触发器：通过 Telegram 或网页捕获用户输入（线程 URL）。
Bright Data 验证节点（网络爬虫）：将所有线程 URL 批量处理到配置的“网络爬虫”配方中，处理代理轮换、指纹识别和验证码，然后监控并下载快照内容。
n8n SplitInBatches & IF 节点：控制快照就绪的轮询循环。
n8n 代码和聚合节点：将 JSON 输出重塑为单个文本有效负载。
n8n AI 代理节点：将合并后的评论文本发送到 GPT-3.5-turbo 并检索摘要。
n8n Notion 节点：将最终摘要追加到共享的 Notion 数据库中。

明亮数据验证节点

Bright Data 节点支持所有抓取和解锁操作：
启动批量提取：将一组 Reddit 评论页面 URL 发送到预先配置的 Web 抓取器脚本。
监控进度：轮询 Bright Data 的 API，直到快照“准备就绪”。
下载快照内容：检索所有评论和元数据的结构化 JSON，无需我们进行任何 HTML 解析。

旅行

构建 ThreadLens 教会了我们如何处理异步批量 API 并转换其输出以供 AI 使用。

挑战：通过结合 IF、Wait 和 SplitInBatches 节点来解决轮询循环管理问题，避免无限期挂起。

经验教训：将数组聚合到单个提示有效负载中可以减少重复的 API 调用，从而降低成本。

结果：一个功能强大的端到端代理，任何团队成员都可以通过聊天触发该代理，并在五分钟内提供经过验证的见解。

文章来源：https://dev.to/agastya_khati_f72c89077c8/reddit-scraper-ai-agent-threadlens-34mp

菜单

分享

Reddit 爬虫 AI 代理：ThreadLens DEV 的全球展示挑战赛，由 Mux 呈现：展示你的项目！

Reddit 数据抓取 AI 代理：ThreadLens

由 Mux 主办的 DEV 全球展示挑战赛：展示你的项目！

我建造的

演示

n8n 工作流程

技术实施

明亮数据验证节点

旅行

系统设计面试中的 19 种微服务模式

使用 React 和 AWS Amplify 实现无服务器架构第三部分：跟踪应用使用情况

模型-视图-控制器（MVC）模式到底是什么？DEV 全球项目展示挑战赛，由 Mux 主办：快来展示你的项目吧！

我在两年内从 PHP 开发人员晋升为高级 C#/.NET 开发人员。

了解 Docker：第 12 部分 – 传递构建参数

Yarn 和第三方 NPM 客户端的黑暗未来 DEV 的全球展示与讲述挑战赛，由 Mux 呈现：展示你的项目！

CSS DEV 的全球展示挑战赛“响应式字体”由 Mux 呈现：展示你的项目！

我是如何以学生开发者的身份免费获得 Tabnine Pro 的，你也可以！

五大顶级JS框架

从 Rector PHP 开始：利用自动化改进您的 PHP 代码