发布于 2026-01-06 0 阅读
0

前 15 个开源 Advent 项目

前 15 个开源 Advent 项目

只剩10天了!

本月初,我们启动了开源节,庆祝 25 个不同的开源项目。分享这些项目非常有趣,所以我想重新分享一下前 15 个项目!欢迎查看代码库,尝试教程,并告诉我们你构建了什么!

当然,所有参与这些开源项目的人都会非常渴望在圣诞节🎄💕获得一些关爱,比如在GitHub上获得一颗星。

1. Milvus 作者:Zilliz | Github

Milvus是一个开源向量数据库,为嵌入相似性搜索和人工智能应用提供支持,并致力于让每个组织都能轻松使用向量搜索。Milvus 可以存储、索引和管理由深度神经网络和其他机器学习 (ML) 模型生成的超过十亿个嵌入向量。这是我们Zilliz团队正在开发的项目,所以它当然在列表中。😇

2. Voxel51 的 FiftyOne | Github |教程

FiftyOne 是一个用于构建高质量数据集和计算机视觉模型的开源工具包。借助 FiftyOne,您可以可视化、整理、管理和验证数据,并自动化实现企业级机器学习的工作流程。他们在上一届 Unstructured Meetup 上做了演讲,您可以在这里查看录像(29:10 - 演讲者 Jacob Marks,使用 Voxel51 对计算机视觉数据进行向量搜索)。

3. Quivr | GitHub |教程

Quivr 是您的个人效率助手,它使用 GPT 3.5/4 turbo、Private、Anthropic、VertexAI 和 LLM 等模型,让您可以与导出的文件(PDF、CSV)和应用程序进行交互,并与其他用户共享!它是 OpenAI GPT 的替代方案。

4. Deepset 的 Haystack | Github |教程

Haystack 是一个端到端的自然语言处理 (NLP) 框架,支持构建基于逻辑逻辑模型 (LLM)、Transformer 模型、向量搜索等技术的应用程序。无论您是需要进行问答、生成答案、语义文档搜索,还是构建能够处理复杂决策和查询解析的工具,Haystack 都能利用最先进的 NLP 模型,构建端到端的 NLP 应用程序,满足您的实际应用需求。我们还提供了一个视频,展示了 Haystack 中检索增强的一些示例。

5. Timeplus 的 Proton | Github |教程

Proton 是一个基于 ClickHouse 的流式分析数据库,采用 C++ 编写。它速度快、功能强大且易于使用。

6. YData 的 Ydata 合成和 Ydata 分析 | GitHub |教程

Ydata-profiling 是一个 Python 包,只需一行代码即可自动生成数据质量分析报告。Ydata-synthetic 是一个包,用于使用最先进的生成模型生成合成表格数据和时间序列数据。

7.阿帕奇Flink | GitHub |教程

Apache Flink 是领先的框架和分布式处理引擎,适用于对无界和有界数据流进行有状态计算。

8. LangChain RB | Github |教程

LangChain RB 是一个受 Langchain 启发而开发的原创 Ruby 框架。它的目标是抽象化复杂性和晦涩的概念,使传统的 Ruby 软件工程师也能轻松构建 AI/ML 赋能的应用程序。如果您是 Ruby 爱好者,我们提供了一个视频,向您展示如何使用 Ruby 构建端到端的 GenAI 应用。

9.Union AI的Flyte | GitHub |教程

Flyte 是一款开源编排工具,旨在简化生产级数据和机器学习管道的构建。它以 Kubernetes 为底层平台,并针对可扩展性和可复现性进行了优化。借助 Flyte,用户团队可以使用 Python SDK 构建管道,并将其无缝部署到云端和本地环境中,从而实现分布式处理和高效的资源利用。

10. DVC by Iterative | Github |教程

DVC 是一个命令行工具,可以帮助您开发可复现的机器学习项目。

等等!还有更多!

11. Arize AI 的 Phoenix | GitHub |教程

Phoenix 是 Arize AI 的开源可观测性库,旨在用于在笔记本中对 LLM、CV 和 NLP 模型进行实验、微调和故障排除。

12. TruLens(TruEra 出品)| GitHub |教程

通过深度检测和全面评估,实现LLM和多模态应用程序的可观测性。

13. OpenLLM(BentoML 出品)| Github | 教程

OpenLLM 是一个开源平台,旨在简化大型语言模型 (LLM) 在实际应用中的部署和运行。借助 OpenLLM,您可以对任何开源 LLM 进行推理,将其部署在云端或本地,并构建强大的 AI 应用。

14. Human Signal 的 LabelStudio | Github |教程

一款适用于所有数据类型的灵活数据标注工具。可为计算机视觉、自然语言处理、语音、语音识别和视频模型准备训练数据。

15. LlamaIndex | Github |教程

LamaIndex 是一个基于 LLM 的应用程序的数据框架,用于摄取、构建和访问私有或特定领域的数据。

文章来源:https://dev.to/chrischurilo/first-15-open-source-advent-projects-7d