数据工程究竟是什么?
我九月份开始了一份数据工程师的工作。当时我对这份工作的具体内容并不完全了解,但我已经准备好转换工作重心,学习新知识。此前四年我一直从事后端应用开发,虽然学到了很多东西,但我已经渴望摆脱主要负责API的调用和构建工作。
在面试这个职位时,我事先了解了DAG、ETL管道以及一些常见的数据库模式,比如星型模式。然而,面试官问了我一些问题,比如“如何优化这个SQL查询”以及“假设没有自动负载均衡器,如何决定在哪个集群中创建新数据库?”这些问题很有意思,所以我决定接受这份工作。但即使是对其他工程师来说,要解释清楚我的工作职责范围也并非易事。
我的团队负责数据库基础设施。我们确保数据库集群不会过载,并关注内部数据安全。我们管理数据库用户和权限,并处理来自不同团队的请求。我们是商业智能团队的信息收集部门;如果他们需要每 24 小时从特定 API 获取数据,我们会编写 ETL 管道来实现,并管理存储所有信息的数据仓库。我的工作内容比较杂,涵盖各种需要完成但可能没有明确负责人的事情。
我知道我可能没能很好地回答“数据工程到底是什么?”这个问题,因为我自己也不太确定!最近我在一次本地的Python聚会上遇到了Ali,我们因为都觉得数据工程这门学科完全是人为创造出来的而惺惺相惜。
在本系列文章中,我将从数据工程的角度介绍我在工作中使用的各种工具。如果您有任何具体问题,或者想了解数据工程师常用的特定工具,请在评论区留言。数据工程是软件开发领域一个相对较新的分支,其边界仍在不断探索中。让我们一起来了解它吧!
文章来源:https://dev.to/thejessleigh/what-even-is-data-engineering-3g5m