发布于 2026-01-06 0 阅读
0

2019年如何提升数据科学家的就业竞争力

2019年如何提升数据科学家的就业竞争力

你可能觉得这个标题有点奇怪。毕竟,如果你在2019年是一名数据科学家,你已经很有市场了。由于数据科学对当今企业的影响巨大,对数据科学专家的需求也在不断增长。在我撰写本文时,仅在LinkedIn上就有144,527个数据科学职位空缺。

但是,密切关注行业动态仍然至关重要,这样才能了解最快捷、最高效的数据科学解决方案。为了帮助您,我们痴迷于数据的简历编译团队分析了一些职位空缺,并总结了2019年的数据科学就业趋势。

2019年最热门的数据科学技能

下图展示了2019年雇主对数据科学工程师的技能要求:

为了进行这项分析,我们查阅了来自 StackOverflow、AngelList 和类似网站的 300 个数据科学职位空缺。某些术语可能在同一职位列表中重复出现。

注意:请记住,这项研究代表的是雇主的偏好,而不是数据科学工程师自身的偏好。

主要收获和数据科学趋势

显然,数据科学更侧重于基础知识,而不是框架和库,但仍然有一些趋势和技术值得注意。

大数据

根据2018年大数据分析市场研究报告,企业大数据采用率从2015年的17%飙升至2018年的59%。大数据工具的普及程度也随之提高。暂且不考虑Apache Spark和Hadoop(我们将在下一节详细讨论后者),最流行的工具是MapReduce(36)和Redshift(29)。

Hadoop

尽管 Spark 和云存储很受欢迎,但Hadoop的时代尚未结束。因此,一些雇主仍然希望求职者熟悉Apache Pig (30)、HBase (32) 和类似技术。HDFS (20) 也仍然在招聘信息中被提及。

实时数据处理

随着各种传感器、移动设备和物联网(IoT)的日益普及(18),企业致力于从实时数据处理中获取更多洞察。因此,诸如Apache Flink (21) 之类的流分析平台在一些雇主中颇受欢迎。

特征工程和超参数调优

数据准备和模型参数选择是数据科学家工作的关键环节。 “数据挖掘”(128)一词在雇主中相当流行。一些雇主也十分重视超参数调优(21)。然而,作为一名数据科学家,你首先需要关注的是特征工程。为模型选择最佳特征至关重要,因为它们决定了模型在创建初期阶段的成功与否。

数据可视化

处理数据并从中提取有价值的洞见至关重要。然而,数据可视化(55)对于任何数据科学家来说都是一项同样重要的技能。能够以团队成员或客户都能理解的方式呈现工作成果至关重要。至于数据可视化工具,雇主更倾向于使用Tableau(54)。

总体趋势

在招聘信息中,我们看到了诸如AWS(86)、Docker(36)和Kubernetes(24)等术语。由此可见,软件开发行业的总体趋势也适用于数据科学领域。

专家怎么说

本次评测中的各项技术水平相当。然而,在数据科学领域,有些东西与编程同样重要。例如,从“数据输出”(如最终数据集和趋势、可视化)中挖掘洞见,并用这些数据讲述故事的能力。此外,以易于理解的方式呈现研究结果的能力也至关重要。了解你的受众——如果他们是博士,就要用恰当的方式与他们交流;但如果他们是高管,他们不会关心编程,只会关注结果和投资回报率。

Carla Gentry,Analytical Solution
的数据科学家/所有者,LinkedIn | Twitter

快照数据有助于了解当前市场状况,但无法反映发展趋势,因此仅凭快照数据很难进行未来规划。我认为 R 的使用率将继续稳步下降(MATLAB 的情况也类似),而 Python 在数据科学家中的普及率将持续上升。Hadoop 和大数据之所以榜上有名,是因为该行业存在一定的惯性:Hadoop 将会消失(现在几乎没人再认真投资它了),而大数据也不再是热门趋势。是否需要投入时间学习 Scala 尚不明确:谷歌官方支持 Kotlin(也是一种 JVM 语言),Kotlin 更容易学习,而 Scala 的学习曲线则非常陡峭。我对 TensorFlow 的未来也持怀疑态度:学术界已经转向 PyTorch,而且与其他行业相比,学术界在数据科学领域的影响力最大。(以上观点仅代表个人意见,可能不代表 Gartner 的立场。)

安德烈·布尔科夫,
Gartner机器学习总监,《百页机器学习手册
作者。LinkedIn

PyTorch 是利用 CUDA 张量和 GPU 进行数学运算的强化学习的核心驱动力。与需要将每个操作封装到单个设备的 TensorFlow 不同,PyTorch 能够更高效地在多个 GPU 上原生并行化代码。此外,PyTorch 还能构建动态图,这对于循环神经网络来说非常高效。基于 Theano 的 TensorFlow 生成的是静态图表,而且相比基于 Torch 的 PyTorch,学习起来也更加复杂。TensorFlow 反映了其庞大的开发者和研究人员社区。当 PyTorch 构建出像 TensorBoard 这样的机器学习仪表盘可视化工具时,它将展现出更大的发展势头。在调试和数据可视化库方面,PyTorch 更接近 Python 风格,例如 matplotlib 和 seaborn。大多数 Python 调试工具也可以用来调试 PyTorch。TensorFlow 则自带调试工具 tfdbg。

埃森哲
首席数据科学家Ganapathi Pulipaka 博士,
荣获“50 位顶尖科技领袖奖”。LinkedIn | Twitter

我认为数据科学领域的“工作”和“职业”有所不同。招聘信息能反映出市场目前所需的具体技能,但就职业发展而言,我认为最重要的技能之一是学习能力。数据科学是一个快速发展的领域,要想长期成功,你必须能够快速掌握新技术、新工具和新领域知识。要做到这一点,就要不断挑战自己,避免安于现状。

Lon Riesberg,Data Elixir
创始人/策展人 NASA员工。Twitter | LinkedIn

数据科学是一个快速发展且复杂的行业,既需要扎实的通用知识,也需要丰富的特定技术经验。希望本文能帮助你深入了解在2019年保持市场竞争力所需的各类技能。祝你好运!

额外提示:想知道你的数据科学家简历有多强吗?点击这里进行评估,看看它与行业最佳实践相比如何。了解你的得分是免费的!

文章来源:https://dev.to/stetsenko_me/how-to-become-more-marketable-as-a-data-scientist-in-2019-fl9