未明学院:数据分析VS数据挖掘,二者的异同&求职时的优势对比

本文作者:未明学院数据分析方向老师 王老师

“孙子曰:凡兴师十万,出征千里,百姓之费,公家之奉,日费千金,内外骚动,怠于道路,不得操事者,七十万家。”《孙子兵法·用间篇》(2500年前)

数据分析:以计算机为基本工具,以大量数据为对象,以统计分析方法得出结论,供人们采取行动决策的过程。

数据挖掘:从大量的数据中通过算法搜索隐藏于其中信息的过程。

我们可以用战斗机来举例,理解数据分析和数据挖掘的异同。

下面这货是数据分析(早期战斗机)

下面这货是数据挖掘(现代战斗机)

1

相似之处

两者都是通过计算机对大量的数据进行一定方式的分析研究,从而得出结论的过程;

都需要掌握一定的数据清洗能力,也就是要掌握一定的数据处理软件或编程语言;

都需要懂得基础的统计学知识;

换句话说两者都是为了完成战斗任务而产生的技术工具,就好比上图中的两种战斗机,它们使命都是为了对数据进行处理而后给出结论,指导决策

2

差异之处

从时间上讲,数据分析比数据挖掘出现的早,前者是早期技术(但是并没有被淘汰,依然在用),后者是新兴技术

从核心技术上讲,数据分析所依赖的技术条件和理论的复杂性上也要比数据挖掘低。

数据分析的主要步骤是明确分析目标、获取数据、数据清洗、描述性分析(可视化)、建模分析和撰写报告。

常用的数据分析方法有描述性分析、线性回归分析、方差分析、主成分分析和典型相关分析、判别分析、聚类分析、Bayes统计分析等。

数据挖掘的基本步骤是明确分析目标、获取数据、数据清洗、特征工程、构建模型、模型调参和模型上线。

常用的数据挖掘算法有决策树(C4.5)、邻近分析(KNN)、贝叶斯算法(NB)、支持向量机(SVM)、期望最大化(EM)、关联规则(Apriori)、聚类分析(K-Means)、神经网络(BP)等。

概括起来说数据分析的核心是数据可视化图形和统计学分析,数据挖掘是图形和基本统计分析方法所不能表达的更深层次的数据关系

举例来说,假设我们对某个淘宝电商数据做研究分析,我们可以通过数据分析,例如曲线图、条形图、饼图和回归分析等,分析出该商家的销售周期性规律、客户与成本构成、各种因素如何定量的影响销量等等。

但是,众多顾客对于商品的评论所表达的情感倾向以及商家口碑,如何根据用户当前的点击和购买记录推荐其最有可能购买的商品等确实数据分析技术所不能处理的,必须通过数据挖掘来进行研究。

此外,数据分析要求对所研究的行业有较深的理解,比如结合市场营销、心理、金融等进行综合分析,而数据挖掘则不需要过多的行业知识,更注重纯技术层面的数学与编程的结合

这一点我们可以这样理解,两者在这方面的区别就好比一个金融分析师和一个数学家的区别,数学都是他们的基本工具,但是前者要通过金融学的原理和概念开展分析过程,解读分析结果,后者则是纯粹的研究各项数据之间的数学关系。

然而值得注意的是两者的界限正在变得越来越模糊,很多数据分析问题越来越多的使用数据挖掘算法,很多数据挖掘问题也越来越多的借助可视化表达。

3

招聘需求

最后,我们再从招聘需求的角度来看,数据分析工作岗位数量上远大于数据挖掘(约10倍),薪资水平上数据分析岗位低于数据挖掘,而且数据分析岗位在工作领域和工作职能上有很多细分,但数据挖掘相对较少。

岗位选择上讲,数据分析起点相对较低,入门较容易,薪资也相对理想,对于想要深化专业技能或者转行的人而言是一个不错的选择,并且以此为过渡向数据挖掘方向去发展;

数据挖掘薪资水平更高,但是技术能力要求较高,有一定技术背景的人比较有竞争优势,想要转入此行需要投入更多的时间来完善技能。

参考文献

1.大数据环境中常见的针对数据挖掘和数据分析的疑惑与职业选择。https://baijiahao.baidu.com/s?id=1616433462658400878&wfr=spider&for=pc

2. 蔡永飞:中国人对人类农业的贡献及其意义 http://wemedia.ifeng.com/91365477/wemedia.shtml

3. 数据挖掘与数据分析 https://blog.csdn.net/u012325865/article/details/80481261


更多精彩内容