统计学专业未来从事大数据方向有优势吗?

根据现在工业界的大数据就业情况来说(对于一般同学而非牛人),统计从事大数据来说优势小。对一般数据分析甚至建模有一定优势。

我这篇回答面向的是大部分水平还可以的统计本科生,他们也努力学习了专业课,编程基础一般或几乎没有,但是没有看额外的公开课或书籍,大部分无法通过大数据的面试。

硕士或者博士自学了数据挖掘,自学各种公开课的请忽略我的答案,因为任何领域你自学很深入了都可以做。干货在分割线以下。

数据  ≠ 大数据!

数据挖掘 ≠ 大数据!

大数据也用统计的各种模型建模,但是代码比在学校学习的复杂,门槛高!!职位少,不自学额外的肯定过不了大数据的面试,尤其是本科生,这个是实际情况。

一味的鼓吹大数据,然后让一堆学统计的本科生找不到大数据相关的工作我认为很不负责任。一般数据分析或者一般数据量的建模也很好。等工作几年有实际产品与工业界经验你再转大数据分析或者建模也很好。

经同学提醒,我最开始没注意提问人要读研或读博。对于读研或读博的同学,好好打好数理基础,持续深入学习的话统计学肯定是有优势的。我回答初衷是描述就业境况,如果本科同学能了解到就业情况,提前准备那是最好的。

赞同知友所说学校不能教给我们所需的所有知识。所以对于有自学能力,也学对方向的人我觉得专业完全限制不了他们的发挥,他们只要努力持续学肯定能有收获。

我读了4年211+ 2年美研总计6年统计学专业。现在在洛杉矶转行做大数据工程师(说转行是因为现在所做和统计学的东西几乎毫无关联,转行之路艰难,请不要学我)。

问题问的是“从事大数据方向”,我的回答是主要围绕工作与工业界需求。有志向读博走学术界的人肯定有自己的想法,请想走学术界的同学忽略这个答案。

我认为现在大部分学传统统计的同学做不了大数据工作,但可以做数据分析或者数据挖掘之类的建模。我的回答基于我这几年周围同学和我自己的经历以及找工作情况,希望给没头绪的同学一点想法参考,不一定正确。

不推荐大部分人学计算机。

历经几家公司我感觉市场上大部分公司都不是大数据,因为一般体量的公司产生不了大数据。所以大数据分析相关的岗位也不多,现阶段工业界跟大数据真正相关的工作大部分都是数据处理。

利用sql查数据工程师清理好的表里的数据大部分属于数据分析,而非大数据分析。建模跑十几万条数据不是大数据。而且正因为数据量限制,除少部分有资源的教授跟公司合作外,大部分搞学术的教授很难拿到真正的工业级大数据,他们用的不是大数据,但也能研究统计模型。

———————————–大数据工作分割线———————————–

简单说大数据的意思是数据量太大以至于一台计算机存不下,所以需要将数据存放在好多台机器上。所以对于大数据来说,第一件事就是操作这些数据,没有一个方便的软件能很简单地读取很多台机器上的数据。

所以需要有linux或者macOS基础,终端命令行基础,git基础。然后有写python或者java或者scala 基础来读取数据,需要有面向对象基础,再etl,用spark框架的算子比如reduceByKey,filter之类的。还需要了解怎么连接数据库,数据库连接池之类的,导实时数据,debug,测试输出数据,最后打好Jar包或egg包传到集群上,跑code,然后调优。期间你可能需要一些前后端的知识和你的同事交流。这些数据处理部分占大数据的大约70%,而这70%的工作量是基础。(sql也经常使用)

而如何操作分布式大数据,大部分统计老师都不懂,也不需要懂。但是你想通过面试进企业做大数据就得了解如何操作大数据,网上有资源,但是大多是demo,不系统。

剩下30%可能有建回归模型或者建推荐系统。用来建模的大部分还是python/scala。模型是前辈们已经建好的,我们调包如sklearn或者spark的包,调参数就可以了,再看看数据预测的准确性。为了理解模型,需要线性代数,概率论,统计学等知识。

而我认识的做etl数据工程师的学计算机的同事,他们有本专业的基础,再学学统计学,做个回归模型就非常顺畅。只有统计学的知识等于只有理论,具体如何做完全没有头绪。甚至连大数据的面试都过不去。但是可以试试一般数据分析。我们公司做建模的同事,scala代码都不错,而统计背景没有代码基础做大数据的模型还是有点艰难的。

总结一下:

传统统计学学的是概率论,或者再学个线性代数,或者抽样调查,有的统计学甚至是经管学院下的学经济学金融学甚至会计学。各种统计或机器学习模型是大牛们很多年前提出并演化至今。现实是由于大学教育偏重问题,大部分统计学学生理解模型理解算法推导都有难度,更无法写出或提出一个新算法。

大部分大数据方向(数据工程师)的工作面试的时候都是分布式,都是spark,有工业项目,或者hive,sql,kafka之类的。

大部分大数据方向或一般数据量的(数据科学家,建模)都要求至少研究生,甚至博士生。因为本科学的太浅,什么都不会进去培训你这个的公司也很少。要求理解模型原理,会逻辑回归,线性回归,随机森林,聚类,kmeans。建模包用sklearn,甚至TensorFlow之类的。面试内容也是数据挖掘,机器学习以及各个算法优劣或者推导比较多,也要知道如何调优,解释ROC。概率论与数理统计不是机器学习。国内统计专业教这个的少,教精的更少。

随便找了2个简单的题目例如:(1)逻辑回归和线性回归区别,逻辑回归应用场景,其中的核函数有什么作用(2)什么是梯度下降,梯度下降优化,你知道哪些

大部分回答上来的同学都不是学校教的,是自学的。

所以统计与大数据供需不对等,如果想找大数据工作请学大数据相关专业或者自学。而且大数据发展这么快,大部分学校无法及时更新,你可能还会花一学期会早就不用了软件,学跟大数据完全无关的课程。你找个公司投一投面一面试就会知道一般大学教的统计学完全无法让你通过面试,所以想走这条路请自学

—————-

有少部分统计学的同学自学能力强面试准备好,他们做大数据能直接跳过etl直接用数据工程师弄好的数据建模,但是也非常不容易,因为坑少门槛高。建模基本就是机器自己跑模型,所以其实谁跑都一样。前两天看到一个建模的数据科学从业者自谦“调包侠”,2333,说自己怕失业。所以你想做不是只会调包的数据科学家,想建模,你就得理解各个模型的原理,会推导,知道各个算法模型之间的优劣等等。给你张白纸你能推导出逻辑回归你才有底气去面试。

—————–

所以大部分做数据分析的同学在干什么呢?

答案是他们没有做大数据。建模不等于大数据!几千条几万条数据不是大数据。用几千条数据,我们可以建的模型可以是统计回归模型,计量经济学模型,可以做数据挖掘、机器学习。数据分析/挖掘从业者用SAS或者R或者python在一台机器上也能跑逻辑回归,也能跑随机森林,他们也能影响公司决策。他们可能有quant,用模型分析股市,有统计学家有给药厂分析新药是否有效,有在分析收视率的,分析销售量的。他们的前景也很好。

技术没有优劣,不是说做大数据就比一般的数据分析高端。分析大数据或者数据分析都是为了公司盈利。一个公司大数据部门用的技术再新,没有帮公司盈利也等于没有发挥它的作用。而且我的leader是做大数据,但是隔壁BI 做数据分析,数据展示部门的leader阿姨跟我们头也是平级的。项目大家都一起合作,一起提出方案。完全没有因为人家没有用太fancy的技术就怎么样。挣得也差不多。所以学统计做数据分析或者数据挖掘也挺好的,不用舍本逐末。

我随便找了一个python做的逻辑回归,这个例子比较简单,数据量也不大,如果感兴趣就自己找资料学吧。看看kaggle别人做的项目。但请注意,这个例子只是建模,只是机器学习,他不一定是大数据。公司里的大数据模型要更复杂。所以如果本科你没学到足够的知识就在工作中学吧。如果想系统学习大数据的话,可以添加Q君羊:522189307

最后补充一点我说的统计指全国大部分传统的统计学(粗略估计至少百分之70-80以上是传统统计)这些统计学教得课程跟大数据需求不匹配,所以无法帮助学生找到大数据相关工作。我统计本科全班只有我现在做相关工作,其他人都转行了。

少部分学校新开设了数据挖掘,人工智能甚至大数据相关方向,明确开设的课程跟职业需求非常匹配的情况下那找工作确实比较有帮助。

    原文作者:李旭me
    原文地址: https://blog.csdn.net/dashujujiagoushi/article/details/105102240
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞