谈一本书《Spark快速大数据分析》

团队的负责大数据这块的同事有事出差了,所以他的工作各种原因最后落在了我的手中。

虽然说it技术更新迭代速度很快,但是本人在各种学习渠道中喜欢的还是读书的方式。Big Data这部分涉及的技术对于我来说比较新(之前只是在网上看过相关文章和相关概念,项目中使用过hbase),心里也是有点畏惧心理,而且边工作边学习的方式还真考验人,毕竟在学习的过程中很容易钻牛角尖,或者一深入探究就很容易耽误工作的进度。带着担心工作进度的心理去看书却很难看得进去,不说了,这种心态真折磨人。

在网上搜索学习spark的书籍,除了官网貌似很多前辈推荐了这本书:Learning Spark:Lightning-fast Data Analysis,中文名称也就是题目所说的。看了第一章和第三章了,不得不说,好书就是开卷有益,看完第一,二,三章,对spark已经没有畏惧感,而且对spark也产生了兴趣。一些原先晦涩难以理解的概念也渐渐可以理解。因为只看了几章,所以暂时这么多(需要本书免费pdf的可私信).

果然,一工作起来就没心思写文章了,年前忙着这个大数据模块。说说后来这部分模块的情况,结果就是我怕未能按时完成(这块确实不熟悉,不是我怕责任问题,时间上我也觉得不合理),向领导说明情况后,领导让另一个高级RD帮忙弄了。这个RD有十年工作经验了,然而他也不是弄大数据的,所以很多东西他也 是摸着过河弄,很多东西他也是不熟悉,但是毕竟有资深经验吗,眼界毕竟不一样,起码比我知道哪里设计不合理,哪里设计合理,最终就是我给他打下手了,最后勉强完成(说实话,时间有点紧,而且我俩又不熟悉,感觉坑还有不少),那个资深RD还是自信满满的,哈哈,这是好事,值得学习,毕竟大神吗,不都从坑过来的吗。

再来讲讲技术层面的问题,hbase的客户端phoenix对很多复杂sql的不支持真的令人烦,因为这个折腾了好久,而且数据量真的大(当时测试是几十w条,实际生产应该更多),所以也涉及到一个性能问题,一开始查询一条sql需要10几20秒,最后不断拆表才变成了4,5秒这样子(还真不知道有没有问题)。spark sql也被我们弃用了,那位资深RD也没用过spark,怕出问题吧。不过对于我来说,还是学到了很多东西,感谢.

    原文作者:子非鱼
    原文地址: https://zhuanlan.zhihu.com/p/32564698
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞