最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果。由于之前对spark的API使用过,知道API中的sortByKey()可以自定义排序规则,通过实现…
Spark分组取TopN
本文记录了利用Scala和Java两种语言来实现先分组,然后取每个分组的TopN。 1.文本内容 class1 90 class2 56 class1 87 class1 76 class2 88 class1 95 c…
HiveQL查询操作全解(五):正则表达式
hive中的正则表达式还是很强大的。数据工作者平时也离不开正则表达式。对此,特意做了个hive正则表达式的小结。所有代码都经过亲测,正常运行。 1.regexp 语法: A REGEXP B 操作类型: strings …
【大数据工程师】学习路径
前言: 实验楼上有10+条技术学习路径,对于想要系统入门该技术的小伙伴来说是非常不错的参考,详细的各路径,点击这里就可以查看了~ 文章主要把【大数据工程师】学习路径搬运到这里来,希望对广大想入门大数据的小伙伴来说有所帮助…
SPARK集群配置
搭建好HADOOP高可用后 发现HADOOP2.7.x版本并不能支持SPARK1.6.x因此重新搭建了HADOOP2.6.5高可用集群节点配置如下 hadoop1 192.168.1.111 hadoop2 192.16…
Objective-C 学习笔记
今天学习了一下OC的一些基本语法。体验有两点: 1.OC并没有之前成见里那样的“反人类”,或者比其他语言更难理解。 2.相反其duck typing、高性能、以及优雅的Category还是挺棒的。 XCode IDE也还…
Xamarin 基础、入门、API等官方文档链接
Visual Studio for Mac 介绍&教程 教程: Xamarin 文档总览 Xamarin 入门 Xamarin.Forms 入门 Xamarin.Forms 创建移动应用指南(及电子书) Xama…
读书笔记:NOSQL 菜鸟教程
读书笔记:NOSQL 菜鸟教程 定义 NoSQL(NoSQL = Not Only SQL ),意即”不仅仅是SQL”。 NoSQL用于超大规模数据的存储。(例如谷歌或Facebook每天为他们的…
sql 优化的简单总结
又是一年一度跳槽季,为了寻求更好的发展楼主也随波逐流。再一次面试中被问到Sql优化,楼主只是简单的回答了几条,作为一个有经验的开发人员居然不知道Sql优化,我自己都笑了(不是不知道,只是一下想不起那么多)。 为了鞭策自己…
Hbase高可用集群搭建
hadoop和spark高可用集群搭建参考链接: http://www.jianshu.com/writer#/notebooks/6146839/notes/6304146 方案 192.168.211.129 ela…
Memcached工作原理
Memcached工作原理 @[memcached] [toc] 1. Memcached软件工作原理 memcached是一套C/S模式架构的软件,在服务器端启动服务守护进程,可以为memcached服务器指定监听的I…
Redis命令:Sets
Set是一组无序、不重复的元素。 SADD命令添加指定元素到set中,重复元素将会被忽略。 SMEMBERS命令会返回set中的所有元素。 SADD set "a" "b" "c" "a" => "(integer…