// Transwarp – 新闻详情 http://www.transwarp.io/news/detail?id=29 企业的核心数据处理逐渐分为两大模块: 以关系型数据库(RDBMS)为主,主要用于解决…
标签:tb
StreamingPro 支持类SQL DSL
前言 受spark sql在喜马拉雅的使用之xql 这篇文章影响,我发现类似下面这种语法是极好的: //加载mysql表 load jdbc.`mysql1.tb_v_user` as mysql_tb_user; //…
HIVE去重问题
代码1:查询重复记录 SELECT * FROM tb a WHERE (a.account) IN (SELECT account FROM tb GROUP BY account HAVING COUNT(*) &g…
spark的collect()函数
spark中的collect操作是将远程数据通过网络传输到本地,如果数据量特别大的话,会造成很大的网络压力,更为严重的问题是会造成driver端的内存溢出。 foreach是依次遍历远程集群上的RDD中的元素。colle…