分类：Hive

hadoop mapreduce的python代码运行

在hadoop上运行python程序准备文件测试文件test.txt (/home/hadoop/input/test.txt) mapper.py (/home/hadoop/input/code/mapper.p…

1.测试Oracle连接 bin/sqoop list-databases –connect jdbc:oracle:thin:@192.168.16.223:1521/orcl –usernam…

一、院系指导：本课程适用于报考中国人民大学新闻学院传媒经济学专业的所有考生，该专业考研的基本情况是：本专业考试科目为：201英语一、101思想政治理论、610新闻传播实务、824新闻传播史论；本专业考研报考录取情况…

文章来源：科多大数据许多对大数据有一定了解的同学，对于大数据常用命令不是很熟悉。今天科多大数据老师就总结了大数据Hadoop培训学习常用命令，下面跟随着科多大数据老师一起来看一看吧。每台服务器需要关闭防火墙 syst…

使用sparksql访问几个hive表join的情况时结果为空，且这个sql在hive里执行是成功的。 val sparkSession = SparkSession .builder() .config("jars",…

正则表达式(Regular Expression)是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为”元字符”）。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法…

join优化-数据倾斜 hive.optimize.skewjoin=true; 【TODO 细节】数据倾斜时启动两个job进行join 然后再做union set hive.skewjoin.key=100000; …

用了几次impala + kudu做大数据实时计算场景，一路踏坑过来，这里分享踏坑经验一开始需要全量导入kudu，这时候我们先用sqoop把关系数据库数据导入临时表，再用impala从临时表导入kudu目标表由于sq…

因为之前平台部署的hive下的元数据是放在mysql中的，而mysql由设置了为了拉丁文，导致元数据都是乱码的。于是开始了更新计划，办法就是用svn中的建表语句，提取出来写到元数据的mysql下，然后在mysql里进行…

hive中创建表报错问题在hive中创建表的时候报错，需要注意的几个问题 1. HDFS文件目录路径中最好不要出现中文 2. 文件名字不要为中文 3. 表名最好不要设置为中文

本文来自网易云社区作者：王潘安快速解决方法目前的hive客户端在执行desc tablexxx和show create table xxx命令的时候，字段的中文注释会出现乱码情况，如(????)。在使用　ROW F…

Kylin是个强大的数据处理平台，由于最近工作需要无意间看到了Kylin和Druid两个平台的优劣比较，之前也有过Kylin耳闻所以想尝试一把，没想到过程中所到之处全是坑，不过一路下来也积累了不少解决问题的思路，下面分享…