大数据不仅意味着海量、多样、迅捷的数据处理,更是一种颠覆的思维方式、一项智能的基础设施、一场创新的技术变革。物联网、智慧城市、增强现实(AR)与虚拟现实(VR)、区块链技术、语音识别、人工智能、数字汇流是大数据未来应用的…
分类:大数据
关于数据治理的读书笔记 - 什么是组织机制?
读书笔记的历史文章, 《关于数据治理的读书笔记 – 什么是数据战略?》 《关于数据治理的读书笔记 – 企业数据治理的“道、法、术、器”》 《关于数据治理的读书笔记 – 数据治理、数据管…
兰州市各部门各单位政务数据资源将实现整合共享
兰州晚讯(首席记者徐倩影实习生李芳娜)近日,兰州市大数据社会服务管理局组织局系统全体科级以上干部专题学习《甘肃省“十三五”信息化发展规划》。 结合《甘肃省“十三五”信息化发展规划》,兰州市牢固树立省会城市“首位度”意识,…
Hadoop文件的存储格式
sequence文件存储格式 txt 纯文本格式,若干行记录。默认用字符编码存储 SequenceFile格式(顺序文件格式,可进行切割) key-value 格式进行存储,最终形成的是一个二进制文件, 需用hadoop…
怎么实现抓取同行网站访客号码
import requests import json import pandas as pd import time # getRtVisitor.json session = …
Flume的三大核心组件
Flume的三大核心组件: Source:数据源 Channel:临时存储数据的管道 Sink:目的地 接下来具体看一下这三大核心组件都是干什么的 Source Source: 数据源:通过source组件可以指定让Fl…
大数据挖掘流程及方法
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 一、数据挖掘对象 根据信息存储格式,用于挖掘的对象有关系数据库…
数据分析师、数据科学家、大数据专家三个职位的区别
数据分析师、数据科学家、大数据专家三个职位的区别 2018.6.11 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 随着数据科学和大数据作为主流职业选择的出现,不少人对相关职位名称的内涵存在一定的混乱…
spark集群搭建(三台虚拟机)——kafka集群搭建(4)
!!!该系列使用三台虚拟机搭建一个完整的spark集群,集群环境如下: virtualBox5.2、Ubuntu14.04、securecrt7.3.6_x64英文版(连接虚拟机) jdk1.7.0、hadoop2.6.…
Hive实验5:查看Hql执行计划及关键步骤说明
1、查看执行计划方法 语法:explain [extended] Hiveql; /*例子:*/ explain select count(distinct mobilename) from testtab_small;…
数据治理学习笔记(一):数据治理是什么,要做什么
前言: 经常在各种数据工作的文章中看到这个词,看词语意思就是要把数据管理好。作为数据基础支撑工作,其重要性也是可以想象的,平时工作中,有数据问题,一圈查下来就是一条记录的质量问题,更坑的是可能会多次都是因为同一种问题。这…
spark streaming测试之三有状态的接收数据
测试思路: 首先,使用上篇文章的程序一发送网络数据; 其次,运行spark程序,观察效果。 说明: …