本节书摘来自异步社区出版社《七周七数据库》一书中的第1章,第1.1节,作者: 【美】Eric Redmond,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.1 从一个问题开始 七周七数据库本书的核心问题是:哪…
标签:大数据
Hive分区表新增字段及修改表名,列名,列注释,表注释,增加列,调整列顺序,属性名等操作...
一、Hive分区表新增字段 参考博客:https://blog.csdn.net/yeweiouyang/article/details/44851459 二、Hive修改表名,列名,列注释,表注释,增加列,调整列顺序,…
大数据未来七大发展方向
大数据不仅意味着海量、多样、迅捷的数据处理,更是一种颠覆的思维方式、一项智能的基础设施、一场创新的技术变革。物联网、智慧城市、增强现实(AR)与虚拟现实(VR)、区块链技术、语音识别、人工智能、数字汇流是大数据未来应用的…
关于数据治理的读书笔记 - 什么是组织机制?
读书笔记的历史文章, 《关于数据治理的读书笔记 – 什么是数据战略?》 《关于数据治理的读书笔记 – 企业数据治理的“道、法、术、器”》 《关于数据治理的读书笔记 – 数据治理、数据管…
兰州市各部门各单位政务数据资源将实现整合共享
兰州晚讯(首席记者徐倩影实习生李芳娜)近日,兰州市大数据社会服务管理局组织局系统全体科级以上干部专题学习《甘肃省“十三五”信息化发展规划》。 结合《甘肃省“十三五”信息化发展规划》,兰州市牢固树立省会城市“首位度”意识,…
mongodb 启动 WARNING: soft rlimits too low
今天启动mongodb的时候,之前一直没注意,今天发现又warning,想整一整。 下面是告警 2019-09-05T12:00:55.271+0800 I CONTROL [initandlisten] 2019-09…
Hadoop文件的存储格式
sequence文件存储格式 txt 纯文本格式,若干行记录。默认用字符编码存储 SequenceFile格式(顺序文件格式,可进行切割) key-value 格式进行存储,最终形成的是一个二进制文件, 需用hadoop…
怎么实现抓取同行网站访客号码
import requests import json import pandas as pd import time # getRtVisitor.json session = …
Flume的三大核心组件
Flume的三大核心组件: Source:数据源 Channel:临时存储数据的管道 Sink:目的地 接下来具体看一下这三大核心组件都是干什么的 Source Source: 数据源:通过source组件可以指定让Fl…
大数据挖掘流程及方法
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 一、数据挖掘对象 根据信息存储格式,用于挖掘的对象有关系数据库…
数据分析师、数据科学家、大数据专家三个职位的区别
数据分析师、数据科学家、大数据专家三个职位的区别 2018.6.11 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 随着数据科学和大数据作为主流职业选择的出现,不少人对相关职位名称的内涵存在一定的混乱…
spark集群搭建(三台虚拟机)——kafka集群搭建(4)
!!!该系列使用三台虚拟机搭建一个完整的spark集群,集群环境如下: virtualBox5.2、Ubuntu14.04、securecrt7.3.6_x64英文版(连接虚拟机) jdk1.7.0、hadoop2.6.…