标签：数据

AWS的大数据生态1

AWS的用户应该都注意过AWS对所有流入AWS的数据都不收费，很明显AWS有意引导用户把更多的数据放到AWS云中，因为把数据放在什么地方会引发后续一系列的连锁反应。AWS与其它云或者本地 (on-premises) 数据…

在互联网应用中，数据爆发式的增长，实际上软件架构的本质就是对数据的维护。对数据的操作可以归纳为三类:读、写和检索。随着网站的流量越来越大，数据量也爆发式的增长，网…

视图是一个基于一个或多个表的数据定义的虚拟表。视图是没有数据的，视图里面的数据都是来自实际的表。视图的作用：简单化看到的就是需要的。视图可以简化用户查询数据时的操作，将经常使用的查询定义成视图，以后不必每次查询都带…

随着数据量的不断上涨，项目需要快速处理数据成为了第一要务，对于数据统计的严格性要求不高。 MongoDb应运而生，MongoDb是典型的文档性的数据库，对于保存多层级的数据比较方便，同时MongoDb更强调用户的访问速度…

一、我们先要了解大数据的工作方向 01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他（数据挖掘本质算是机器学习，不过和数据相关，也可以理解为大数据的一个方向吧）二、大数据工程师的技能要求必须技能10…

zookeeper数据存储及查看hbase信息 1.zookeeper数据存储： 1.1内存数据存储、磁盘数据存储. 内存数据存储：数据模型是一棵树。包括所有节点路径，节点信息，ACL等。 DataTree:所有节点信…

引言分布式计算的基本思路是将数据分为多个部分，将同样的数据操作方式在数据的不同部分上执行，分别获得结果，然后通过“汇聚处理”的方式得到结果。如何将数据分为多个部分（也就是“分片”）便是其中的一个重要组成部分。Spark…

一、推荐模型的分类 1，基于内容的过滤利用物品的内容或是属性信息以及某些相似度定义，来求出与该物品类似的物品。 2，协同过滤利用大量已有用户偏好来估计用户对其未接触过的物品的喜好程度。 3，矩阵分解 a,显式…

SparkStreaming适合场景 Storm 流式计算（扶梯）优点：数据延迟度很低，Storm的事务机制要比SparkStreaming的事务机制要完善（什么是事务机制？对于一条数据，不多处理也不少处理，对于一条…

前言关于时下最热的技术潮流，无疑大数据是首当其中最热的一个技术点，关于大数据的概念和方法论铺天盖地的到处宣扬，但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方案，更有很多数据相关…

大数据核心开发技术 – 内存计算框架Spark精讲Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所…

说在前面：查询优化、索引优化、库表结构优化是查询性能优化的三驾马车。完成一个完整的查询生命周期，查询需要在不同阶段花费时间，如网络、CPU计算、生成统计信息、执行计划、锁互斥等待，底层存储引擎调用，需要在内存操作，C…