Redis作为高性能的Nosql数据库越来越受欢迎,并在使用很多应用场景。常见的一种用法就是缓存一些用户数据。通常我们也会因为有特殊要求,手动插入一些缓存数据。 数据量小的时候,可以直接插入。由于redis是单线程的模式…
标签:数据量
使用spark过程中遇到的技术问题及自身问题
最近的一个项目中使用了spark技术过程遇到的一些问题,下面就以问题来分析原因及解决过程。 问题 1、创建sparkView没有加限制条件,导致创建几十上百万大数据量的view时,多库的情况下在driver创建了 大量的…
3.2 Spark Streaming 性能调优(二): 解决task倾斜
目录 1.系统架构 2.环境搭建 2.1本地环境下kafka批量导入数据 2.2 kafka-manager的安装与配置 3.1 Spark Streaming 性能调优(一): 解决并行度 3.2 Spark Stre…
大数据量高并发的数据库优化!
一、数据库结构的设计 如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能。所以,在一个系统开始实施之前,完备的数据库模型的设计是必须的。 在一个系统分析、设…
MySQL分库分表原理
前言 在互联网还未崛起的时代,我们的传统应用都有这样一个特点:访问量、数据量都比较小,单库单表都完全可以支撑整个业务。随着互联网的发展和用户规模的迅速扩大,对系统的要求也越来越高。因此传统的MySQL单库单表架构的性能问…
图数据库——大数据时代的高铁
如果把传统关系型数据库比做火车的话,那么到现在大数据时代,图数据库可比做高铁。它已成为NoSQL中关注度最高,发展趋势最明显的数据库。 简介 在众多不同的数据模型里,关系数据模型自20世纪80年代就处于统治地位,而且出现…
数据库为什么要分库分表系列讲解(1)
1.什么是分库分表? 从字面上简单理解,就是把原本存储于一个库的数据分块存储到多个库上,把原本存储于一个表的数据分块存储到多个表上。 2.基本思想之为什么要分库分表? 数据库中的数据量不一定是可控的,在未进行分库分表的情…
cassandra百亿级数据库迁移实践
迁移背景 cassandra集群隔段时间出现rt飙高的问题,带来的影响就是请求cassandra短时间内出现大量超时,这个问题发生已经达到了平均两周一次的频率,已经影响到正常业务了。而出现这些问题的原因主要有以下3点: …
hive数据倾斜及处理
火山日常啰嗦 学习了一些大数据的相关框架后,发现应用层的东西确实不难,真正难的都是底层原理,所以我查看了很多资料,借鉴了前人的方法再加上自己的理解,写下了这篇文章。 数据倾斜的直白概念: 数据倾斜就是数据的分布不平衡,某…
Hive性能优化
Hive性能优化 1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍 首先,我们…