标签：数据量

Redis 批量插入大量数据

Redis作为高性能的Nosql数据库越来越受欢迎，并在使用很多应用场景。常见的一种用法就是缓存一些用户数据。通常我们也会因为有特殊要求，手动插入一些缓存数据。数据量小的时候，可以直接插入。由于redis是单线程的模式…

最近的一个项目中使用了spark技术过程遇到的一些问题，下面就以问题来分析原因及解决过程。问题 1、创建sparkView没有加限制条件，导致创建几十上百万大数据量的view时，多库的情况下在driver创建了大量的…

目录 1.系统架构 2.环境搭建 2.1本地环境下kafka批量导入数据 2.2 kafka-manager的安装与配置 3.1 Spark Streaming 性能调优(一): 解决并行度 3.2 Spark Stre…

一、数据库结构的设计如果不能设计一个合理的数据库模型，不仅会增加客户端和服务器段程序的编程和维护的难度，而且将会影响系统实际运行的性能。所以，在一个系统开始实施之前，完备的数据库模型的设计是必须的。在一个系统分析、设…

前言在互联网还未崛起的时代,我们的传统应用都有这样一个特点：访问量、数据量都比较小，单库单表都完全可以支撑整个业务。随着互联网的发展和用户规模的迅速扩大,对系统的要求也越来越高。因此传统的MySQL单库单表架构的性能问…

如果把传统关系型数据库比做火车的话，那么到现在大数据时代，图数据库可比做高铁。它已成为NoSQL中关注度最高，发展趋势最明显的数据库。简介在众多不同的数据模型里，关系数据模型自20世纪80年代就处于统治地位，而且出现…

1.什么是分库分表？从字面上简单理解，就是把原本存储于一个库的数据分块存储到多个库上，把原本存储于一个表的数据分块存储到多个表上。 2.基本思想之为什么要分库分表？数据库中的数据量不一定是可控的，在未进行分库分表的情…

迁移背景 cassandra集群隔段时间出现rt飙高的问题，带来的影响就是请求cassandra短时间内出现大量超时，这个问题发生已经达到了平均两周一次的频率，已经影响到正常业务了。而出现这些问题的原因主要有以下3点： …

火山日常啰嗦学习了一些大数据的相关框架后，发现应用层的东西确实不难，真正难的都是底层原理，所以我查看了很多资料，借鉴了前人的方法再加上自己的理解，写下了这篇文章。数据倾斜的直白概念：数据倾斜就是数据的分布不平衡，某…

Hive性能优化 1.概述　　继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍　　首先，我们…