Hive压缩之二 小文件合并 调研背景 当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM…
分类:数据库
理解 CAP 理论 - 分布式数据库相关理论 Part1
CAP 是分布式数据库中的重要理论之一。为了更好的理解分布式数据库,我们需要对 CAP 理论有个简单的理解。 1.CAP 概述 CAP 证明了,对于一个分布式数据库系统,存在这样三个指标: C_onsistent_(一致…
orm2 中文文档 4.2 hasMany(多对多关系)
译者:飞龙 来源:hasMany hasMany 是多对多的关系(包括连接表)。 例如:Patient.hasMany('doctors', Doctor, { why: String }, { reverse: 'pa…
苹果宣布开源 FoundationDB 数据库
原文地址:http://www.thebigdata.cn/YeJi… 美国 Apple 公司今天在 GitHub 代码网站上发布了全新的开源项目 – FoundationDB 云数据库。Apple 在 …
mysql 允许在唯一索引的字段中出现多个null值
线上问题:org.springframework.dao.DuplicateKeyException: PreparedStatementCallback; SQL [update fl_table set id = ?…
Sqlserver 英文月份格式时间字符串转换为数字型日期
--需要装换的日期格式如下 Updatetime Nov 1 2018 11:37AM --SQL语句 SET Language US_ENGLISH SELECT (CONVERT(DATETIME, Updateti…
用 PostgreSQL 的 COPY 导入导出 CSV
TL;DR 无意中看到了一篇讲 数据批量导入 的文章,才注意到 PostgreSQL 的 COPY 命令。简而言之,它用来在文件和数据库之间复制数据,效率非常高,并且支持 CSV 。 导出 CSV 以前做类似的事情都是用…
消息队列表设计原则
如果消息队列必须用数据库表来实现,那么就要注意: 表当中一定要有流水号字段,类型最好是数字,排序方便; 插入记录时,流水号必须是唯一且递增的。 取记录的方式是定时轮询。不要一次把所有记录取出来,而是按流水号排序,取前若干…
想知道谁是你的最佳用户?基于Redis实现排行榜周期榜与最近N期榜
本文由云+社区发表 前言 业务已基于Redis实现了一个高可用的排行榜服务,长期以来相安无事。有一天,产品说:我要一个按周排名的排行榜,以反映本周内用户的活跃情况。于是周榜(按周重置更新的榜单)诞生了。为了满足产品多变的…
数据库入门之RDS选择原则
数据库入门之RDS选择原则 下面给大家介绍一下,当您去购买一个RDS的数据库实例的时候,需要选择CPU是多少?核的内存有多大?还有选择哪种存储类型?我们在选择这些属性的时候,有哪些要注意的?接下来分为三部分给大家介绍在华…
SQL 一个表中可不可以没有主键
主键的作用: 1)保证实体的完整性; 2)加快数据库的操作速度 3)在表中添加新记录时,数据库会自动检查新记录的主键值,不允许该值与其他记录的主键值重复。 4) 数据库自动按主键值的顺序显示表中的记录。如果没有定义主键,…
mariadb 内存占用优化
本文由云+社区发表 作者:工程师小熊 摘要:我们在使用mariadb的时候发现有时候不能启动起来,在使用过程中mariadb占用的内存很大,在这里学习下mariadb与内存相关的配置项,对mariadb进行调优。 查询最…