随着数据量的激增,单机数据库存不下了,怎么办?这几乎是所有互联网公司都会遇到的问题。在过去,一直没有一个优雅的解决方案从根本上解决传统关系型数据库扩展性问题,而通常的做法是业务层要把代码改个遍,如果业务上已经用了 MySQL ,没有办法,只能去拆库拆表,动中间件,而这个过程对 DBA 是痛苦的,就算不死也要脱层皮。
最近,一款国人主导开发的开源数据库项目在国内外混的风生水起,不仅在 GitHub 上被推到了 Go Trending 的头条,并且累积 Star 数已近 10000。而在国内,它在被技术爱好者模仿 DB-Engine 制作出的国产数据库排行榜中,位居第二,它就是开源分布式关系型数据库TiDB 。
▲ PingCAP 联合创始人兼 CTO 黄东旭
本期访谈嘉宾: PingCAP 联合创始人兼 CTO 黄东旭。热爱画画,美剧,摇滚乐,但更爱写代码的狂热开源爱好者,知名开源软件作者,代表作品分布式 Redis 缓存方案 Codis ,以及分布式关系型数据库 TiDB 。
与黄东旭的会面一波三折,因为各自时间原因及突发事件,最终采访约定在了 PingCAP驻地,东升科技园晚上 19 点。其实,因为 DTCC 大会的关系,虽然很早,我就与作为大会嘉宾的他互添了微信,但与他真正见面,这却是头一次。
夜幕下的园区少了些许喧嚣,清静了许多。刚走进入 PingCAP 公司的大门,我一眼就看到了横躺在地下摆弄手中平板电脑的他,身为 CTO 的他,似乎并不太在自己的形象,反而和员工打成一片。长发、T恤、牛仔裤,与微信中的照片一模一样,似乎任何时候,他都是这副打扮,识别率非常高。
PingCAP 公司并不大,工位也不多,虽然已经是晚上 7 点早该下班了,但还有些工位上依然还有人在办公,脸上还洋溢着笑容,丝毫看不出加班的郁闷与不爽,有的小声交谈,有的敲击键盘,有的在拨打电话订餐,似乎在家中办公那样轻松自在,一股非常纯粹浓郁的工程师文化向我扑面而来。
黄东旭告诉我,公司目前大概有 50 多人,其中八成是工程师,并有三分之一的同事是分散在祖国各地,公司在北京、上海、广州均有办公室。作为崇尚开源精神的公司,上班不需要打卡,并允许员工在家办公,远程办公,氛围自由而开放。两个小时的采访过程中,爱写程序技术出身的他,在谈到数据库技术时,眼中充满了狂热的光芒。
TiDB 诞生源自 MySQL 扩展的切肤之痛
事实上,无论是在前东家微软、网易,还是豌豆荚,黄东旭一直都在从事与基础软件领域相关的工作,如分布式存储和分布式系统,在这个过程中他敏锐的观察到,传统关系型数据库扩展性痛点,而这源自经常拆库拆表的他,有着切肤之痛。
随着数据量的激增,单机数据库存不下了,怎么办?这几乎是所有互联网公司都会遇到的问题。但在过去,一直没有一个优雅的解决方案从根本上解决传统关系型数据库扩展性问题,通常的做法是业务层要把代码改个遍,如果业务上已经用了 MySQL ,没有办法,只能去拆库拆表,动中间件,而这个过程对 DBA 是痛苦的,就算不死也要脱层皮。既然没有优雅的解决方案,那为什么我们不做一个?黄东旭反问自己。创业的动机由此而生,
并与另外两个创始人刘奇、崔秋一拍即合,
PingCAP 的 TiDB 在此基础上诞生了。
TiDB 最初的灵感来自于 Google Spanner/F1 论文, 有了理论基础,想法很快就落地成产品,并取名 TiDB ,Ti 是元素周期表中的一种元素,高端金属材料,既轻又结实。在黄东旭看来,Ti能充分体现数据库很多特点,而且还很轻,不像 Hadoop 那样重。
TiDB 与 MySQL 完全兼容,MySQL 应用无需修改便可直接运行。支持包括传统 RDBMS 和 NoSQL 的特性,可以随着数据增长而无缝水平扩展,只需要通过增加更多的机器来满足业务增长需求,应用层可以不用关心存储的容量和吞吐。用他的话说就是“会自生长”。
TiDB火爆开源社区,定位决定高度!
技术出身的黄东旭,同时也具备产业判断的视野和格局。中国不缺好的工程师,中国人一样可以做出世界一流的产品。而其中的关键,在于切入方向的选择,而不是工程师的问题。他认为,眼光,一定要放眼全球。而最触动我的一句话:“定位,决定了你能达到的高度,当在这个领域已经有了很多非常强壮的竞争对手,而且成为了一个事实标准,你是很难搬搬倒对方的,先入为主,先得天下为王。”
大数据时代到来,随着数据量爆发式的增长,数据库这层的基础设施却并没有跟上,这给了 PingCAP 一个很好的机会。分布式数据库技术由于其优良的线性横向扩展能力和良好的故障隔离性,近几年也受到了普遍关注。市场上不仅出现了很多新兴的分布式数据库引擎,老牌的数据库也在分布式技术上投入重兵,加紧部署。但这些分布式解决方案都是商业的,并且这一领域还没有形成一个事实的标准,除了积累外,这是 PingCAP 切入这一领域的主要理由,更为关键的是,优雅的开源分布式关系型数据库解决方案目前一个都没有,这在黄东旭看来就是填补空白的机会。
而他与他的团队坚信,TiDB 具备成为一个事实标准的潜质,其次是这个方向的用户足够多。他直言不讳道, MySQL 的用户理论上都会是其客户,这个天花板足够高,市场足够大。
开源才是基础软件出路
选择开源这条路,并不是赶时髦也不是一时冲动,黄东旭有着自己的理解和洞察,在谈到为何 TiDB 会选择开源这种方式时,他说。基础软件领域闭源并不是最好的选择,如果是闭源的,需要铺很大的销售团队,去让客户了解你。开源能让客户更容易了解你,更多地 touch 到你的用户,并在生产环境中去磨练你的产品。他特别强调,开源并不是等于免费,开源只是让用户能快速的了解我们的产品。
TiDB 能成为 GitHub 上的明星项目,似乎在黄东旭意料之中,较为淡然,之所以能在国内国外取得好的反响,他认为,不仅是 TiDB 本身理论比较新,解决了企业及广大传统关系型数据库扩展的痛点,更为关键的是, PingCAP 是在认真的做这件事情。
在谈到应用案例时,黄东旭说,目前,已经有上市游戏公司在大规模的采用 TiDB 来作为其游戏端存储和大数据分析的平台,在金融行业,如征信方面,也有客户大数据平台跑在TiDB 上。但他并没有透露具体客户名称。
独家揭秘,TiDB 今年 2 大重要更新!
在谈到 TiDB 今年计划和重大更新时,黄东旭透露,大的功能特性主要有 2 个:
一、 TiDB 将会深度对接 Spark SQL , Spark SQL 可以说是目前互联网数据实时分析标准方案,深度对接后,用户就可以用 Spark SQL 在 TiDB 上做数据的查询,这并不是把数据简单的倒腾到 Spark 里面,而是在存储引擎上,让 Spark SQL 把它的执行计划推下来,然后做分布式计算,这的好处在于,一份存储,多个可插拔查询引擎( TiDB / Spark SQL ),既可以用 TiDB 这边 MySQL 协议查询,同时可以用Spark作分析,增强了 TiDB 在 OLAP 上分析场景上的能力。
二、添加文档型数据的使用接口支持, MySQL 在 5.7.12的 xplugin 里面的 document store ,类似 MongoDB 访问 MySQL ,不需要建表,类似 Schema 特性, TiDB 也将添加了类似的支持。