毫无疑问,数据库和大数据必然会大一统,这两个领域又要迎来一次腥风血雨了!该开源的开源,该收购的收购。然后又波及到中间件领域…… 后端一定会走向大一统时代!
早在N年前我就在微博吐槽过hadoop里头那一堆组件没有提供事务功能,经常碰到跑job没跑成功然后弄了一堆脏数据,又得人肉去一个个清理。过去大数据领域除了规模大之外,其他做得都是比较糙的,就像是数据库还处在管理文件系统的原始阶段,数据没有经过良好的组织也没有事务功能。所以当业务需要更好的数据质量管理时必然又会走上数据库的老路。
数据库和大数据统一,这个趋势不可阻挡,做spark的公司Databricks把自己的商业产品Delta Lake都开源了。这一招明显就是给flink难堪的,flink的事务支持还很初级。不过我倒是不担心,毕竟Delta Lake跟OLTP数据库中支持事务的存储引擎还是有不少差别的,这样的spark还无法当一个OLTP数据库用。做一个分布式OLTP关系数据库可比spark难多了。
Hive也支持事务了,SnappyData也支持OLTP、OLAP和Spark杂交了。
这其实又是两种发展路线:
1.做大数据的把数据库的功能慢慢补上;
2.做数据库的慢慢集成大数据的一些组件。
天底下没有啥新鲜事,就如NewSQL一样,NoSQL阵营慢慢把SQL和事务加上变成NewSQL,而老牌RDBMS一心加上sharding和分布式事务变成NewSQL,结果呢,两边都没赢,反而是从头做NewSQL的厂商赢了(Spanner、TiDB、OceanBase等)。
我对技术趋势的判断能力以及技术创新能力还是很强的,只是不擅于使用资本的力量(就是不屑,太高傲)。
早在10年前还流行造web框架时,我就已经造出使用编译器技术的新型web框架原型了,可惜后来去阿里工作后没有机会继续做下去,让同时期的Play框架独挑大梁了。
在阿里工作期间做过TDDL这样的MySQL分库分表中间件,又做过HBase这样的NoSQL,当2012年从阿里辞职前,当Googel的Spanner论文没出来时,我就知道TDDL和NoSQL这两类产品只是过渡的,一定需要新的NewSQL产品。
我宅在家花了三年半去研究去做一个NewSQL产品,直到2016年才决定创业。TiDB两位创始人当初还在关注我的微博,2012年前后我还经常喷OceanBase做得垃圾,连分布式数据库都算不上。
可惜啊,2016-2018这三年是NewSQL发展的最好阶段,我因为身体原因没法好好投入工作,再加上又没有找到合适的帮手,产品迟迟出不来,眼睁睁的看着TiDB和OceanBase发展壮大。
2019年还有最后一次机会,谁能做一个产品把分布式数据库和大数据领域都统一了谁就是下一个oracle,目前还没有王者。
我也要抓住最后一次机会,就算当不了王者当个搅局者能赚点钱也好。加油吧,最后一次机会了!
技术变化之快,身处这个时代即是幸福的,也是不辛的。辛: 有机会向上爬;不辛: 不学习,随时都会被淘汰。