前言
《最小可行性区块链设计系列》的第六讲(http://www.jianshu.com/p/a5d0cde54990 ) 讨论了网络通讯的实现,本文继续讨论一个重要的数据结构:PatriciaTrie。
本文的代码地址:(https://github.com/qikh/mini-block-chain/commit/442dbec3794c6e1a2da35fb9895f502e7acb9d8e) (开发语言为Kotlin,更简洁的Java)
正文
PatriciaTrie是以太坊的一个重要的数据结构,也被成为Merkle Patricia Tree,被以太坊用来存储账户的状态(Account State)。
以太坊和比特币相比一个显著的区别就是实现了用户账户体系,而比特币的账户余额是通过检索账户相关的交易记录(Transaction),然后把未消费余额统计后得到的余额。从程序设计的角度来看,比特币是无状态(Stateless)设计,而以太坊是有状态(Statefull)设计。以太坊的账户体系更容易理解和使用,但是实现者需要解决一个技术问题:区块链分叉。
当比特币网络分叉发生时,账户余额的计算只需要根据新的交易记录重新计算一遍。但是以太坊的账户状态是随着交易记录而变化的,如果出现网络分叉(没有分叉胜出)就意味着同一个账户出现了两个甚至多个临时状态,最长的分叉胜出后账户状态才恢复为一个。一种直观的实现方式可以给每个分叉分配一个临时id,每个分叉上都保留账户的一个副本。但是这样会带来大量的临时数据I/O,影响到系统的运行性能。PatriciaTrie正是为了解决网络分叉时的账户状态问题而设计的。
Trie是一种字典树数据结构,其Key通常是字符串,可以实现有序快速查找,核心思想是以空间换区时间。中文资料可以看Merkle Patricia Tree (MPT) 树详解(http://ethfans.org/posts/Merkle-Patricia-Tree ),英文资料可以看Understanding the ethereum trie(https://easythereentropy.wordpress.com/2014/06/04/understanding-the-ethereum-trie/ )和Climbing Ethereum Trie(http://ethereumj.io/blog/2015/07/05/Ethereum-Trie/ )
以太坊的PatriciaTrie是Radix trie的一种实现,优化了Trie的空间效率,并且把Trie节点的Hash值和节点数据存入到Key-Value数据库(leveldb)中,通过根节点Hash的切换可以实现状态树的切换(对应区块链的分叉功能),Vitalik Buterin在https://blog.ethereum.org/2015/11/15/merkling-in-ethereum/ 一文中对PatriciaTrie的设计思路进行了说明。最终的PatriciaTrie实现不但具备快速检索功能,还具备了不同版本的状态转换功能,通俗理解可以类比Git的版本实现或MacOS的Timemachine功能。
MiniBlockChain在实现PatriciaTrie时参考了
Understanding the ethereum trie一文的Python代码(https://github.com/ebuchman/understanding_ethereum_trie )和EthereumJ的代码。Python的代码相比较EthereumJ的代码结构更加清晰合理,尤其是递归实现部分。Python的实现有三种节点类型:Leaf、Branch和Extension,节点插入、删除和整理的逻辑比较复杂。EthereumJ只有Leaf和Branch节点,实现逻辑简单很多,但是代码结构比较混乱。
大家可以对照着上文提到的中英文资料和代码实现来理解PatriciaTrie的实现。
下文我们会继续探讨适合区块链的智能合约语言设计。
注:
区块链的企业端应用场景(联盟链和私链)通常不需要电子货币功能,也不需要代币的激励功能,因此区块链层面的账户体系可有可无。无状态(Stateless)设计一方面可以降低空间占用,另一方面也降低了实现难度,更加适合面向企业端的区块链产品。