区块链 默克尔树(Merkle Tree)

Merkle Tree,又称作 Hash Tree,用来存储 hash 值的一棵树。Merkle 树的叶子是数据块的 hash 值。非叶节点是其对应子节点串联字符串的 hash。

1. Hash

Hash 是一个把任意长度的数据映射成较短的固定长度数据(比如:256bit)的函数。例如,对于数据完整性校验,最简单的方法是对整个数据做 Hash 运算得到固定长度的 Hash 值,然后把得到的 Hash 值公布在网上,这样用户下载到数据之后,对数据再次进行 Hash 运算,比较运算结果和网上公布的 Hash 值进行比较,如果两个 Hash 值相等,说明下载的数据没有损坏。可以这样做是因为输入数据的稍微改变就会引起 Hash 运算结果的面目全非,而且根据 Hash 值反推原始输入数据的特征是困难的。

如果从一个稳定的服务器进行下载,采用单一Hash是可取的。但如果数据源不稳定,一旦数据损坏,就需要重新下载,这种下载的效率是很低的。

2. Hash List

在点对点网络中作数据传输的时候,会同时从多个机器上下载数据,而且很多机器可以认为是不稳定或者不可信的。为了校验数据的完整性,更好的办法是把大的文件分割成小的数据块(例如,把分割成2K为单位的数据块)。这样的好处是,如果小块数据在传输过程中损坏了,那么只要重新下载这一快数据就行了,不用重新下载整个文件。

怎么确定小的数据块没有损坏哪?只需要为每个数据块做Hash。BT下载的时候,在下载到真正数据之前,我们会先下载一个Hash列表。那么问题又来了,怎么确定这个Hash列表本事是正确的哪?答案是把每个小块数据的Hash值拼到一起,然后对这个长字符串在作一次Hash运算,这样就得到Hash列表的根Hash(Top Hash or Root Hash)。下载数据的时候,首先从可信的数据源得到正确的根Hash,就可以用它来校验Hash列表了,然后通过校验后的Hash列表校验数据块。

3. Merkle Tree

Merkle Tree可以看做Hash List的泛化(Hash List可以看作一种特殊的Merkle Tree,即树高为2的多叉Merkle Tree)。

在最底层,和哈希列表一样,我们把数据分成小的数据块,有相应地哈希和它对应。但是往上走,并不是直接去运算根哈希,而是把相邻的两个哈希合并成一个字符串,然后运算这个字符串的哈希,这样每两个哈希就结婚生子,得到了一个”子哈希“。如果最底层的哈希总数是单数,那到最后必然出现一个单身哈希,这种情况就直接对它进行哈希运算,所以也能得到它的子哈希。于是往上推,依然是一样的方式,可以得到数目更少的新一级哈希,最终必然形成一棵倒挂的树,到了树根的这个位置,这一代就剩下一个根哈希了,我们把它叫做 Merkle Root。

在p2p网络下载网络之前,先从可信的源获得文件的Merkle Tree树根。一旦获得了树根,就可以从其他从不可信的源获取Merkle tree。通过可信的树根来检查接受到的Merkle Tree。如果Merkle Tree是损坏的或者虚假的,就从其他源获得另一个Merkle Tree,直到获得一个与可信树根匹配的Merkle Tree。

Merkle Tree和Hash List的主要区别是,可以直接下载并立即验证Merkle Tree的一个分支。因为可以将文件切分成小的数据块,这样如果有一块数据损坏,仅仅重新下载这个数据块就行了。如果文件非常大,那么Merkle tree和Hash list都很到,但是Merkle tree可以一次下载一个分支,然后立即验证这个分支,如果分支验证通过,就可以下载数据了。而Hash list只有下载整个hash list才能验证。

4. Merkle Tree的特点

  • Merkle Tree 是一种树,大多数是二叉树,也可以多叉树,无论是几叉树,它都具有树结构的所有特点。
  • Merkle Tree 的叶子节点的 value 是数据集合的单元数据或者单元数据 hash。
  • 非叶子节点的 value 是根据它下面所有的叶子节点值,然后按照 hash 算法计算而得出的。

Second Preimage Attack: Merkle tree 的树根并不表示树的深度,这可能会导致 second-preimage attack,即攻击者创建一个具有相同 Merkle 树根的虚假文档。一个简单的解决方法在 Certificate Transparency 中定义:当计算叶节点的 hash 时,在hash数据前加 0x00。当计算内部节点是,在前面加 0x01。另外一些实现限制 hash tree 的根,通过在 hash 值前面加深度前缀。因此,前缀每一步会减少,只有当到达叶子时前缀依然为正,提取的 hash 链才被定义为有效。

5. 区块链 Merkle Tree

区块链作为分布式账本,原则上网络中的每个节点都应包含整个区块链中全部区块,随着区块链越来越长,节点的硬盘有可能放不下。区块链中引入了默克尔树解决这个问题。

区块链中,为节省空间,只保存交易的哈希值,不保存交易本身的信息,哈希值对于校验来说足够了。

默克尔树很简单,具体来说,一个区块中的所有交易都会求取哈希值,得到的哈希值,再两两组合成新文本求取哈希值,以此类推,直到生成最后一个哈希值,即根哈希值,这些哈希值组成的二叉树就是默克尔树。如下图所示:

图

区块头现在包含:

  • 前一区块的哈希值
  • 一个Nonce
  • 默克尔树的根哈希值

由于这个根哈希值包含了区块中所有交易的哈希值,因此可以去除这些交易以节省存储空间。

现在你的区块链看起来就像下图:

图

可以看到区块链中,只保存了区块头,这可以大大节省存储空间。这一策略被普通节点使用,普通节点只用于收付款,例如虚拟币钱包。但对于矿工节点,就需要保存区块的完整内容。

作为收款方,会想确认一笔交易有没有被写入区块链。由于本地节点(钱包)的区块链,只包含了区块链头,没有交易信息,这笔交易在本地是找不到的。但是,区块链是一个网络,你可以向包含全部区块信息的节点(例如矿工节点)发请求(GetD ...