概述
ConcurrentHashMap常用于并发编程,这里就从源码上来分析一下ConcurrentHashMap数据结构和底层原理。
在开始之前先介绍一个算法, 这个算法和Concurrent的实现是分不开的。
CAS算法:
- CAS是英文单词Compare And Swap的缩写,翻译过来就是比较并替换。
- CAS机制当中使用了3个基本操作数:内存地址V,旧的预期值A,要修改的新值B。
- 更新一个变量的时候,只有当变量的预期值A和内存地址V当中的实际值相同时,才会将内存地址V对应的值修改为B
从思想上来说,Synchronized属于悲观锁,悲观地认为程序中的并发情况严重,所以严防死守。CAS属于乐观锁,乐观地认为程序中的并发情况不那么严重,所以让线程不断去尝试更新。
ConcurrentHashMap是一个线程安全的Map集合,可以应对高并发的场景,保证线程安全。相比较HashTable,它的锁粒度更加的细化,因为HashTable的方法都是用Synchronized修饰的,效率灰常的底下。
1.8之前ConcurrentHashMap使用锁分段技术,将数据分成一段段的存储,每一个数据段配置一把锁,相互之间不影响,而1.8之后摒弃了Segment(锁段)的概念,启用了全新的实现,也就是利用CAS+Synchronized来保证并发更新的安全,底层采用的依然是数组+链表+红黑树。
本篇文章是基于JDK1.8 。
数据结构
继承关系
1 | public class ConcurrentHashMap<K,V> |
ConcurrentHashMap 继承了AbstractMap ,并且实现了ConcurrentMap接口。
与HashMap比对:
- 相同点:都集成了AbstractMap接口
- 不同点:HashMap实现了Map接口,ConcurrentHashMap实现了ConcurrentMap接口,而ConcurrentMap继承了Map接口,使用default关键字定义了一些方法 。
从继承关系上看ConcurrentHashMap与HashMap并没有太大的区别。
基本属性
1 | private static final int MAXIMUM_CAPACITY = 1 << 30; //最大容量2的30次方 |
重点说一下 sizeCtrl 属性,这个属性在 ConcurrentHashMap 中扮演者重要的角色。
1 | //表初始化或者扩容的一个控制标识位 |
构造方法
1 | //无参构造方法,没有进行任何操作 |
ConcurrentHashMap的构造方法并没做太多的工作,主要是进行了参数的合法性校验,和初始值大小的转换。这个方法 tableSizeFor()说明一下, 主要的功能就是将指定的初始化参数转换为2的幂次方形式, 如果初始化参数为9 ,转换后初始大小为16 。
内部数据结构
Node
首当其冲,因为它是ConcurrentHashMap的核心,它包装了key-value的键值对,所有插入的数据都包装在这里面,与HashMap很相似,但是有一些差别:
1 | static class Node<K,V> implements Map.Entry<K,V> { |
value 和 next使用了volatile修饰,保证了线程之间的可见性。也不允许调用setValue()方法直接改变Node的值。并增加了find()方法辅助map.get()方法。
TreeNode
树节点类,另外一个核心的数据结构。当链表长度过长的时候,会转换为TreeNode。但是与HashMap不相同的是,它并不是直接转换为红黑树,而是把这些结点包装成TreeNode放在TreeBin对象中,由TreeBin完成对红黑树的包装。而且TreeNode在ConcurrentHashMap集成自Node类,而并非HashMap中的集成自LinkedHashMap.Entry类,也就是说TreeNode带有next指针,这样做的目的是方便基于TreeBin的访问。
TreeBin
这个类并不负责包装用户的key、value信息,而是包装的很多TreeNode节点。它代替了TreeNode的根节点,也就是说在实际的ConcurrentHashMap“数组”中,存放的是TreeBin对象,而不是TreeNode对象,这是与HashMap的区别。另外这个类还带有了读写锁。
ForwardingNode
一个用于连接两个table的节点类。它包含一个nextTable指针,用于指向下一张表。而且这个节点的key value next指针全部为null,它的hash值为-1. 这里面定义的find的方法是从nextTable里进行查询节点,而不是以自身为头节点进行查找
ConcurrentHashMap常用方法
initTable 初始化方法
初始化方法是很重要的一个方法,因为在ConcurrentHashMap的构造方法中只是简单的进行了一些参数校验和参数转换的操作。整个Map的初始化是在插入元素的时候触发的。这一点在下面的put方法中会进行说明。
1 | //执行初始化操作,单线程操作 |
扩容方法
当ConcurrentHashMap 容量不足的时候,需要对table进行扩容,这个方法是支持多个线程并发扩容的,我们所说的扩容,从本质上来说,无非是从一个数组到另外一个数组的拷贝。
扩容方法分为两个部分:
- 创建扩容后的新数组,容量变为原来的两倍 ,新数组的创建时单线程完成
- 将原来的数组元素复制到新的数组中,这个是多线程操作。
1 | //帮助扩容 |
put方法
put操作是最长用的方法,接下来看一下put()方法的具体实现:
- put()要求键值都不能为空
- 需要经过两次散列, 是数据均匀分散,减少碰撞的次数
- 判断tab是否进行了初始化,没有则调用initTable进行初始化操作(单线程)
- 数组i的位置没有元素存在,直接放入
- 如果i的位置在进行MOVE操作,也就是在进行扩容操作,则多线程帮助扩容
- 如果i的位置有元素存在,则在该节点加锁Synchronized,判断是链表还是红黑树,按照相应的插入规则插入
1 | final V putVal(K key, V value, boolean onlyIfAbsent) { |
Get方法
Get方法也是最长用的方法,元素放入了,总要取出来
- 根据传入的key,获取相应的hash值
- 然后判断当前的table数组是否为空
- 计算指定的key在table中存储的位置
- 链表或者红黑树转换相依的方法处理
- 不存在则返回null
1 | public V get(Object key) { |
总结
JDK6,7中的ConcurrentHashmap主要使用Segment来实现减小锁粒度,把HashMap分割成若干个Segment,在put的时候需要锁住Segment,get时候不加锁,使用volatile来保证可见性,当要统计全局时(比如size),首先会尝试多次计算modcount来确定,这几次尝试中,是否有其他线程进行了修改操作,如果没有,则直接返回size。如果有,则需要依次锁住所有的Segment来计算。
jdk7中ConcurrentHashmap中,当长度过长,碰撞会很频繁,链表的增改删查操作都会消耗很长的时间,影响性能,所以jdk8 中完全重写了concurrentHashmap,代码量从原来的1000多行变成了 6000多 行,实现上也和原来的分段式存储有很大的区别。
主要设计上的变化有以下几点:
- 不采用segment而采用node,锁住node来实现减小锁粒度。
- 设计了MOVED状态 当resize的中过程中 线程2还在put数据,线程2会帮助resize。
- 使用3个CAS操作来确保node的一些操作的原子性,这种方式代替了锁。
- sizeCtl的不同值来代表不同含义,起到了控制的作用。
参考: