RocksDB上锁机制的实例详解-mysql教程-PHP中文网

首页

数据库

mysql教程

RocksDB上锁机制的实例详解

零下一度

Jul 03, 2017 am 09:31 AM

rocksdb 机制

RocksDB作为一个开源的存储引擎支持事务的ACID特性，而要支持ACID中的I(Isolation),并发控制这块是少不了的，本文主要讨论RocksDB的锁机制实现，细节会涉及到源码分析，希望通过本文读者可以深入了解RocksDB并发控制原理。文章主要从以下4方面展开，首先会介绍RocksDB锁的基本结构，然后我会介绍RocksDB行锁数据结构设计下，锁空间开销，接着我会介绍几种典型场景的上锁流程，最后会介绍锁机制中必不可少的死锁检测机制。

1.行锁数据结构
RocksDB锁粒度最小是行，对于KV存储而言，锁对象就是key，每一个key对应一个LockInfo结构。所有key通过hash表管理，查找锁时，直接通过hash表定位即可确定这个key是否已经被上锁。但如果全局只有一个hash表，会导致这个访问这个hash表的冲突很多，影响并发性能。RocksDB首先按Columnfamily进行拆分，每个Columnfamily中的锁通过一个LockMap管理，而每个LockMap再拆分成若干个分片，每个分片通过LockMapStripe管理，而hash表(std::unordered_map)则存在于Stripe结构中，Stripe结构中还包含一个mutex和condition_variable，这个主要作用是，互斥访问hash表，当出现锁冲突时，将线程挂起，解锁后，唤醒挂起的线程。这种设计很简单但也带来一个显而易见的问题，就是多个不相关的锁公用一个condition_variable，导致锁释放时，不必要的唤醒一批线程，而这些线程重试后，发现仍然需要等待，造成了无效的上下文切换。对比我们之前讨论的InnoDB锁机制，我们发现InnoDB是一个page里面的记录复用一把锁，而且复用是有条件的，同一个事务对一个page的若干条记录加锁才能复用；而且锁等待队列是精确等待，精确到记录级别，不会导致的无效的唤醒。虽然RocksDB锁设计比较粗糙，但也做了一定的优化，比如在管理LockMaps时，通过在每个线程本地缓存一份拷贝lock_maps_cache_，通过全局链表将每个线程的cache链起来，当LockMaps变更时(删除columnfamily)，则全局将每个线程的copy清空，由于columnfamily改动很少，所以大部分访问LockMaps操作都是不需要加锁的，提高了并发效率。
相关数据结构如下：

struct LockInfo {
bool exclusive; //排它锁或是共享锁
autovector<TransactionID> txn_ids; //事务列表，对于共享锁而言，同一个key可以对应多个事务

// Transaction locks are not valid after this time in us
uint64_t expiration_time;
}

struct LockMapStripe { 
// Mutex must be held before modifying keys map
std::shared_ptr<TransactionDBMutex> stripe_mutex;

// Condition Variable per stripe for waiting on a lock
std::shared_ptr<TransactionDBCondVar> stripe_cv;

// Locked keys mapped to the info about the transactions that locked them.
std::unordered_map<std::string, LockInfo> keys;
}

struct LockMap {
const size_t num_stripes_; //分片个数
std::atomic<int64_t> lock_cnt{0}; //锁数目
std::vector<LockMapStripe*> lock_map_stripes_; //锁分片
}

class TransactionLockMgr {
using LockMaps = std::unordered_map<uint32_t, std::shared_ptr<LockMap>>;
LockMaps lock_maps_;

// Thread-local cache of entries in lock_maps_. This is an optimization
// to avoid acquiring a mutex in order to look up a LockMap
std::unique_ptr<ThreadLocalPtr> lock_maps_cache_;
}

登录后复制

2.行锁空间代价
由于锁信息是常驻内存，我们简单分析下RocksDB锁占用的内存。每个锁实际上是unordered_map中的一个元素，则锁占用的内存为key_length+8+8+1，假设key为bigint，占8个字节，则100w行记录，需要消耗大约22M内存。但是由于内存与key_length正相关，导致RocksDB的内存消耗不可控。我们可以简单算算RocksDB作为MySQL存储引擎时，key_length的范围。对于单列索引，最大值为2048个字节，具体可以参考max_supported_key_part_length实现；对于复合索引，索引最大长度为3072个字节，具体可以参考max_supported_key_length实现。假设最坏的情况，key_length=3072，则100w行记录，需要消耗3G内存，如果是锁1亿行记录，则需要消耗300G内存，这种情况下内存会有撑爆的风险。因此RocksDB提供参数配置max_row_locks，确保内存可控，默认RDB_MAX_ROW_LOCKS设置为1G，对于大部分key为bigint场景，极端情况下，也需要消耗22G内存。而在这方面，InnoDB则比较友好，hash表的key是(space_id, page_no)，所以无论key有多大，key部分的内存消耗都是恒定的。前面我也提到了InnoDB在一个事务需要锁大量记录场景下是有优化的，多个记录可以公用一把锁，这样也间接可以减少内存。

3.上锁流程分析
前面简单了解了RocksDB锁数据结构的设计以及锁对内存资源的消耗。这节主要介绍几种典型场景下，RocksDB是如何加锁的。与InnoDB一样，RocksDB也支持MVCC，读不上锁，为了方便，下面的讨论基于RocksDB作为MySQL的一个引擎来展开，主要包括三类，基于主键的更新，基于二级索引的更新，基于主键的范围更新等。在展开讨论之前，有一点需要说明的是，RocksDB与InnoDB不同，RocksDB的更新也是基于快照的，而InnoDB的更新基于当前读，这种差异也使得在实际应用中，相同隔离级别下，表现有所不一样。对于RocksDB而言，在RC隔离级别下，每个语句开始都会重新获取一次快照；在RR隔离级别下，整个事务中只在第一个语句开始时获取一次快照，所有语句共用这个快照，直到事务结束。

3.1.基于主键的更新
这里主要接口是TransactionBaseImpl::GetForUpdate
1).尝试对key加锁，如果锁被其它事务持有，则需要等待
2).创建snapshot
3).调用ValidateSnapshot，Get key,通过比较Sequence判断key是否被更新过
4).由于是加锁后，再获取snapshot，所以检查一定成功。
5).执行更新操作
这里有一个延迟获取快照的机制，实际上在语句开始时，需要调用acquire_snapshot获取快照，但为了避免冲突导致的重试，在对key加锁后，再获取snapshot，这就保证了在基于主键更新的场景下，不会存在ValidateSnapshot失败的场景。

堆栈如下：

1-myrocks::ha_rocksdb::get_row_by_rowid
2-myrocks::ha_rocksdb::get_for_update
3-myrocks::Rdb_transaction_impl::get_for_update
4-rocksdb::TransactionBaseImpl::GetForUpdate
{
//加锁
5-rocksdb::TransactionImpl::TryLock
  6-rocksdb::TransactionDBImpl::TryLock
    7-rocksdb::TransactionLockMgr::TryLock 

 //延迟获取快照，与acquire_snapshot配合使用
 6-SetSnapshotIfNeeded()

 //检查key对应快照是否过期
 6-ValidateSnapshot
  7-rocksdb::TransactionUtil::CheckKeyForConflict
    8-rocksdb::TransactionUtil::CheckKey
      9-rocksdb::DBImpl::GetLatestSequenceForKey //第一次读取

//读取key
5-rocksdb::TransactionBaseImpl::Get
  6-rocksdb::WriteBatchWithIndex::GetFromBatchAndDB
    7-rocksdb::DB::Get
      8-rocksdb::DBImpl::Get
        9-rocksdb::DBImpl::GetImpl //第二次读取
}

登录后复制

3.2.基于主键的范围更新
1).创建Snapshot，基于迭代器扫描主键
2).通过get_row_by_rowid，尝试对key加锁
3).调用ValidateSnapshot，Get key,通过比较Sequence判断key是否被更新过
4).如果key被其它事务更新过(key对应的SequenceNumber比Snapshot要新)，触发重试
5).重试情况下，会释放老的快照并释放锁，通过tx->acquire_snapshot(false)，延迟获取快照(加锁后，再拿snapshot)
5).再次调用get_for_update，由于此时key已经被加锁，重试一定可以成功。
6).执行更新操作
7).跳转到1，继续执行，直到主键不符合条件时，则结束。

3.3.基于二级索引的更新
这种场景与3.2类似，只不过多一步从二级索引定位主键过程。
1).创建Snapshot，基于迭代器扫描二级索引
2).根据二级索引反向找到主键，实际上也是调用get_row_by_rowid，这个过程就会尝试对key加锁
3).继续根据二级索引遍历下一个主键，尝试加锁
4).当返回的二级索引不符合条件时，则结束

3.4 与InnoDB加锁的区别
前面我们说到了RocksDB与InnoDB的一点区别是，对于更新场景，RocksDB仍然是快照读，而InnoDB是当前读，导致行为上的差异。比如在RC隔离级别下的范围更新场景，比如一个事务要更新1000条记录，由于是边扫描边加锁，可能在扫描到第999条记录时，发现这个key的Sequence大于扫描的快照(这个key被其它事务更新了)，这个时候会触发重新获取快照，然后基于这个快照拿到最新的key值。InnoDB则没有这个问题，通过当前读，扫描过程中，如果第999条记录被更新了，InnoDB可以直接看到最新的记录。这种情况下，RocksDB和InnoDB看到的结果是一样的。在另外一种情况下，假设也是扫描的范围中，新插入了key，这key的Sequence毫无疑问会比扫描的Snapshot要大，因此在Scan过程中这个key会被过滤掉，也就不存在所谓的冲突检测了，这个key不会被找到。更新过程中，插入了id为1和900的两条记录，最后第900条记录由于不可见，所以更新不到。而对于InnoDB而言，由于是当前读，新插入的id为900的记录可以被看到并更新，所以这里是与InnoDB有区别的地方。
除了更新基于快照这个区别以外，RocksDB在加锁上也更简洁，所有加锁只涉及唯一索引，具体而言，在更新过程中，只对主键加锁；更新列涉及唯一约束时，需要加锁；而普通二级索引，则不用加锁，这个目的是为了避免唯一约束冲突。这里面，如果更新了唯一约束(主键，或者唯一索引)，都需要加锁。而InnoDB则是需要对每个索引加锁，比如基于二级索引定位更新，则二级索引也需要加锁。之所以有这个区别是，是因为InnoDB为了实现RR隔离级别。这里稍微讲下隔离级别，实际上MySQL中定义的RR隔离级别与SQL标准定义的隔离级别有点不一样。SQL标准定义RR隔离级别解决不可重复读的问题，Serializable隔离级别解决幻读问题。不可重复读侧重讲同一条记录值不会修改；而幻读则侧重讲两次读返回的记录条数是固定的，不会增加或减少记录数目。MySQL定义RR隔离级别同时解决了不可重复读和幻读问题，而InnoDB中RR隔离级别的实现就是依赖于GAP锁。而RocksDB不支持GAP锁(仅仅支持唯一约束检查，对不存在的key加锁)，因为基于快照的机制可以有效过滤掉新插入的记录，而InnoDB由于当前读，导致需要通过间隙锁禁止其它插入，所以二级索引也需要加锁，主要是为了锁间隙，否则两次当前读的结果可能不一样。当然，对RC割裂级别，InnoDB普通二级索引也是没有必要加锁的。

4.死锁检测算法
死锁检测采用DFS((Depth First Search,深度优先算法)，基本思路根据加入等待关系，继续查找被等待者的等待关系，如果发现成环，则认为发生了死锁，当然在大并发系统下，锁等待关系非常复杂，为了将死锁检测带来的资源消耗控制在一定范围，可以通过设置deadlock_detect_depth来控制死锁检测搜索的深度，或者在特定业务场景下，认为一定不会发生死锁，则关闭死锁检测，这样在一定程度上有利于系统并发的提升。需要说明的是，如果关闭死锁，最好配套将锁等待超时时间设置较小，避免系统真发生死锁时，事务长时间hang住。死锁检测基本流程如下：
1.定位到具体某个分片，获取mutex
2.调用AcquireLocked尝试加锁
3.若上锁失败，则触发进行死锁检测
4.调用IncrementWaiters增加一个等待者
5.如果等待者不在被等待者map里面，则肯定不会存在死锁，返回
6.对于被等待者，沿着wait_txn_map_向下检查等待关系，看看是否成环
7.若发现成环，则将调用DecrementWaitersImpl将新加入的等待关系解除，并报死锁错误。

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1662

CakePHP 教程

1419

Laravel 教程

1311

PHP教程

1261

C# 教程

1234

显示更多

Related knowledge

深入了解CSS布局重新计算和渲染的机制 Jan 26, 2024 am 09:11 AM

CSS回流（reflow）和重绘（repaint）是网页性能优化中非常重要的概念。在开发网页时，了解这两个概念的工作原理，可以帮助我们提高网页的响应速度和用户体验。本文将深入探讨CSS回流和重绘的机制，并提供具体的代码示例。一、CSS回流（reflow）是什么？当DOM结构中的元素发生可视性、尺寸或位置改变时，浏览器需要重新计算并应用CSS样式，然后重新布局

PHP中的自动加载机制 Jun 18, 2023 pm 01:11 PM

随着PHP语言越来越受欢迎，开发人员需要使用越来越多的类和函数。当项目规模扩大时，手动引入所有依赖项将变得不切实际。这时候就需要一种自动加载机制来简化代码开发和维护过程。自动加载机制是一种PHP语言的特性，可以在运行时自动载入所需的类和接口，并减少手动的类文件引入。这样，程序员可以专注于开发代码，减少因繁琐的手动类引入而产生的错误和时间浪费。在PHP中，一般

了解 RocksDB 缓存技术 Jun 20, 2023 am 09:03 AM

RocksDB是一个高性能的存储引擎，它是FacebookRocksDB的开源版本。RocksDB采用部分排序和滑动窗口压缩等技术，适用于多种场景，例如云存储、索引、日志、缓存等。在实际项目中，RocksDB缓存技术通常被用于协助提升程序性能，下面将详细介绍RocksDB缓存技术及其应用。一、RocksDB缓存技术简介RocksDB缓存技术是一种高性能的缓

Go语言垃圾回收机制详解 Mar 26, 2024 pm 02:42 PM

Go语言（也称为Golang）是谷歌开发的一种高效的编程语言，具有并发性和垃圾回收机制等特点。本文将详细解释Go语言中的垃圾回收机制，包括其原理、实现方式以及代码示例。1.垃圾回收原理Go语言的垃圾回收机制是通过“标记-清除”算法实现的。在程序运行过程中，Go运行时会在堆中跟踪哪些对象是可以被访问的（被标记），而哪些对象是无法被访问的，即垃圾数据（需要清除

深入探讨Golang变量的存储位置和机制 Feb 28, 2024 pm 09:45 PM

标题：深入探讨Golang变量的存储位置和机制随着Go语言（Golang）在云计算、大数据和人工智能领域的应用逐渐增多，深入了解Golang变量的存储位置和机制变得尤为重要。在本文中，我们将详细探讨Golang中变量的内存分配、存储位置以及相关的机制。通过具体代码示例，帮助读者更好地理解Golang变量在内存中是如何存储和管理的。1.Golang变量的内存

探索采用RocksDB的MySQL：更高效的数据储存与检索 Jul 25, 2023 pm 05:19 PM

探索采用RocksDB的MySQL：更高效的数据储存与检索摘要：随着互联网行业的快速发展，数据规模和访问负载也在不断增加。传统的关系型数据库在处理大规模数据存储和高并发读写时，往往面临性能瓶颈。为了解决这一问题，一种新的存储引擎RocksDB应运而生。本文将探索采用RocksDB的MySQL，以展示其在数据储存与检索方面的优势，并通过代码示例进行验证。Roc

PHP中的隐式转换机制解析 Mar 09, 2024 am 08:00 AM

PHP中的隐式转换机制解析在PHP编程中，隐式转换是指在不显式指定类型转换的情况下，PHP自动将一个数据类型转换为另一个数据类型的过程。隐式转换机制在编程中非常常见，但也容易造成一些意想不到的bug，因此了解隐式转换机制的原理和规则对于编写稳健的PHP代码非常重要。1.整型与浮点型之间的隐式转换在PHP中，整型和浮点型之间的隐式转换是非常常见的。当一个整型

重要的JS缓存机制概念：了解普及五个知识点 Jan 23, 2024 am 09:52 AM

知识普及：了解JS缓存机制的五个重要概念，需要具体代码示例在前端开发中，JavaScript（JS）缓存机制是一个非常关键的概念。理解和正确运用缓存机制可以极大地提升网页的加载速度和性能。本文将介绍JS缓存机制的五个重要概念，并提供相应的代码示例。一、浏览器缓存浏览器缓存是指在第一次访问网页时，浏览器会将网页的相关资源（例如JS文件、CSS文件、图片等）保存

See all articles

RocksDB上锁机制的实例详解

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题