1. Niveau d'isolement
(1) Lecture non engagée (RU)
Sous ce niveau d'isolement, les transactions ne sont pas isolées du tout, des lectures sales se produiront et des enregistrements non validés peuvent être lus, qui ne seront pas utilisés dans des situations réelles.
(2) Lire validé (RC)
Seuls les enregistrements validés peuvent être lus. Ce type de sous le niveau d'isolement, il y aura une lecture fantôme. La lecture dite fantôme fait référence au phénomène selon lequel la même requête est exécutée plusieurs fois dans la même transaction et les enregistrements renvoyés ne sont pas exactement les mêmes. La cause première de la lecture fantôme est que sous le niveau d'isolement RC, chaque instruction lira la mise à jour de la transaction soumise. Si d'autres transactions sont soumises entre les deux requêtes, les résultats des deux requêtes seront incohérents. Néanmoins, le niveau d’isolement read-commit est largement utilisé dans les environnements de production.
(3) Lecture répétable (RR)
Le niveau d'isolement de lecture répétable résout le problème de la lecture non répétable, mais le problème de la lecture fantôme n'est toujours pas résolue. Alors, quelle est la différence entre une lecture non répétable et une lecture fantôme ? La lecture non répétable se concentre sur la modification, c'est-à-dire que les valeurs lues deux fois sont différentes ; tandis que la lecture fantôme se concentre sur les modifications du nombre d'enregistrements [insertion et suppression]. Généralement, les manuels nous disent que le problème de lecture fantôme ne peut être résolu que lorsque le niveau d'isolement de sérialisation est atteint, mais le RR innodb de MySQL résout le problème de lecture fantôme, principalement via les verrous GAP. De plus, toutes les bases de données n'implémentent pas ce niveau d'isolement. Plus tard, nous présenterons brièvement comment MySQL implémente le niveau d'isolement de lecture répétable.
(4)Sérialisable
En mode d'isolement de sérialisation, les lectures sales, les fantômes, mais les transactions sont éliminées Le degré de concurrence diminue fortement. Le niveau d'isolement d'une transaction est inversement proportionnel à la simultanéité de la transaction. Plus le niveau d'isolement est élevé, plus la simultanéité de la transaction est faible. Dans un environnement de production réel, l'administrateur de base de données fera un compromis entre la concurrence et la satisfaction des besoins de l'entreprise, et choisira un niveau d'isolement approprié.
2. Méthode de planification simultanée
Une autre chose étroitement liée au niveau d'isolement est la planification simultanée, grâce à laquelle le niveau d'isolement est atteint. Pour la planification simultanée, différents fournisseurs de bases de données ont des mécanismes de mise en œuvre différents, mais les principes de base sont similaires. Ils utilisent tous le verrouillage pour protéger les objets de données contre la modification simultanée de plusieurs transactions. Par rapport au contrôle de concurrence traditionnel basé sur le verrouillage, la principale caractéristique du contrôle de concurrence multiversion (MVCC) est qu'il ne se verrouille pas en lecture. Cette fonctionnalité améliore considérablement la concurrence du système pour les scénarios où il y a beaucoup de lectures et peu d'écritures. donc la plupart des bases de données relationnelles implémentent toutes MVCC.
3. Protocole de verrouillage en deux phases
La signification du protocole de verrouillage en deux phases est que la transaction est divisée en deux phases. La première phase est Après l'obtention du blocus, la deuxième étape consiste à lever le blocus. Le blocage en deux étapes garantit l'exactitude de la planification simultanée. Comparé au verrouillage en une étape (obtention simultanée de tous les verrous requis pour une transaction), le verrouillage en deux phases améliore la concurrence, mais il entraîne également la possibilité d'un blocage.
4. Impasse
La soi-disant impasse fait référence à deux ou plusieurs transactions, chacune occupant les ressources que l'autre partie espère obtenir. , formant un Les boucles d'attente sont dans un état où les unes les autres ne peuvent pas continuer à s'exécuter.
5. Types de verrous
Selon le type de verrou, il peut être divisé en verrou partagé, verrou exclusif, verrou partagé d'intention et intention de verrouillage exclusif. Selon la granularité du verrou, il peut être divisé en verrou de ligne et verrou de table. Pour MySQL, le mécanisme de transaction est davantage implémenté par le moteur de stockage sous-jacent. Par conséquent, le niveau MySQL n'a que des verrous de table, tandis que le moteur de stockage InnODB qui prend en charge les transactions implémente des verrous de ligne (verrous d'enregistrement), des verrous d'espacement et des verrous de clé suivante. . Le verrou d'enregistrement de Mysql est essentiellement le verrou de l'enregistrement d'index, car innodb est une table organisée en index ; le verrou d'espacement est le verrou de l'espace d'enregistrement d'index, qui n'est valide que sous le niveau d'isolation RR ; le verrou d'enregistrement plus l'espace avant la combinaison de verrouillage d'enregistrement. mysql implémente le niveau d'isolation RR via des verrous d'espacement et des verrous de clé suivante.
Remarque :
Pour les opérations de mise à jour (la lecture n'est pas verrouillée), le verrouillage de la liaison montante n'est possible que si l'index est utilisé sinon, le l'index clusterisé sera Un verrou en écriture sur chaque ligne équivaut en fait à un verrou en écriture sur la table.
Si plusieurs enregistrements physiques correspondent au même index, des conflits de verrouillage se produiront également s'ils sont accédés en même temps
Lorsque le La table a plusieurs index À l'heure actuelle, différentes transactions peuvent utiliser différents index pour verrouiller différentes lignes. De plus, innodb utilisera des verrous de ligne pour verrouiller les enregistrements de données (index clusterisé) en même temps.
Dans le cadre du mécanisme de contrôle de concurrence MVCC, aucune opération ne bloquera l'opération de lecture, et l'opération de lecture ne bloquera aucune opération, simplement parce que l'opération de lecture n'est pas verrouillée.
En tant que moteur de stockage open source, RocksDB prend en charge les caractéristiques ACID des transactions. Pour prendre en charge I (Isolation) dans ACID, le contrôle de concurrence est indispensable. Cet article traite principalement de la mise en œuvre du mécanisme de verrouillage de RocksDB, et les détails le seront. Pour l'analyse du code source, j'espère que grâce à cet article, les lecteurs pourront acquérir une compréhension plus approfondie des principes de contrôle de concurrence de RocksDB. L'article commence principalement par les quatre aspects suivants : Tout d'abord, je présenterai la structure de base du verrouillage RocksDB. Ensuite, je présenterai la surcharge de l'espace de verrouillage sous la conception de la structure de données de verrouillage de ligne RocksDB. Ensuite, je présenterai le processus de verrouillage de plusieurs types. scénarios.Enfin, je présenterai le verrou, un mécanisme essentiel de détection de blocage dans le mécanisme.
1. Structure de données de verrouillage de ligne
La granularité minimale du verrouillage de RocksDB est la ligne. la key , chaque clé correspond à une structure LockInfo. Toutes les clés sont gérées via la table de hachage Lorsque vous recherchez un verrou, vous pouvez le localiser directement via la table de hachage pour déterminer si la clé a été verrouillée. Mais s'il n'y a qu'une seule table de hachage globalement, cela provoquera de nombreux conflits lorsque accèdera à cette table de hachage, affectant les performances de concurrence. RocksDB est d'abord divisé par Columnfamily. Les verrous de chaque Columnfamily sont gérés par un LockMap, et chaque LockMap est divisé en plusieurs fragments. Chaque fragment est géré par LockMapStripe et la table de hachage (std::unordered_map
La structure des données pertinente est la suivante :
struct LockInfo { bool exclusive; //排它锁或是共享锁 autovector<TransactionID> txn_ids; //事务列表,对于共享锁而言,同一个key可以对应多个事务 // Transaction locks are not valid after this time in us uint64_t expiration_time; } struct LockMapStripe { // Mutex must be held before modifying keys map std::shared_ptr<TransactionDBMutex> stripe_mutex; // Condition Variable per stripe for waiting on a lock std::shared_ptr<TransactionDBCondVar> stripe_cv; // Locked keys mapped to the info about the transactions that locked them. std::unordered_map<std::string, LockInfo> keys; } struct LockMap { const size_t num_stripes_; //分片个数 std::atomic<int64_t> lock_cnt{0}; //锁数目 std::vector<LockMapStripe*> lock_map_stripes_; //锁分片 } class TransactionLockMgr { using LockMaps = std::unordered_map<uint32_t, std::shared_ptr<LockMap>>; LockMaps lock_maps_; // Thread-local cache of entries in lock_maps_. This is an optimization // to avoid acquiring a mutex in order to look up a LockMap std::unique_ptr<ThreadLocalPtr> lock_maps_cache_; }
2.行锁空间代价
由于锁信息是常驻内存,我们简单分析下RocksDB锁占用的内存。每个锁实际上是unordered_map中的一个元素,则锁占用的内存为key_length+8+8+1,假设key为bigint,占8个字节,则100w行记录,需要消耗大约22M内存。但是由于内存与key_length正相关,导致RocksDB的内存消耗不可控。我们可以简单算算RocksDB作为MySQL存储引擎时,key_length的范围。对于单列索引,最大值为2048个字节,具体可以参考max_supported_key_part_length实现;对于复合索引,索引最大长度为3072个字节,具体可以参考max_supported_key_length实现。假设最坏的情况,key_length=3072,则100w行记录,需要消耗3G内存,如果是锁1亿行记录,则需要消耗300G内存,这种情况下内存会有撑爆的风险。因此RocksDB提供参数配置max_row_locks,确保内存可控,默认RDB_MAX_ROW_LOCKS设置为1G,对于大部分key为bigint场景,极端情况下,也需要消耗22G内存。而在这方面,InnoDB则比较友好,hash表的key是(space_id, page_no),所以无论key有多大,key部分的内存消耗都是恒定的。前面我也提到了InnoDB在一个事务需要锁大量记录场景下是有优化的,多个记录可以公用一把锁,这样也间接可以减少内存。
3.上锁流程分析
前面简单了解了RocksDB锁数据结构的设计以及锁对内存资源的消耗。这节主要介绍几种典型场景下,RocksDB是如何加锁的。与InnoDB一样,RocksDB也支持MVCC,读不上锁,为了方便,下面的讨论基于RocksDB作为MySQL的一个引擎来展开,主要包括三类,基于主键的更新,基于二级索引的更新,基于主键的范围更新等。在展开讨论之前,有一点需要说明的是,RocksDB与InnoDB不同,RocksDB的更新也是基于快照的,而InnoDB的更新基于当前读,这种差异也使得在实际应用中,相同隔离级别下,表现有所不一样。对于RocksDB而言,在RC隔离级别下,每个语句开始都会重新获取一次快照;在RR隔离级别下,整个事务中只在第一个语句开始时获取一次快照,所有语句共用这个快照,直到事务结束。
3.1.基于主键的更新
这里主要接口是TransactionBaseImpl::GetForUpdate
1).尝试对key加锁,如果锁被其它事务持有,则需要等待
2).创建snapshot
3).调用ValidateSnapshot,Get key,通过比较Sequence判断key是否被更新过
4).由于是加锁后,再获取snapshot,所以检查一定成功。
5).执行更新操作
这里有一个延迟获取快照的机制,实际上在语句开始时,需要调用acquire_snapshot获取快照,但为了避免冲突导致的重试,在对key加锁后,再获取snapshot,这就保证了在基于主键更新的场景下,不会存在ValidateSnapshot失败的场景。
堆栈如下:
1-myrocks::ha_rocksdb::get_row_by_rowid 2-myrocks::ha_rocksdb::get_for_update 3-myrocks::Rdb_transaction_impl::get_for_update 4-rocksdb::TransactionBaseImpl::GetForUpdate { //加锁 5-rocksdb::TransactionImpl::TryLock 6-rocksdb::TransactionDBImpl::TryLock 7-rocksdb::TransactionLockMgr::TryLock //延迟获取快照,与acquire_snapshot配合使用 6-SetSnapshotIfNeeded() //检查key对应快照是否过期 6-ValidateSnapshot 7-rocksdb::TransactionUtil::CheckKeyForConflict 8-rocksdb::TransactionUtil::CheckKey 9-rocksdb::DBImpl::GetLatestSequenceForKey //第一次读取 //读取key 5-rocksdb::TransactionBaseImpl::Get 6-rocksdb::WriteBatchWithIndex::GetFromBatchAndDB 7-rocksdb::DB::Get 8-rocksdb::DBImpl::Get 9-rocksdb::DBImpl::GetImpl //第二次读取 }
3.2.基于主键的范围更新
1).创建Snapshot,基于迭代器扫描主键
2).通过get_row_by_rowid,尝试对key加锁
3).调用ValidateSnapshot,Get key,通过比较Sequence判断key是否被更新过
4).如果key被其它事务更新过(key对应的SequenceNumber比Snapshot要新),触发重试
5).重试情况下,会释放老的快照并释放锁,通过tx->acquire_snapshot(false),延迟获取快照(加锁后,再拿snapshot)
5).再次调用get_for_update,由于此时key已经被加锁,重试一定可以成功。
6).执行更新操作
7).跳转到1,继续执行,直到主键不符合条件时,则结束。
3.3.基于二级索引的更新
这种场景与3.2类似,只不过多一步从二级索引定位主键过程。
1).创建Snapshot,基于迭代器扫描二级索引
2).根据二级索引反向找到主键,实际上也是调用get_row_by_rowid,这个过程就会尝试对key加锁
3).继续根据二级索引遍历下一个主键,尝试加锁
4).当返回的二级索引不符合条件时,则结束
4.死锁检测算法
死锁检测采用DFS((Depth First Search,深度优先算法),基本思路根据加入等待关系,继续查找被等待者的等待关系,如果发现成环,则认为发生了死锁,当然在大并发系统下,锁等待关系非常复杂,为了将死锁检测带来的资源消耗控制在一定范围,可以通过设置deadlock_detect_depth来控制死锁检测搜索的深度,或者在特定业务场景下,认为一定不会发生死锁,则关闭死锁检测,这样在一定程度上有利于系统并发的提升。需要说明的是,如果关闭死锁,最好配套将锁等待超时时间设置较小,避免系统真发生死锁时,事务长时间hang住。死锁检测基本流程如下:
1.定位到具体某个分片,获取mutex
2.调用AcquireLocked尝试加锁
3.若上锁失败,则触发进行死锁检测
4.调用IncrementWaiters增加一个等待者
5.如果等待者不在被等待者map里面,则肯定不会存在死锁,返回
6.对于被等待者,沿着wait_txn_map_向下检查等待关系,看看是否成环
7.若发现成环,则将调用DecrementWaitersImpl将新加入的等待关系解除,并报死锁错误。
相关的数据结构:
class TransactionLockMgr { // Must be held when modifying wait_txn_map_ and rev_wait_txn_map_. std::mutex wait_txn_map_mutex_; // Maps from waitee -> number of waiters. HashMap<TransactionID, int> rev_wait_txn_map_; // Maps from waiter -> waitee. HashMap<TransactionID, autovector<TransactionID>> wait_txn_map_; DecrementWaiters // IncrementWaiters // } struct TransactionOptions { bool deadlock_detect = false; //是否检测死锁 int64_t deadlock_detect_depth = 50; //死锁检测的深度 int64_t lock_timeout = -1; //等待锁时间,线上一般设置为5s int64_t expiration = -1; //持有锁时间, }
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!