一文懂-分布式-鎖

美曼科技 · 發(fā)表于 2023-4-3 15:48:40

一鍵注冊(cè)，加入手機(jī)圈

您需要登錄才可以下載或查看，沒(méi)有帳號(hào)？立即注冊(cè)

x

前言

以 Redis 為主線，由淺入深，深度剖析一下，分布式鎖的各種「安全性」問(wèn)題，一起徹底理解分布式鎖。
分布式鎖使用場(chǎng)景

在開(kāi)始講分布式鎖之前，有必要簡(jiǎn)單介紹一下，為什么需要分布式鎖？
與分布式鎖相對(duì)應(yīng)的是「單機(jī)鎖」，我們?cè)趯懚嗑€程程序時(shí)，避免同時(shí)操作一個(gè)共享變量產(chǎn)生數(shù)據(jù)問(wèn)題，通常會(huì)使用一把鎖來(lái)「互斥」，以保證共享變量的正確性，其使用范圍是在「同一個(gè)進(jìn)程」中。
如果換做是多個(gè)進(jìn)程，需要同時(shí)操作一個(gè)共享資源，如何互斥呢？
例如，現(xiàn)在的業(yè)務(wù)應(yīng)用通常都是微服務(wù)架構(gòu)，這也意味著一個(gè)應(yīng)用會(huì)部署多個(gè)進(jìn)程，那這多個(gè)進(jìn)程如果需要修改 MySQL 中的同一行記錄時(shí)，為了避免操作亂序?qū)е聰?shù)據(jù)錯(cuò)誤，此時(shí)，我們就需要引入「分布式鎖」來(lái)解決這個(gè)問(wèn)題了。

登錄/注冊(cè)后可看大圖

想要實(shí)現(xiàn)分布式鎖，必須借助一個(gè)外部系統(tǒng)，所有進(jìn)程都去這個(gè)系統(tǒng)上申請(qǐng)「加鎖」。
而這個(gè)外部系統(tǒng)，必須要實(shí)現(xiàn)「互斥」的能力，即兩個(gè)請(qǐng)求同時(shí)進(jìn)來(lái)，只會(huì)給一個(gè)進(jìn)程返回成功，另一個(gè)返回失?。ɑ虻却?。
這個(gè)外部系統(tǒng)，可以是 MySQL，也可以是 Redis 或 Zookeeper。但為了追求更好的性能，我們通常會(huì)選擇使用 Redis 或 Zookeeper 來(lái)做。
Redis分布式鎖的怎么實(shí)現(xiàn)

我們從最簡(jiǎn)單的開(kāi)始講起。
想要實(shí)現(xiàn)分布式鎖，必須要求 Redis 有「互斥」的能力，我們可以使用 SETNX 命令，這個(gè)命令表示SET if Not eXists，即如果 key 不存在，才會(huì)設(shè)置它的值，否則什么也不做。
兩個(gè)客戶端進(jìn)程可以執(zhí)行這個(gè)命令，達(dá)到互斥，就可以實(shí)現(xiàn)一個(gè)分布式鎖。
客戶端 1 申請(qǐng)加鎖，加鎖成功：
127.0.0.1:6379> SETNX lock 1
(integer) 1 // 客戶端1，加鎖成功

客戶端 2 申請(qǐng)加鎖，因?yàn)樗蟮竭_(dá)，加鎖失?。?br /> 127.0.0.1:6379> SETNX lock 1
(integer) 0 // 客戶端2，加鎖失敗

此時(shí)，加鎖成功的客戶端，就可以去操作「共享資源」，例如，修改 MySQL 的某一行數(shù)據(jù)，或者調(diào)用一個(gè) API 請(qǐng)求。
操作完成后，還要及時(shí)釋放鎖，給后來(lái)者讓出操作共享資源的機(jī)會(huì)。如何釋放鎖呢？
也很簡(jiǎn)單，直接使用 DEL 命令刪除這個(gè) key 即可：
127.0.0.1:6379> DEL lock // 釋放鎖
(integer) 1
這個(gè)邏輯非常簡(jiǎn)單，整體的路程就是這樣：

登錄/注冊(cè)后可看大圖

但是，它存在一個(gè)很大的問(wèn)題，當(dāng)客戶端 1 拿到鎖后，如果發(fā)生下面的場(chǎng)景，就會(huì)造成「死鎖」：

程序處理業(yè)務(wù)邏輯異常，沒(méi)及時(shí)釋放鎖
進(jìn)程掛了，沒(méi)機(jī)會(huì)釋放鎖

這時(shí)，這個(gè)客戶端就會(huì)一直占用這個(gè)鎖，而其它客戶端就「永遠(yuǎn)」拿不到這把鎖了。
怎么解決這個(gè)問(wèn)題呢？
如何避免死鎖

我們很容易想到的方案是，在申請(qǐng)鎖時(shí)，給這把鎖設(shè)置一個(gè)「租期」。
在 Redis 中實(shí)現(xiàn)時(shí)，就是給這個(gè) key 設(shè)置一個(gè)「過(guò)期時(shí)間」。這里我們假設(shè)，操作共享資源的時(shí)間不會(huì)超過(guò) 10s，那么在加鎖時(shí)，給這個(gè) key 設(shè)置 10s 過(guò)期即可：
127.0.0.1:6379> SETNX lock 1 // 加鎖
(integer) 1
127.0.0.1:6379> EXPIRE lock 10 // 10s后自動(dòng)過(guò)期
(integer) 1
這樣一來(lái)，無(wú)論客戶端是否異常，這個(gè)鎖都可以在 10s 后被「自動(dòng)釋放」，其它客戶端依舊可以拿到鎖。
但這樣真的沒(méi)問(wèn)題嗎？
還是有問(wèn)題。
現(xiàn)在的操作，加鎖、設(shè)置過(guò)期是 2 條命令，有沒(méi)有可能只執(zhí)行了第一條，第二條卻「來(lái)不及」執(zhí)行的情況發(fā)生呢？例如：

SETNX 執(zhí)行成功，執(zhí)行 EXPIRE 時(shí)由于網(wǎng)絡(luò)問(wèn)題，執(zhí)行失敗
SETNX 執(zhí)行成功，Redis 異常宕機(jī)，EXPIRE 沒(méi)有機(jī)會(huì)執(zhí)行
SETNX 執(zhí)行成功，客戶端異常崩潰，EXPIRE 也沒(méi)有機(jī)會(huì)執(zhí)行

總之，這兩條命令不能保證是原子操作（一起成功），就有潛在的風(fēng)險(xiǎn)導(dǎo)致過(guò)期時(shí)間設(shè)置失敗，依舊發(fā)生「死鎖」問(wèn)題。
怎么辦？
在 Redis 2.6.12 版本之前，我們需要想盡辦法，保證 SETNX 和 EXPIRE 原子性執(zhí)行，還要考慮各種異常情況如何處理。
但在 Redis 2.6.12 之后，Redis 擴(kuò)展了 SET 命令的參數(shù)，用這一條命令就可以了：
// 一條命令保證原子性執(zhí)行
127.0.0.1:6379> SET lock 1 EX 10 NX
OK
這樣就解決了死鎖問(wèn)題，也比較簡(jiǎn)單。
我們?cè)賮?lái)看分析下，它還有什么問(wèn)題？
試想這樣一種場(chǎng)景：

客戶端 1 加鎖成功，開(kāi)始操作共享資源
客戶端 1 操作共享資源的時(shí)間，「超過(guò)」了鎖的過(guò)期時(shí)間，鎖被「自動(dòng)釋放」
客戶端 2 加鎖成功，開(kāi)始操作共享資源
客戶端 1 操作共享資源完成，釋放鎖（但釋放的是客戶端 2 的鎖）

看到了么，這里存在兩個(gè)嚴(yán)重的問(wèn)題：

鎖過(guò)期：客戶端 1 操作共享資源耗時(shí)太久，導(dǎo)致鎖被自動(dòng)釋放，之后被客戶端 2 持有
釋放別人的鎖：客戶端 1 操作共享資源完成后，卻又釋放了客戶端 2 的鎖

導(dǎo)致這兩個(gè)問(wèn)題的原因是什么？我們一個(gè)個(gè)來(lái)看。

第一個(gè)問(wèn)題，鎖過(guò)期，可能是我們?cè)u(píng)估操作共享資源的時(shí)間不準(zhǔn)確導(dǎo)致的。
例如，操作共享資源的時(shí)間「最慢」可能需要 15s，而我們卻只設(shè)置了 10s 過(guò)期，那這就存在鎖提前過(guò)期的風(fēng)險(xiǎn)。
過(guò)期時(shí)間太短，那增大冗余時(shí)間，例如設(shè)置過(guò)期時(shí)間為 20s，這樣總可以了吧？
這樣確實(shí)可以「緩解」這個(gè)問(wèn)題，降低出問(wèn)題的概率，但依舊無(wú)法「徹底解決」問(wèn)題。
為什么？
原因在于，客戶端在拿到鎖之后，在操作共享資源時(shí)，遇到的場(chǎng)景有可能是很復(fù)雜的，例如，程序內(nèi)部發(fā)生異常、網(wǎng)絡(luò)請(qǐng)求超時(shí)等等。
既然是「預(yù)估」時(shí)間，也只能是大致計(jì)算，除非你能預(yù)料并覆蓋到所有導(dǎo)致耗時(shí)變長(zhǎng)的場(chǎng)景，但這其實(shí)很難。
有什么更好的解決方案嗎？
別急，關(guān)于這個(gè)問(wèn)題，我會(huì)在后面詳細(xì)來(lái)講對(duì)應(yīng)的解決方案。
我們繼續(xù)來(lái)看第二個(gè)問(wèn)題。
第二個(gè)問(wèn)題在于，一個(gè)客戶端釋放了其它客戶端持有的鎖。
想一下，導(dǎo)致這個(gè)問(wèn)題的關(guān)鍵點(diǎn)在哪？
重點(diǎn)在于，每個(gè)客戶端在釋放鎖時(shí)，都是「無(wú)腦」操作，并沒(méi)有檢查這把鎖是否還「歸自己持有」，所以就會(huì)發(fā)生釋放別人鎖的風(fēng)險(xiǎn)，這樣的解鎖流程，很不「嚴(yán)謹(jǐn)」！
如何解決這個(gè)問(wèn)題呢？
鎖被別人釋放怎么辦

解決辦法是：客戶端在加鎖時(shí)，設(shè)置一個(gè)只有自己知道的「唯一標(biāo)識(shí)」進(jìn)去。
例如，可以是自己的線程 ID，也可以是一個(gè) UUID（隨機(jī)且唯一），這里我們以 UUID 舉例：
// 鎖的VALUE設(shè)置為UUID
/ / 這里假設(shè) 20s 操作共享時(shí)間完全足夠，先不考慮鎖自動(dòng)過(guò)期的問(wèn)題。
127.0.0.1:6379> SET lock $uuid EX 20 NX
OK
之后，在釋放鎖時(shí)，要先判斷這把鎖是否還歸自己持有，偽代碼可以這么寫：
// 鎖是自己的，才釋放
if redis.get(&#34;lock&#34;) == $uuid:
redis.del(&#34;lock&#34;)
這里釋放鎖使用的是 GET + DEL 兩條命令，這時(shí)，又會(huì)遇到我們前面講的原子性問(wèn)題了。

客戶端 1 執(zhí)行 GET，判斷鎖是自己的
客戶端 2 執(zhí)行了 SET 命令，強(qiáng)制獲取到鎖（雖然發(fā)生概率比較低，但我們需要嚴(yán)謹(jǐn)?shù)乜紤]鎖的安全性模型）
客戶端 1 執(zhí)行 DEL，卻釋放了客戶端 2 的鎖

由此可見(jiàn)，這兩個(gè)命令還是必須要原子執(zhí)行才行。
怎樣原子執(zhí)行呢？Lua 腳本。
我們可以把這個(gè)邏輯，寫成 Lua 腳本，讓 Redis 來(lái)執(zhí)行。
因?yàn)?Redis 處理每一個(gè)請(qǐng)求是「單線程」執(zhí)行的，在執(zhí)行一個(gè) Lua 腳本時(shí)，其它請(qǐng)求必須等待，直到這個(gè) Lua 腳本處理完成，這樣一來(lái)，GET + DEL 之間就不會(huì)插入其它命令了。
安全釋放鎖的 Lua 腳本如下：
// 判斷鎖是自己的，才釋放
if redis.call(&#34;GET&#34;,KEYS[1]) == ARGV[1]
then
return redis.call(&#34;DEL&#34;,KEYS[1])
else
return 0
end
好了，這樣一路優(yōu)化，整個(gè)的加鎖、解鎖的流程就更「嚴(yán)謹(jǐn)」了。
這里我們先小結(jié)一下，基于 Redis 實(shí)現(xiàn)的分布式鎖，一個(gè)嚴(yán)謹(jǐn)?shù)牡牧鞒倘缦拢?br />

加鎖：SET lock_key $unique_id EX $expire_time NX
操作共享資源
釋放鎖：Lua 腳本，先 GET 判斷鎖是否歸屬自己，再 DEL 釋放鎖

登錄/注冊(cè)后可看大圖

好，有了這個(gè)完整的鎖模型，讓我們重新回到前面提到的第一個(gè)問(wèn)題。
鎖過(guò)期時(shí)間不好評(píng)估怎么辦？
鎖過(guò)期時(shí)間不好評(píng)估怎么辦

前面我們提到，鎖的過(guò)期時(shí)間如果評(píng)估不好，這個(gè)鎖就會(huì)有「提前」過(guò)期的風(fēng)險(xiǎn)。
當(dāng)時(shí)給的妥協(xié)方案是，盡量「冗余」過(guò)期時(shí)間，降低鎖提前過(guò)期的概率。
這個(gè)方案其實(shí)也不能完美解決問(wèn)題，那怎么辦呢？
是否可以設(shè)計(jì)這樣的方案：加鎖時(shí)，先設(shè)置一個(gè)過(guò)期時(shí)間，然后我們開(kāi)啟一個(gè)「守護(hù)線程」，定時(shí)去檢測(cè)這個(gè)鎖的失效時(shí)間，如果鎖快要過(guò)期了，操作共享資源還未完成，那么就自動(dòng)對(duì)鎖進(jìn)行「續(xù)期」，重新設(shè)置過(guò)期時(shí)間。
這確實(shí)一種比較好的方案。
Redisson 是一個(gè) Java 語(yǔ)言實(shí)現(xiàn)的 Redis SDK 客戶端，在使用分布式鎖時(shí)，它就采用了「自動(dòng)續(xù)期」的方案來(lái)避免鎖過(guò)期，這個(gè)守護(hù)線程我們一般也把它叫做「看門狗」線程。

登錄/注冊(cè)后可看大圖

除此之外，這個(gè) SDK 還封裝了很多易用的功能：

可重入鎖
樂(lè)觀鎖
公平鎖
讀寫鎖
Redlock（紅鎖，下面的重點(diǎn)）

這個(gè) SDK 提供的 API 非常友好，它可以像操作本地鎖的方式，操作分布式鎖，也是同時(shí)兼容響應(yīng)式與同步代碼調(diào)用。

到這里我們?cè)傩〗Y(jié)一下，基于 Redis 的實(shí)現(xiàn)分布式鎖，前面遇到的問(wèn)題，以及對(duì)應(yīng)的解決方案：

死鎖：設(shè)置過(guò)期時(shí)間
過(guò)期時(shí)間評(píng)估不好，鎖提前過(guò)期：守護(hù)線程，自動(dòng)續(xù)期
鎖被別人釋放：鎖寫入唯一標(biāo)識(shí)，釋放鎖先檢查標(biāo)識(shí)，再釋放

還有哪些問(wèn)題場(chǎng)景，會(huì)危害 Redis 鎖的安全性呢？
之前分析的場(chǎng)景都是，鎖在「單個(gè)」Redis 實(shí)例中可能產(chǎn)生的問(wèn)題，并沒(méi)有涉及到 Redis 的部署架構(gòu)細(xì)節(jié)。
而我們?cè)谑褂?Redis 時(shí)，一般會(huì)采用主從集群 + 哨兵的模式部署，這樣做的好處在于，當(dāng)主庫(kù)異常宕機(jī)時(shí)，哨兵可以實(shí)現(xiàn)「故障自動(dòng)切換」，把從庫(kù)提升為主庫(kù)，繼續(xù)提供服務(wù)，以此保證可用性。
那當(dāng)「主從發(fā)生切換」時(shí)，這個(gè)分布鎖會(huì)依舊安全嗎？

試想這樣的場(chǎng)景：

客戶端 1 在主庫(kù)上執(zhí)行 SET 命令，加鎖成功
此時(shí)，主庫(kù)異常宕機(jī)，SET 命令還未同步到從庫(kù)上（主從復(fù)制是異步的）
從庫(kù)被哨兵提升為新主庫(kù)，這個(gè)鎖在新的主庫(kù)上，丟失了！

登錄/注冊(cè)后可看大圖

可見(jiàn)，當(dāng)引入 Redis 副本后，分布鎖還是可能會(huì)受到影響。
怎么解決這個(gè)問(wèn)題？
為此，Redis 的作者提出一種解決方案，就是我們經(jīng)常聽(tīng)到的 Redlock（紅鎖）。
它真的可以解決上面這個(gè)問(wèn)題嗎？
Redlock真的安全嗎

好，終于到了重頭戲，以上那些只是開(kāi)胃菜，真正的硬菜，從這里剛剛開(kāi)始。
如果上面講的內(nèi)容，你還沒(méi)有理解，我建議你重新閱讀一遍，先理清整個(gè)加鎖、解鎖的基本流程。
如果你已經(jīng)對(duì) Redlock 有所了解，這里可以再?gòu)?fù)習(xí)一遍，如果你不了解 Redlock，沒(méi)關(guān)系，我們一起重新認(rèn)識(shí)它。
現(xiàn)在我們來(lái)看，Redis 作者提出的 Redlock 方案，是如何解決主從切換后，鎖失效問(wèn)題的。
Redlock 的方案基于 2 個(gè)前提

不再需要部署從庫(kù)和哨兵實(shí)例，只部署主庫(kù)
但主庫(kù)要部署多個(gè)，官方推薦至少 5 個(gè)實(shí)例

也就是說(shuō)，想用使用 Redlock，你至少要部署 5 個(gè) Redis 實(shí)例，而且都是主庫(kù)，它們之間沒(méi)有任何關(guān)系，都是一個(gè)個(gè)孤立的實(shí)例。
注意：不是部署 Redis Cluster，就是部署 5 個(gè)簡(jiǎn)單的 Redis 實(shí)例。

登錄/注冊(cè)后可看大圖

Redlock 具體如何使用呢？
Redlock 整體的流程

是這樣的，一共分為 5 步：

客戶端先獲取「當(dāng)前時(shí)間戳T1」
客戶端依次向這 5 個(gè) Redis 實(shí)例發(fā)起加鎖請(qǐng)求（用前面講到的 SET 命令），且每個(gè)請(qǐng)求會(huì)設(shè)置超時(shí)時(shí)間（毫秒級(jí)，要遠(yuǎn)小于鎖的有效時(shí)間），如果某一個(gè)實(shí)例加鎖失?。òňW(wǎng)絡(luò)超時(shí)、鎖被其它人持有等各種異常情況），就立即向下一個(gè) Redis 實(shí)例申請(qǐng)加鎖
如果客戶端從 >=3 個(gè)（大多數(shù)）以上 Redis 實(shí)例加鎖成功，則再次獲取「當(dāng)前時(shí)間戳T2」，如果 T2 - T1 < 鎖的過(guò)期時(shí)間，此時(shí)，認(rèn)為客戶端加鎖成功，否則認(rèn)為加鎖失敗
加鎖成功，去操作共享資源（例如修改 MySQL 某一行，或發(fā)起一個(gè) API 請(qǐng)求）
加鎖失敗，向「全部節(jié)點(diǎn)」發(fā)起釋放鎖請(qǐng)求（前面講到的 Lua 腳本釋放鎖）

總結(jié)一下，有 4 個(gè)重點(diǎn)：

客戶端在多個(gè) Redis 實(shí)例上申請(qǐng)加鎖
必須保證大多數(shù)節(jié)點(diǎn)加鎖成功
大多數(shù)節(jié)點(diǎn)加鎖的總耗時(shí)，要小于鎖設(shè)置的過(guò)期時(shí)間
釋放鎖，要向全部節(jié)點(diǎn)發(fā)起釋放鎖請(qǐng)求

好，明白了 Redlock 的流程，我們來(lái)看
Redlock 為什么要這么做。

1) 為什么要在多個(gè)實(shí)例上加鎖？

本質(zhì)上是為了「容錯(cuò)」，部分實(shí)例異常宕機(jī)，剩余的實(shí)例加鎖成功，整個(gè)鎖服務(wù)依舊可用。
2) 為什么大多數(shù)加鎖成功，才算成功？

多個(gè) Redis 實(shí)例一起來(lái)用，其實(shí)就組成了一個(gè)「分布式系統(tǒng)」。
在分布式系統(tǒng)中，總會(huì)出現(xiàn)「異常節(jié)點(diǎn)」，所以，在談?wù)摲植际较到y(tǒng)問(wèn)題時(shí)，需要考慮異常節(jié)點(diǎn)達(dá)到多少個(gè)，也依舊不會(huì)影響整個(gè)系統(tǒng)的「正確性」。
這是一個(gè)分布式系統(tǒng)「容錯(cuò)」問(wèn)題，這個(gè)問(wèn)題的結(jié)論是：如果只存在「故障」節(jié)點(diǎn)，只要大多數(shù)節(jié)點(diǎn)正常，那么整個(gè)系統(tǒng)依舊是可以提供正確服務(wù)的。
這個(gè)問(wèn)題的模型，就是我們經(jīng)常聽(tīng)到的「拜占庭將軍」問(wèn)題，如果存在m個(gè)「叛徒」節(jié)點(diǎn)，需要要2m + 1以及以上的正常節(jié)點(diǎn)，整個(gè)系統(tǒng)是可以提供正確服務(wù)的。
3) 為什么步驟 3 加鎖成功后，還要計(jì)算加鎖的累計(jì)耗時(shí)？

因?yàn)椴僮鞯氖嵌鄠€(gè)節(jié)點(diǎn)，所以耗時(shí)肯定會(huì)比操作單個(gè)實(shí)例耗時(shí)更久，而且，因?yàn)槭蔷W(wǎng)絡(luò)請(qǐng)求，網(wǎng)絡(luò)情況是復(fù)雜的，有可能存在延遲、丟包、超時(shí)等情況發(fā)生，網(wǎng)絡(luò)請(qǐng)求越多，異常發(fā)生的概率就越大。
所以，即使大多數(shù)節(jié)點(diǎn)加鎖成功，但如果加鎖的累計(jì)耗時(shí)已經(jīng)「超過(guò)」了鎖的過(guò)期時(shí)間，那此時(shí)有些實(shí)例上的鎖可能已經(jīng)失效了，這個(gè)鎖就沒(méi)有意義了。
4) 為什么釋放鎖，要操作所有節(jié)點(diǎn)？

在某一個(gè) Redis 節(jié)點(diǎn)加鎖時(shí)，可能因?yàn)椤妇W(wǎng)絡(luò)原因」導(dǎo)致加鎖失敗。
例如，客戶端在一個(gè) Redis 實(shí)例上加鎖成功，但在讀取響應(yīng)結(jié)果時(shí)，網(wǎng)絡(luò)問(wèn)題導(dǎo)致讀取失敗，那這把鎖其實(shí)已經(jīng)在 Redis 上加鎖成功了。
所以，釋放鎖時(shí)，不管之前有沒(méi)有加鎖成功，需要釋放「所有節(jié)點(diǎn)」的鎖，以保證清理節(jié)點(diǎn)上「殘留」的鎖。
好了，明白了 Redlock 的流程和相關(guān)問(wèn)題，看似 Redlock 確實(shí)解決了 Redis 節(jié)點(diǎn)異常宕機(jī)鎖失效的問(wèn)題，保證了鎖的「安全性」。

但事實(shí)真的如此嗎？
Redlock的爭(zhēng)論

Redis 作者把這個(gè)方案一經(jīng)提出，就馬上受到業(yè)界著名的分布式系統(tǒng)專家的質(zhì)疑！
這個(gè)專家叫 Martin，是英國(guó)劍橋大學(xué)的一名分布式系統(tǒng)研究員。在此之前他曾是軟件工程師和企業(yè)家，從事大規(guī)模數(shù)據(jù)基礎(chǔ)設(shè)施相關(guān)的工作。它還經(jīng)常在大會(huì)做演講，寫博客，寫書，也是開(kāi)源貢獻(xiàn)者。

他馬上寫了篇文章，質(zhì)疑這個(gè) Redlock 的算法模型是有問(wèn)題的，并對(duì)分布式鎖的設(shè)計(jì)，提出了自己的看法。
之后，Redis 作者 Antirez 面對(duì)質(zhì)疑，不甘示弱，也寫了一篇文章，反駁了對(duì)方的觀點(diǎn)，并詳細(xì)剖析了 Redlock 算法模型的更多設(shè)計(jì)細(xì)節(jié)。
而且，關(guān)于這個(gè)問(wèn)題的爭(zhēng)論，在當(dāng)時(shí)互聯(lián)網(wǎng)上也引起了非常激烈的討論。
二人思路清晰，論據(jù)充分，這是一場(chǎng)高手過(guò)招，也是分布式系統(tǒng)領(lǐng)域非常好的一次思想的碰撞！雙方都是分布式系統(tǒng)領(lǐng)域的專家，卻對(duì)同一個(gè)問(wèn)題提出很多相反的論斷，究竟是怎么回事？
下面會(huì)從他們的爭(zhēng)論文章中，提取重要的觀點(diǎn)，整理呈現(xiàn)給大家。
分布式專家 Martin 【馬丁】對(duì)于 Redlock 的質(zhì)疑

在他的文章中，主要闡述了 4 個(gè)論點(diǎn)：
1) 分布式鎖的目的是什么？

Martin 表示，你必須先清楚你在使用分布式鎖的目的是什么？
他認(rèn)為有兩個(gè)目的。
第一，效率。
使用分布式鎖的互斥能力，是避免不必要地做同樣的兩次工作（例如一些昂貴的計(jì)算任務(wù)）。如果鎖失效，并不會(huì)帶來(lái)「惡性」的后果，例如發(fā)了 2 次郵件等，無(wú)傷大雅。
第二，正確性。
使用鎖用來(lái)防止并發(fā)進(jìn)程互相干擾。如果鎖失效，會(huì)造成多個(gè)進(jìn)程同時(shí)操作同一條數(shù)據(jù)，產(chǎn)生的后果是數(shù)據(jù)嚴(yán)重錯(cuò)誤、永久性不一致、數(shù)據(jù)丟失等惡性問(wèn)題，就像給患者服用了重復(fù)劑量的藥物，后果很嚴(yán)重。
他認(rèn)為，如果你是為了前者——效率，那么使用單機(jī)版 Redis 就可以了，即使偶爾發(fā)生鎖失效（宕機(jī)、主從切換），都不會(huì)產(chǎn)生嚴(yán)重的后果。而使用 Redlock 太重了，沒(méi)必要。
而如果是為了正確性，Martin 認(rèn)為 Redlock 根本達(dá)不到安全性的要求，也依舊存在鎖失效的問(wèn)題！
2) 鎖在分布式系統(tǒng)中會(huì)遇到的問(wèn)題

Martin 表示，一個(gè)分布式系統(tǒng)，更像一個(gè)復(fù)雜的「野獸」，存在著你想不到的各種異常情況。
這些異常場(chǎng)景主要包括三大塊，這也是分布式系統(tǒng)會(huì)遇到的三座大山：NPC。

N：Network Delay，網(wǎng)絡(luò)延遲
P：Process Pause，進(jìn)程暫停（GC）
C：Clock Drift，時(shí)鐘漂移

Martin 用一個(gè)進(jìn)程暫停（GC）的例子，指出了 Redlock 安全性問(wèn)題：

客戶端 1 請(qǐng)求鎖定節(jié)點(diǎn) A、B、C、D、E
客戶端 1 的拿到鎖后，進(jìn)入 GC（時(shí)間比較久）
所有 Redis 節(jié)點(diǎn)上的鎖都過(guò)期了
客戶端 2 獲取到了 A、B、C、D、E 上的鎖
客戶端 1 GC 結(jié)束，認(rèn)為成功獲取鎖
客戶端 2 也認(rèn)為獲取到了鎖，發(fā)生「沖突」

登錄/注冊(cè)后可看大圖

Martin 認(rèn)為，GC 可能發(fā)生在程序的任意時(shí)刻，而且執(zhí)行時(shí)間是不可控的。
當(dāng)然，即使是使用沒(méi)有 GC 的編程語(yǔ)言，在發(fā)生網(wǎng)絡(luò)延遲、時(shí)鐘漂移時(shí)，也都有可能導(dǎo)致 Redlock 出現(xiàn)問(wèn)題，這里 Martin 只是拿 GC 舉例。
3) 假設(shè)時(shí)鐘正確的是不合理的

又或者，當(dāng)多個(gè) Redis 節(jié)點(diǎn)「時(shí)鐘」發(fā)生問(wèn)題時(shí)，也會(huì)導(dǎo)致 Redlock 鎖失效。

客戶端 1 獲取節(jié)點(diǎn) A、B、C 上的鎖，但由于網(wǎng)絡(luò)問(wèn)題，無(wú)法訪問(wèn) D 和 E
節(jié)點(diǎn) C 上的時(shí)鐘「向前跳躍」，導(dǎo)致鎖到期
客戶端 2 獲取節(jié)點(diǎn) C、D、E 上的鎖，由于網(wǎng)絡(luò)問(wèn)題，無(wú)法訪問(wèn) A 和 B
客戶端 1 和 2 現(xiàn)在都相信它們持有了鎖（沖突）

Martin 覺(jué)得，Redlock 必須「強(qiáng)依賴」多個(gè)節(jié)點(diǎn)的時(shí)鐘是保持同步的，一旦有節(jié)點(diǎn)時(shí)鐘發(fā)生錯(cuò)誤，那這個(gè)算法模型就失效了。

即使 C 不是時(shí)鐘跳躍，而是「崩潰后立即重啟」，也會(huì)發(fā)生類似的問(wèn)題。

Martin 繼續(xù)闡述，機(jī)器的時(shí)鐘發(fā)生錯(cuò)誤，是很有可能發(fā)生的：

系統(tǒng)管理員「手動(dòng)修改」了機(jī)器時(shí)鐘
機(jī)器時(shí)鐘在同步 NTP 時(shí)間時(shí)，發(fā)生了大的「跳躍」

總之，Martin 認(rèn)為，Redlock 的算法是建立在「同步模型」基礎(chǔ)上的，有大量資料研究表明，同步模型的假設(shè)，在分布式系統(tǒng)中是有問(wèn)題的。
在混亂的分布式系統(tǒng)的中，你不能假設(shè)系統(tǒng)時(shí)鐘就是對(duì)的，所以，你必須非常小心你的假設(shè)。

4) 提出 fecing token 的方案，保證正確性

相對(duì)應(yīng)的，Martin 提出一種被叫作 fecing token 的方案，保證分布式鎖的正確性。
這個(gè)模型流程如下：

客戶端在獲取鎖時(shí)，鎖服務(wù)可以提供一個(gè)「遞增」的 token
客戶端拿著這個(gè) token 去操作共享資源
共享資源可以根據(jù) token 拒絕「后來(lái)者」的請(qǐng)求

登錄/注冊(cè)后可看大圖

這樣一來(lái)，無(wú)論 NPC 哪種異常情況發(fā)生，都可以保證分布式鎖的安全性，因?yàn)樗墙⒃凇府惒侥Ｐ汀股系摹?br /> 而 Redlock 無(wú)法提供類似 fecing token 的方案，所以它無(wú)法保證安全性。
他還表示，一個(gè)好的分布式鎖，無(wú)論 NPC 怎么發(fā)生，可以不在規(guī)定時(shí)間內(nèi)給出結(jié)果，但并不會(huì)給出一個(gè)錯(cuò)誤的結(jié)果。也就是只會(huì)影響到鎖的「性能」（或稱之為活性），而不會(huì)影響它的「正確性」。
Martin 的結(jié)論：
1、Redlock 不倫不類：它對(duì)于效率來(lái)講，Redlock 比較重，沒(méi)必要這么做，而對(duì)于正確性來(lái)說(shuō)，Redlock 是不夠安全的。
2、時(shí)鐘假設(shè)不合理：該算法對(duì)系統(tǒng)時(shí)鐘做出了危險(xiǎn)的假設(shè)（假設(shè)多個(gè)節(jié)點(diǎn)機(jī)器時(shí)鐘都是一致的），如果不滿足這些假設(shè)，鎖就會(huì)失效。
3、無(wú)法保證正確性：Redlock 不能提供類似 fencing token 的方案，所以解決不了正確性的問(wèn)題。為了正確性，請(qǐng)使用有「共識(shí)系統(tǒng)」的軟件，例如 Zookeeper。
好了，以上就是 Martin 反對(duì)使用 Redlock 的觀點(diǎn)，看起來(lái)有理有據(jù)。
下面我們來(lái)看 Redis 作者 Antirez 是如何反駁的。
Redis 作者 Antirez 【安提雷斯】的反駁

在 Redis 作者的文章中，重點(diǎn)有 3 個(gè)：
1) 解釋時(shí)鐘問(wèn)題

首先，Redis 作者一眼就看穿了對(duì)方提出的最為核心的問(wèn)題：時(shí)鐘問(wèn)題。
Redis 作者表示，Redlock 并不需要完全一致的時(shí)鐘，只需要大體一致就可以了，允許有「誤差」。
例如要計(jì)時(shí) 5s，但實(shí)際可能記了 4.5s，之后又記了 5.5s，有一定誤差，但只要不超過(guò)「誤差范圍」鎖失效時(shí)間即可，這種對(duì)于時(shí)鐘的精度要求并不是很高，而且這也符合現(xiàn)實(shí)環(huán)境。
對(duì)于對(duì)方提到的「時(shí)鐘修改」問(wèn)題，Redis 作者反駁到：

手動(dòng)修改時(shí)鐘：不要這么做就好了，否則你直接修改 Raft 日志，那 Raft 也會(huì)無(wú)法工作...
時(shí)鐘跳躍：通過(guò)「恰當(dāng)?shù)倪\(yùn)維」，保證機(jī)器時(shí)鐘不會(huì)大幅度跳躍（每次通過(guò)微小的調(diào)整來(lái)完成），實(shí)際上這是可以做到的

為什么 Redis 作者優(yōu)先解釋時(shí)鐘問(wèn)題？因?yàn)樵诤竺娴姆瘩g過(guò)程中，需要依賴這個(gè)基礎(chǔ)做進(jìn)一步解釋。

2) 解釋網(wǎng)絡(luò)延遲、GC 問(wèn)題

之后，Redis 作者對(duì)于對(duì)方提出的，網(wǎng)絡(luò)延遲、進(jìn)程 GC 可能導(dǎo)致 Redlock 失效的問(wèn)題，也做了反駁：
我們重新回顧一下，Martin 提出的問(wèn)題假設(shè)：

客戶端 1 請(qǐng)求鎖定節(jié)點(diǎn) A、B、C、D、E
客戶端 1 的拿到鎖后，進(jìn)入 GC
所有 Redis 節(jié)點(diǎn)上的鎖都過(guò)期了
客戶端 2 獲取節(jié)點(diǎn) A、B、C、D、E 上的鎖
客戶端 1 GC 結(jié)束，認(rèn)為成功獲取鎖
客戶端 2 也認(rèn)為獲取到鎖，發(fā)生「沖突」

登錄/注冊(cè)后可看大圖

Redis 作者反駁到，這個(gè)假設(shè)其實(shí)是有問(wèn)題的，Redlock 是可以保證鎖安全的。
這是怎么回事呢？
還記得前面介紹 Redlock 流程的那 5 步嗎？這里再拿過(guò)來(lái)一下。

客戶端先獲取「當(dāng)前時(shí)間戳T1」
客戶端依次向這 5 個(gè) Redis 實(shí)例發(fā)起加鎖請(qǐng)求（用前面講到的 SET 命令），且每個(gè)請(qǐng)求會(huì)設(shè)置超時(shí)時(shí)間（毫秒級(jí)，要遠(yuǎn)小于鎖的有效時(shí)間），如果某一個(gè)實(shí)例加鎖失?。òňW(wǎng)絡(luò)超時(shí)、鎖被其它人持有等各種異常情況），就立即向下一個(gè) Redis 實(shí)例申請(qǐng)加鎖
如果客戶端從 3 個(gè)（大多數(shù)）以上 Redis 實(shí)例加鎖成功，則再次獲取「當(dāng)前時(shí)間戳T2」，如果 T2 - T1 < 鎖的過(guò)期時(shí)間，此時(shí)，認(rèn)為客戶端加鎖成功，否則認(rèn)為加鎖失敗
加鎖成功，去操作共享資源（例如修改 MySQL 某一行，或發(fā)起一個(gè) API 請(qǐng)求）
加鎖失敗，向「全部節(jié)點(diǎn)」發(fā)起釋放鎖請(qǐng)求（前面講到的 Lua 腳本釋放鎖）

注意，重點(diǎn)是 1-3，在步驟 3，加鎖成功后為什么要重新獲取「當(dāng)前時(shí)間戳T2」？還用 T2 - T1 的時(shí)間，與鎖的過(guò)期時(shí)間做比較？
Redis 作者強(qiáng)調(diào)：如果在 1-3 發(fā)生了網(wǎng)絡(luò)延遲、進(jìn)程 GC 等耗時(shí)長(zhǎng)的異常情況，那在第 3 步 T2 - T1，是可以檢測(cè)出來(lái)的，如果超出了鎖設(shè)置的過(guò)期時(shí)間，那這時(shí)就認(rèn)為加鎖會(huì)失敗，之后釋放所有節(jié)點(diǎn)的鎖就好了！
Redis 作者繼續(xù)論述，如果對(duì)方認(rèn)為，發(fā)生網(wǎng)絡(luò)延遲、進(jìn)程 GC 是在步驟 3 之后，也就是客戶端確認(rèn)拿到了鎖，去操作共享資源的途中發(fā)生了問(wèn)題，導(dǎo)致鎖失效，那這不止是 Redlock 的問(wèn)題，任何其它鎖服務(wù)例如 Zookeeper，都有類似的問(wèn)題，這不在討論范疇內(nèi)。
這里我舉個(gè)例子解釋一下這個(gè)問(wèn)題：

客戶端通過(guò) Redlock 成功獲取到鎖（通過(guò)了大多數(shù)節(jié)點(diǎn)加鎖成功、加鎖耗時(shí)檢查邏輯）
客戶端開(kāi)始操作共享資源，此時(shí)發(fā)生網(wǎng)絡(luò)延遲、進(jìn)程 GC 等耗時(shí)很長(zhǎng)的情況
此時(shí)，鎖過(guò)期自動(dòng)釋放
客戶端開(kāi)始操作 MySQL（此時(shí)的鎖可能會(huì)被別人拿到，鎖失效）

Redis 作者這里的結(jié)論就是：

客戶端在拿到鎖之前，無(wú)論經(jīng)歷什么耗時(shí)長(zhǎng)問(wèn)題，Redlock 都能夠在第 3 步檢測(cè)出來(lái)
客戶端在拿到鎖之后，發(fā)生 NPC，那 Redlock、Zookeeper 都無(wú)能為力

所以，Redis 作者認(rèn)為 Redlock 在保證時(shí)鐘正確的基礎(chǔ)上，是可以保證正確性的。
3) 質(zhì)疑 fencing token 機(jī)制

Redis 作者對(duì)于對(duì)方提出的 fecing token 機(jī)制，也提出了質(zhì)疑，主要分為 2 個(gè)問(wèn)題。
第一，這個(gè)方案必須要求要操作的「共享資源服務(wù)器」有拒絕「舊 token」的能力。
例如，要操作 MySQL，從鎖服務(wù)拿到一個(gè)遞增數(shù)字的 token，然后客戶端要帶著這個(gè) token 去改 MySQL 的某一行，這就需要利用 MySQL 的「事物隔離性」來(lái)做。
// 兩個(gè)客戶端必須利用事物和隔離性達(dá)到目的
// 注意 token 的判斷條件
UPDATE table T SET val = $new_val WHERE id = $id AND current_token < $token
但如果操作的不是 MySQL 呢？例如向磁盤上寫一個(gè)文件，或發(fā)起一個(gè) HTTP 請(qǐng)求，那這個(gè)方案就無(wú)能為力了，這對(duì)要操作的資源服務(wù)器，提出了更高的要求。
也就是說(shuō)，大部分要操作的資源服務(wù)器，都是沒(méi)有這種互斥能力的。
再者，既然資源服務(wù)器都有了「互斥」能力，那還要分布式鎖干什么？
所以，Redis 作者認(rèn)為這個(gè)方案是站不住腳的。
第二，退一步講，即使 Redlock 沒(méi)有提供 fecing token 的能力，但 Redlock 已經(jīng)提供了隨機(jī)值（就是前面講的 UUID），利用這個(gè)隨機(jī)值，也可以達(dá)到與 fecing token 同樣的效果。
如何做呢？

Redis 作者只是提到了可以完成 fecing token 類似的功能，但卻沒(méi)有展開(kāi)相關(guān)細(xì)節(jié)，根據(jù)我查閱的資料，大概流程應(yīng)該如下，如有錯(cuò)誤，歡迎交流~

客戶端使用 Redlock 拿到鎖
客戶端在操作共享資源之前，先把這個(gè)鎖的 VALUE，在要操作的共享資源上做標(biāo)記
客戶端處理業(yè)務(wù)邏輯，最后，在修改共享資源時(shí)，判斷這個(gè)標(biāo)記是否與之前一樣，一樣才修改（類似 CAS 的思路）

還是以 MySQL 為例，舉個(gè)例子就是這樣的：

客戶端使用 Redlock 拿到鎖
客戶端要修改 MySQL 表中的某一行數(shù)據(jù)之前，先把鎖的 VALUE 更新到這一行的某個(gè)字段中（這里假設(shè)為 current_token 字段)
客戶端處理業(yè)務(wù)邏輯
客戶端修改 MySQL 的這一行數(shù)據(jù)，把 VALUE 當(dāng)做 WHERE 條件，再修改

UPDATE table T SET val = $new_val WHERE id = $id AND current_token = $redlock_value

可見(jiàn)，這種方案依賴 MySQL 的事物機(jī)制，也達(dá)到對(duì)方提到的 fecing token 一樣的效果。
但這里還有個(gè)小問(wèn)題，是網(wǎng)友參與問(wèn)題討論時(shí)提出的：兩個(gè)客戶端通過(guò)這種方案，先「標(biāo)記」再「檢查+修改」共享資源，那這兩個(gè)客戶端的操作順序無(wú)法保證??？
而用 Martin 提到的 fecing token，因?yàn)檫@個(gè) token 是單調(diào)遞增的數(shù)字，資源服務(wù)器可以拒絕小的 token 請(qǐng)求，保證了操作的「順序性」！
Redis 作者對(duì)這問(wèn)題做了不同的解釋，我覺(jué)得很有道理，他解釋道：分布式鎖的本質(zhì)，是為了「互斥」，只要能保證兩個(gè)客戶端在并發(fā)時(shí)，一個(gè)成功，一個(gè)失敗就好了，不需要關(guān)心「順序性」。

前面 Martin 的質(zhì)疑中，一直很關(guān)心這個(gè)順序性問(wèn)題，但 Redis 的作者的看法卻不同。

綜上，Redis 作者的結(jié)論：
1、作者同意對(duì)方關(guān)于「時(shí)鐘跳躍」對(duì) Redlock 的影響，但認(rèn)為時(shí)鐘跳躍是可以避免的，取決于基礎(chǔ)設(shè)施和運(yùn)維。
2、Redlock 在設(shè)計(jì)時(shí)，充分考慮了 NPC 問(wèn)題，在 Redlock 步驟 3 之前出現(xiàn) NPC，可以保證鎖的正確性，但在步驟 3 之后發(fā)生 NPC，不止是 Redlock 有問(wèn)題，其它分布式鎖服務(wù)同樣也有問(wèn)題，所以不在討論范疇內(nèi)。
是不是覺(jué)得很有意思？
在分布式系統(tǒng)中，一個(gè)小小的鎖，居然可能會(huì)遇到這么多問(wèn)題場(chǎng)景，影響它的安全性！
不知道你看完雙方的觀點(diǎn)，更贊同哪一方的說(shuō)法呢？
別急，后面我還會(huì)綜合以上論點(diǎn)，談?wù)勛约旱睦斫狻?br /> 好，講完了雙方對(duì)于 Redis 分布鎖的爭(zhēng)論，你可能也注意到了，Martin 在他的文章中，推薦使用 Zookeeper 實(shí)現(xiàn)分布式鎖，認(rèn)為它更安全，確實(shí)如此嗎？
基于Zookeeper的鎖安全嗎

如果你有了解過(guò) Zookeeper，基于它實(shí)現(xiàn)的分布式鎖是這樣的：

客戶端 1 和 2 都嘗試創(chuàng)建「臨時(shí)節(jié)點(diǎn)」，例如 /lock
假設(shè)客戶端 1 先到達(dá)，則加鎖成功，客戶端 2 加鎖失敗
客戶端 1 操作共享資源
客戶端 1 刪除 /lock 節(jié)點(diǎn)，釋放鎖

你應(yīng)該也看到了，Zookeeper 不像 Redis 那樣，需要考慮鎖的過(guò)期時(shí)間問(wèn)題，它是采用了「臨時(shí)節(jié)點(diǎn)」，保證客戶端 1 拿到鎖后，只要連接不斷，就可以一直持有鎖。
而且，如果客戶端 1 異常崩潰了，那么這個(gè)臨時(shí)節(jié)點(diǎn)會(huì)自動(dòng)刪除，保證了鎖一定會(huì)被釋放。
不錯(cuò)，沒(méi)有鎖過(guò)期的煩惱，還能在異常時(shí)自動(dòng)釋放鎖，是不是覺(jué)得很完美？
其實(shí)不然。
思考一下，客戶端 1 創(chuàng)建臨時(shí)節(jié)點(diǎn)后，Zookeeper 是如何保證讓這個(gè)客戶端一直持有鎖呢？
原因就在于，客戶端 1 此時(shí)會(huì)與 Zookeeper 服務(wù)器維護(hù)一個(gè) Session，這個(gè) Session 會(huì)依賴客戶端「定時(shí)心跳」來(lái)維持連接。
如果 Zookeeper 長(zhǎng)時(shí)間收不到客戶端的心跳，就認(rèn)為這個(gè) Session 過(guò)期了，也會(huì)把這個(gè)臨時(shí)節(jié)點(diǎn)刪除。

登錄/注冊(cè)后可看大圖

同樣地，基于此問(wèn)題，我們也討論一下 GC 問(wèn)題對(duì) Zookeeper 的鎖有何影響：

客戶端 1 創(chuàng)建臨時(shí)節(jié)點(diǎn) /lock 成功，拿到了鎖
客戶端 1 發(fā)生長(zhǎng)時(shí)間 GC
客戶端 1 無(wú)法給 Zookeeper 發(fā)送心跳，Zookeeper 把臨時(shí)節(jié)點(diǎn)「刪除」
客戶端 2 創(chuàng)建臨時(shí)節(jié)點(diǎn) /lock 成功，拿到了鎖
客戶端 1 GC 結(jié)束，它依舊認(rèn)為自己持有鎖（沖突）

可見(jiàn)，即使是使用 Zookeeper，也無(wú)法保證進(jìn)程 GC、網(wǎng)絡(luò)延遲異常場(chǎng)景下的安全性。
這就是前面 Redis 作者在反駁的文章中提到的：如果客戶端已經(jīng)拿到了鎖，但客戶端與鎖服務(wù)器發(fā)生「失聯(lián)」（例如 GC），那不止 Redlock 有問(wèn)題，其它鎖服務(wù)都有類似的問(wèn)題，Zookeeper 也是一樣！
所以，這里我們就能得出結(jié)論了：一個(gè)分布式鎖，在極端情況下，不一定是安全的。
如果你的業(yè)務(wù)數(shù)據(jù)非常敏感，在使用分布式鎖時(shí)，一定要注意這個(gè)問(wèn)題，不能假設(shè)分布式鎖 100% 安全。
好，現(xiàn)在我們來(lái)總結(jié)一下 Zookeeper 在使用分布式鎖時(shí)優(yōu)劣：
Zookeeper 的優(yōu)點(diǎn)：

不需要考慮鎖的過(guò)期時(shí)間
watch 機(jī)制，加鎖失敗，可以 watch 等待鎖釋放，實(shí)現(xiàn)樂(lè)觀鎖

但它的劣勢(shì)是：

性能不如 Redis
部署和運(yùn)維成本高
客戶端與 Zookeeper 的長(zhǎng)時(shí)間失聯(lián)，鎖被釋放問(wèn)題

總結(jié)

好了，前面詳細(xì)介紹了基于 Redis 的 Redlock 和 Zookeeper 實(shí)現(xiàn)的分布鎖，在各種異常情況下的安全性問(wèn)題，下面做一下總結(jié)，僅供參考。
1) 到底要不要用 Redlock？
前面也分析了，Redlock 只有建立在「時(shí)鐘正確」的前提下，才能正常工作，如果你可以保證這個(gè)前提，那么可以拿來(lái)使用。
但保證時(shí)鐘正確，并不是你想的那么簡(jiǎn)單就能做到的。
第一，從硬件角度來(lái)說(shuō)，時(shí)鐘發(fā)生偏移是時(shí)有發(fā)生，無(wú)法避免。
例如，CPU 溫度、機(jī)器負(fù)載、芯片材料都是有可能導(dǎo)致時(shí)鐘發(fā)生偏移的。
第二，從實(shí)際經(jīng)歷來(lái)說(shuō)，曾經(jīng)就遇到過(guò)時(shí)鐘錯(cuò)誤、運(yùn)維暴力修改時(shí)鐘的情況發(fā)生，進(jìn)而影響了系統(tǒng)的正確性，所以，人為錯(cuò)誤也是很難完全避免的。
所以，對(duì) Redlock 的個(gè)人看法是，盡量不用它，而且它的性能不如單機(jī)版 Redis，部署成本也高，我還是會(huì)優(yōu)先考慮使用主從+ 哨兵的模式實(shí)現(xiàn)分布式鎖。
那正確性如何保證呢？第二點(diǎn)給你答案。
2) 如何正確使用分布式鎖？
在分析 Martin 觀點(diǎn)時(shí)，它提到了 fecing token 的方案，給我了很大的啟發(fā)，雖然這種方案有很大的局限性，但對(duì)于保證「正確性」的場(chǎng)景，是一個(gè)非常好的思路。
所以，我們可以把這兩者結(jié)合起來(lái)用：
1、使用分布式鎖，在上層完成「互斥」目的，雖然極端情況下鎖會(huì)失效，但它可以最大程度把并發(fā)請(qǐng)求阻擋在最上層，減輕操作資源層的壓力。
2、但對(duì)于要求數(shù)據(jù)絕對(duì)正確的業(yè)務(wù)，在資源層一定要做好「兜底」，設(shè)計(jì)思路可以借鑒 fecing token 的方案來(lái)做。
兩種思路結(jié)合，對(duì)于大多數(shù)業(yè)務(wù)場(chǎng)景，已經(jīng)可以滿足要求了。

-----------------------------

帳號(hào)		自動(dòng)登錄	找回密碼
密碼			立即注冊(cè)