Redis縮容導致線上大規模故障的慘痛經歷-異常彙總-CodeUp Hub

簡述

唉，小趴菜我最近又犯事了，怎麼會是捏？
事情是這樣的，618後業務量回落，業務應用大量縮容，Redis叢集呢也要跟著縮容，但是在晚上22:00進行縮容運維操作的時候，突然導致業務訪問Redis大規模超時，此後經過重啟短暫恢復，但又在凌晨00:00到01:30再次觸發大規模Redis訪問故障，當我收到業務的電話轟炸和告警通知時，人已經麻了。。
痛定思痛，總結下來我覺得這次故障還是比較有價值的，至少是自己接手Redis以來的第一次大規模事故（痛心ing，績效沒了），下面就開始講述這一次我遭遇的血的教訓！

故障時間線

伏筆

在正式開始之前，我先埋一個伏筆。😀
在618開始之前，爲了應對業務高峰而擴容了Redis叢集，最多的Redis叢集機器數量超過100多個，這時由於叢集規模過大，因而發生了cluster nodes慢查詢的問題，爲了排查這個問題，我在一個叢集裡手動加入了兩個新節點用於測試Redis6對cluster nodes命令的最佳化，我成功完成了驗證Redis6確實有效，但今天的主題不是這個。。
一般來說加入新節點都是透過我們開發的web端Redis管理平臺加入的，但誰能想到這次手動加入卻成爲了十幾天後這次故障的伏筆...

第一次故障

時間	現象描述
22:31:00	縮容時需要將資料從待下線節點遷移到叢集內其他節點上，這時資料遷移完成
22:35:00	停止從節點的Redis程序
22:39:00	開始下線第一個主節點，這時業務開始報錯！

第一次故障的現象是下線第一個主節點後業務開始報錯，具體報錯是超時報錯，由於Redis縮容導致短暫的快取訪問超時是預期內的，決定先觀察再決定後續操作。
但觀察1min後異常仍然沒有停止的跡象，爲了及時止損，先手動重啟（第二個伏筆）了這臺下線的主節點Redis程序，此時業務異常恢復。
鬆了一口氣的我正要排查原因時，突然業務反饋Redis查詢99線變高了！我一開始還不信，親自確認後發現確實999線達到了100多ms，平時這個時間最多2ms。

所以原因是什麼呢？

我一時半會沒想到😢，聯絡了組內其他同事一起看，也沒有找到原因，因此決定將叢集完全恢復到縮容之前的狀態。。。

第二次故障

沒錯，只要恢復到縮容之前的狀態一切都會好起來的！👌

於是我們先決定將資料遷移回那些準備下線的Redis主節點上，我們在內部的Redis管理端操作遷移。但是一遷移問題就出現了，**又是大量業務報錯，甚至比第一次更多！**看到CAT上大量的紅盤我的心拔涼拔涼的。。。

我們緊急停止了遷移，但是報錯竟然沒有停止，還在瘋狂報錯，分析具體報錯發現不是超時報錯，而是MOVED異常，和之前的 MOVED異常不同，這次報錯的量很多，而且停止遷移後仍然在報錯。

進一步分析發現MOVED異常是有規律的，具體來說基本上集中在兩個ip,slot是10234，假設這兩個ip分別為ip1和ip2，那麼報錯就類似於：

moved ip1 10234 moved ip2 10234

我們立即檢視了到這兩個ip上檢視叢集拓撲（透過cluster nodes命令），果然發現了問題，在ip1上檢視10234的歸屬確實是ip2，然而在ip2上檢視10234的歸屬竟然是：

86107b968a281aedbcddd9267b53dfb4bcaadee4 ip2:6379@16379 myself,master - 0 1716880618000 80 connected ... [10234-<-9a1be71bd5699ecb62b4308212ba1363ea72020f]
9a1be71bd5699ecb62b4308212ba1363ea72020f ip1:6379@16379 myself,master - 0 1716880619167 74 connected ...

原來如此！在ip2上檢視10234的狀態竟然是遷移中！
而且源節點就是ip1，那麼怪不得有報錯了：只要查詢10234上的key的請求，大部分都會路由到ip2，但是ip2又會返回MOVED ip1，然後客戶端再訪問ip1，ip1又重定向到ip2，如此迴圈，超過5次（Lettuce的預設配置）就會報錯。😵

那麼問題來了，為什麼slot的狀態不對呢？

這時候我們沒有時間詳細排查，業務全炸了（(⊙﹏⊙)還好是半夜）
所以我們透過在ip2上執行cluster setslot命令先將10234的歸屬設定為自己，然後再觀察業務報錯，果然在執行命令之後全部恢復了。終於鬆了一口氣，但是當我們確認業務訪問Redis的999線是否正常時，居然又給我當頭一棒：業務的999線仍然沒有恢復，還是超過100ms！

這時我終於傻了，為什麼呀？😂

999線仍然很高的原因是什麼？

在檢視cluster nodes命令輸出時發現一個盲點：我們發現了已經下線的從節點仍然在cluster nodes的輸出中，而且狀態是handshake！為什麼已經下線的節點還會出現在叢集拓撲中呢？

來不及細想，我們懷疑這很可能就是999線升高的原因，懷著瞎貓碰著死耗子的心態，我重啟了已經下線的從節點程序，然後奇蹟發生了，999線居然真的恢復了！！！

歷時3個小時，從22：30開始的故障持續到1：20，心力交瘁的我仍然無法入睡，比起明天來自領導的質問，此時縈繞在我心頭的是兩個問題：

為什麼999線會升高？handshake狀態的節點會和這有關係嗎？
為什麼遷移slot的時候會出現slot分佈不一致的情況？

事後分析

slot分佈不一致的原因

冥思苦想得不出結果，我重新梳理了slot遷移的各個步驟：

首先要在源節點上設定slot的狀態為migrating，在目標節點上設定slot的狀態為importing
開始遷移，使用migrate命令
遷移完成，給所有叢集中的master節點發送cluster setslot {slot} node {nodeId}，這裏的nodeId就是目標節點的slotId，這個命令的目的是確立slot的最終歸屬

好的回到我們的問題，為什麼會出現第二次故障時，目標節點的slot狀態不對？

這就到了伏筆二出場的時刻了，還記得當初是怎麼重啟下線的主節點的？手動！ 為什麼手動會出現問題？

因為我們是在管理端操作遷移的，管理端會自動進行上述1~3步驟命令的傳送，但是卻沒有給手動重啟的節點發送！因為出手動重啟的節點已經在管理端下線，只是手動重啟導致管理端並不知道節點已經重啟了，傳送setslot命令並沒有傳送給出問題的節點！所以導致slot的狀態一直沒有更新。。

好的，第二個問題的解釋如此蒼白，但總算有了解釋！

現在來分析第一個問題：為什麼999線會升高？ handshake狀態的節點會和這有關係嗎？這其實是兩個問題，我們分開來說。

handshake狀態的節點從哪來的？

首先解釋為什麼會出現handshake狀態的節點？

handshake節點是剛加入到叢集的狀態，還沒有完成ping-pong的互動，而且進一步細看，這些節點全部都是已經下線的從節點！

我再次確認了從節點上已經沒有Redis程序了，可為什麼已經下線的從節點還會出現叢集中？

首先我們要了解Redis叢集節點下線需要做什麼：

如果是主節點，需要將其擁有的slot遷移到其他節點，然後對叢集內其他節點執行cluster forget {nodeId}
如果是從節點，則對叢集內其他節點直接執行cluster forget {nodeId}

注意“對叢集內其他節點直接執行cluster forget”這個動作需要在60s內傳送完成，其原因是：

當節點接收到CLUSTER FORGET node-id命令後，會把node-id指定的節點加入到禁用列表中，在禁用列表內的節點不再發送Gossip訊息。禁用列表有效期為60秒，超過60秒節點會再次參與訊息交換。也就是說第一次forget命令發出後，需60秒內在叢集各節點上執行forget命令

所以為什麼會出現handshake？

這個問題隨著slot遷移不一致問題的解決也得到了提示，這時是時候揭曉伏筆一了：之前我沒有透過管理端而是手動新增了兩個節點到叢集中！

那麼這兩個節點肯定沒有接收到cluster forget命令！導致其在叢集內部不斷傳播這兩個節點的gossip訊息。

完了嗎？還沒有！

999線升高的原因

好的handshake的問題解決了，可為什麼業務訪問999線會升高呢？

這裏我詳細觀察了業務訪問Redis耗時變高的時間點正好和叢集內部cluster nodes命令突然變高的時間點吻合！
而且cluster nodes命令呈現出週期性尖刺的形式！那也就是說很可能是業務客戶端在同一時間呼叫cluster nodes命令造成Redis短時間阻塞，但為什麼cluster nodes變得頻繁了？

cluster nodes是Lettuce客戶端用來重新整理叢集拓撲的命令，而觸發叢集拓撲重新整理有幾個條件：

拓撲重新整理機制	觸發時機	約束條件
onAskRedirection	執行 Redis 命令時候，Key 所在 SLOT 正在遷移資料	預設 30 秒內已經重新整理過，則跳過重新整理
onReconnectAttempt	ConnectionWatchdog 監聽到 channelInactive，立即觸發延遲重連，預設最多重連 5 次延遲提交機制
onUncoveredSlot	客戶端建立 Redis 連線時，找不到 SLOT 或者 Host/Port 對應的 partition 資訊

對於第一個“執行 Redis 命令時候，Key 所在 SLOT 正在遷移資料”這個不太可能，因為即使不再遷移資料999線還是升高。
第三個onUncoveredSlot，當時並沒有出現找不到Slot或者Slot未找到對應Redis節點。

而注意第二個：“ConnectionWatchdog 監聽到 channelInactive，立即觸發延遲重連，預設最多重連 5 次延遲提交機制”，這個是最有可能的，因為在我下線從節點的時候其實999線就已經升高了，而在我們恢復從節點後999線就恢復了。

所以事情是這樣的。。。

從節點下線，業務機器和從節點之間的連線斷開，大部分叢集內部節點都forget了從節點，但是還有兩個節點沒有forget
Lettuce觸發叢集拓撲重新整理（我們配置的是60s重新整理一次）
兩個沒有forget的節點仍然在叢集中傳播已經下線的節點資訊，體現在cluster nodes命令中就是那些handshake的節點
Lettuce獲取的叢集拓撲仍然包含handshake節點，依然會不斷觸發拓撲重新整理 5.大量cluster nodes集中在某一個時間點，Redis短暫阻塞，導致業務查詢出現999升高

經驗總結

不要線上上做任何黑屏操作！

這次出現的故障都是由於手動操作導致的！其他要注意的點有：

節點下線要保證在1min內傳送cluster forget命令到所有節點上
cluster nodes導致慢查詢的最佳化

希望大家遇到此類問題時，不要慌，相信一定有解決的辦法，當然最好還是提前準備好預案，線上謹慎操作吧！祝大家工作愉快

Redis縮容導致線上大規模故障的慘痛經歷

簡述

故障時間線

伏筆

第一次故障

第二次故障

事後分析

slot分佈不一致的原因

handshake狀態的節點從哪來的？

999線升高的原因

經驗總結

相關推薦

微服務中token鑑權設...

用 Docker 一鍵部...

解決：Error loa...

記錄 log4j 日誌列...

vue-cli專案異常-...

TypeScript報錯...

0則評論