2021年11月,中國信通院發(fā)布國內(nèi)首個《中國混沌工程調(diào)查報告》,基于混沌工程業(yè)界現(xiàn)狀,探索并提升國內(nèi)云業(yè)務系統(tǒng)穩(wěn)定性。作為對外輸出混沌工程能力的先行者,京東云加入信通院成立的國內(nèi)首個混沌工程實驗室,參與混沌工程標準編寫,并貢獻了混沌工程的最佳實踐。
今年首次開啟“晚8點”模式的京東11.11,迎來持續(xù)脈沖式流量高峰,對系統(tǒng)在持續(xù)高壓環(huán)境下的穩(wěn)定性有極高要求。借助領先的混沌工程能力,京東云不僅以超高彈性應對海量并發(fā),保障流量高峰的平穩(wěn)順滑,還推進技術備戰(zhàn)常態(tài)化、自動化,減少25%的備戰(zhàn)時間和人力投入。
搞破壞,混沌工程的穩(wěn)定之道
“系統(tǒng)越復雜,越脆弱”。企業(yè)在數(shù)字化轉(zhuǎn)型中擁抱云計算、大數(shù)據(jù)、AI等新技術的同時,容易出現(xiàn)系統(tǒng)架構復雜度拉升、調(diào)用鏈增長、依賴關系復雜等問題。混沌工程被認為是檢驗、增強系統(tǒng)穩(wěn)定性的不二選擇。
混沌工程為揭示系統(tǒng)缺陷而進行破壞性試實驗,提前探知系統(tǒng)風險,通過架構優(yōu)化和運維模式改進來解決系統(tǒng)風險,真正建立系統(tǒng)的韌性架構,降低企業(yè)損失。
在混沌工程的理論中,將正常的系統(tǒng)數(shù)據(jù)假設為“穩(wěn)定狀態(tài)”,參照真實環(huán)境的多類型事件注入故障,如服務器崩潰、硬盤故障、網(wǎng)絡連接斷開等,并直接面向生產(chǎn)環(huán)境的實際流量進行破壞性實驗。通過“穩(wěn)定狀態(tài)”的變化來反駁假設,發(fā)現(xiàn)并修復問題。
在實施過程中破壞系統(tǒng)穩(wěn)定狀態(tài)的難度越大,即可對系統(tǒng)穩(wěn)定性樹立更強的信心。一旦發(fā)現(xiàn)缺陷,就能定向優(yōu)化改進,避免在系統(tǒng)規(guī)模化后缺陷被放大。
不同于業(yè)界熟知的故障注入測試,混沌工程不僅制造故障來測試系統(tǒng)反饋,還基于不可預知性模擬各類異常場景,進行生產(chǎn)上各層次的流量切換演練。
自從Netflix開源Chaos Monkey,混沌工程在全球多家頂級科技企業(yè)的實踐,充分驗證其在穩(wěn)定性領域的作用。伴隨云服務逐漸成為基礎設施,穩(wěn)定性被不斷強調(diào),混沌工程正在憑借“搞破壞”的工程理念成為云服務的穩(wěn)定之道。
助力企業(yè)引入混沌工程,京東云推出穩(wěn)定性主動管理系統(tǒng)云泰
京東云在多年的京東618、京東11.11磨練中,成為混沌工程的實踐者和受益者,從單業(yè)務場景故障到整機房斷電宕機……京東云順利通過各類超「變態(tài)」場景考驗。
基于京東體系多年積累的混沌工程能力,京東云沉淀出穩(wěn)定性主動管理系統(tǒng)——云泰,對外輸出可見、可查、可管、可控的穩(wěn)定性解決方案,提供穩(wěn)定性主動測算、故障注入與演練、全鏈路壓測、紅藍對抗和基于“穩(wěn)定性基線”的評分服務等核心功能。
通過穩(wěn)態(tài)監(jiān)控功能,云泰可保持對核心資源、服務的數(shù)據(jù)觀測,支持完成主動測算系統(tǒng)穩(wěn)定性,從實時和周期性完成健康度、異常趨勢及SLI可用性測算,到實時感知突發(fā)事件和異常事件,快速定位系統(tǒng)故障等日常需求,云泰系統(tǒng)都全面覆蓋。
同時云泰系統(tǒng)的故障注入與演練功能,支持引入指定的演練對象后,在演練大廳選擇故障類型、編排演練場景,定時執(zhí)行故障演練,并通過對關聯(lián)業(yè)務、基礎資源等對象“穩(wěn)定狀態(tài)”的實時監(jiān)控,快速完成故障定位,檢驗系統(tǒng)的穩(wěn)定性能。
相比手動演練易出現(xiàn)操作故障、不可重復執(zhí)行、無歷史記錄等問題,云泰的演練平臺不僅設有種類豐富的故障,可高效完成場景編排,還能自動、定時、重復執(zhí)行,并結合實時監(jiān)控、實時定位和完善的歷史記錄幫助全面探索系統(tǒng)穩(wěn)定性。
針對傳統(tǒng)性能測試經(jīng)濟成本高、技術難度大、測試周期長的痛點,云泰系統(tǒng)內(nèi)置了全鏈路壓測平臺,壓測集群支持百萬級并發(fā),且能按需、實時擴容,其高性能、低成本、可擴展和支持復雜場景的特性,可以為多個行業(yè)提供優(yōu)質(zhì)的性能測試服務,尤其是海量高并發(fā)、波峰波谷現(xiàn)象明顯的電商、游戲等領域。
全面輸出,京東云服務產(chǎn)業(yè)數(shù)字化
作為京東集團面向政企客戶輸出技術的核心平臺,京東云致力于打造“更懂產(chǎn)業(yè)的云”,運用京東數(shù)智化實戰(zhàn)中積累的技術能力,助力產(chǎn)業(yè)數(shù)字化升級。
以戰(zhàn)養(yǎng)戰(zhàn),混沌工程不僅在京東內(nèi)部廣泛應用,也在持續(xù)對外輸出,推進提升產(chǎn)業(yè)數(shù)字化過程中的系統(tǒng)穩(wěn)定性。
以2021年服貿(mào)會為例,京東云再度作為官方技術服務商,提供數(shù)智化技術支持與運營服務保障,繼助力打造全球聞名的“永不落幕服貿(mào)會”后,驅(qū)動展客商體驗全面升級。服貿(mào)會開幕前,京東云正是基于混沌工程,在6個場景下對直播、2D、3D、官網(wǎng)、智能推薦和預約購票等多個子系統(tǒng)的部署情況進行故障模擬,完成破壞性演練工作,保障服貿(mào)會相關系統(tǒng)的穩(wěn)定性和高可用。
在云服務成為產(chǎn)業(yè)數(shù)字化基礎設施的當下,作為最懂產(chǎn)業(yè)的云,京東云將繼續(xù)積極參與混沌工程實驗室項目,為普及混沌工程貢獻有生力量,同時持續(xù)輸出京東云的混沌工程成功經(jīng)驗,助力產(chǎn)業(yè)數(shù)字化過程中IT系統(tǒng)穩(wěn)定性的持續(xù)提升。