放在物理世界,搬家從來都是一件復(fù)雜的事,而數(shù)字世界的搬家,其難度更甚。 一家大型工廠搬家,需要暫停一切業(yè)務(wù)生產(chǎn),從前期的打包設(shè)備,到搬遷上路,再到新址裝配機(jī)器,調(diào)試之后再行生產(chǎn),往往歷時(shí)數(shù)月之久,且往往可能出現(xiàn)各種意外,導(dǎo)致原本的預(yù)計(jì)時(shí)間持續(xù)后延。 一家IT企業(yè)的業(yè)務(wù)搬遷,其面臨的難度在于,搬遷過程中“不停服”,在保障業(yè)務(wù)高可用的情況下,實(shí)現(xiàn)數(shù)據(jù)、業(yè)務(wù)系統(tǒng)、平臺(tái)應(yīng)用的無縫銜接,做到外界無感知。這就要求搬遷的時(shí)間必須足夠短,搬遷方案足夠完善,以及整個(gè)保障流程足夠順暢,對服務(wù)商的技術(shù)產(chǎn)品能力、運(yùn)營保障能力以及協(xié)調(diào)能力提出了極高的要求。 近日,達(dá)達(dá)集團(tuán)旗下達(dá)達(dá)快送成功實(shí)現(xiàn)全量業(yè)務(wù)遷移到京東云上。數(shù)萬核計(jì)算資源、數(shù)百TB存儲(chǔ)數(shù)據(jù),在不停服的情況下跨云遷,其難度,不亞于將一座工廠原封不動(dòng)從上海搬到北京,并且要求不能有絲毫差錯(cuò)。因?yàn)椴煌谖锢硎澜缈山邮艿暮侠砥睿瑪?shù)字世界的一絲一毫謬誤,萬分之一的錯(cuò)誤,都將產(chǎn)生不可估量的巨大損失。 達(dá)達(dá)此次跨云遷移,可以說為整個(gè)業(yè)界提供了一次難得的實(shí)踐觀察機(jī)會(huì),除了得以一窺數(shù)字世界的搬遷是如何進(jìn)行的,也有助于讓有意于跨云遷移的企業(yè),吃下一顆定心丸。隨著企業(yè)自身業(yè)務(wù)持續(xù)發(fā)展,選擇服務(wù)更優(yōu)、成本更低、效率更高的云服務(wù)商,將是永恒的話題,而達(dá)達(dá)成功的跨云遷移,足以讓更多企業(yè)打消顧慮,走上云上的遷徙之路。 接下來,我們從備戰(zhàn)、布陣、決戰(zhàn)和戰(zhàn)后四個(gè)階段,來看看達(dá)達(dá)此次搬遷,面臨的難點(diǎn),以及對應(yīng)的解決方案。 備戰(zhàn):兵馬未動(dòng),糧草先行 李保平是京東云的技術(shù)工程師,在訪談中,他表示,2月16日的下午2點(diǎn)左右,小組長告訴他們:來了個(gè)大活——達(dá)達(dá)準(zhǔn)備全量遷移到京東云。末了又加了一句,兄弟們好好干,項(xiàng)目完了boss要請我們喝酒。 那時(shí)剛剛過完春節(jié),很多人還沒從假期綜合征中緩和過來,而這個(gè)春節(jié)沒有回家。這一年,京東成為2022年央視春晚獨(dú)家互動(dòng)合作伙伴,面向全國人民發(fā)出了價(jià)值15億的紅包和好物,他作為技術(shù)工程師,與2000多名技術(shù)人員一起參與了除夕當(dāng)晚的一線值守,保障了春晚活動(dòng)的順利進(jìn)行。 對技術(shù)人最好的嘉獎(jiǎng),就是為他們準(zhǔn)備一場盛大的“戰(zhàn)役”。其實(shí)之前達(dá)達(dá)已經(jīng)將大量業(yè)務(wù)放在京東云上,這次聽說達(dá)達(dá)要全量遷移到京東云,還沒從午休的混沌中清醒過來的李保平瞬間來了勁頭,在內(nèi)里感慨了句:大項(xiàng)目??! 他知道,達(dá)達(dá)快送作為中國領(lǐng)先的本地即時(shí)配送平臺(tái),業(yè)務(wù)覆蓋全國2700多個(gè)縣區(qū)市,一年要送出十幾億個(gè)訂單,幾乎相當(dāng)于給全國人民每人送一次。而人們選擇達(dá)達(dá)配送的,往往都是著急要用的東西,送病歷、送電腦、送著急簽署的文件等等。作為背后支撐的IT系統(tǒng),在此時(shí)顯得尤為重要,如果因?yàn)槌霈F(xiàn)系統(tǒng)故障導(dǎo)致平臺(tái)不可用,哪怕僅僅5分鐘,都將給用戶帶來非常大的損失,想到這里,他內(nèi)心除了興奮,也有了沉甸甸的責(zé)任。 “達(dá)達(dá)全量遷移”項(xiàng)目啟動(dòng)會(huì)也在隨后緊鑼密鼓召開,這是一場涉及內(nèi)部的商務(wù)、售前、技術(shù)交付、產(chǎn)研、基研等各團(tuán)隊(duì),以及客戶側(cè)多團(tuán)隊(duì)緊密配合的攻堅(jiān)戰(zhàn),涉及數(shù)萬核計(jì)算資源、數(shù)百TB存儲(chǔ)資源的遷移,包括云主機(jī)、云盤、數(shù)據(jù)庫、網(wǎng)絡(luò)等云服務(wù)資源,以及計(jì)費(fèi)系統(tǒng)、物流系統(tǒng)、流量分發(fā)等系統(tǒng)資源的調(diào)優(yōu)適配,需要確保整個(gè)項(xiàng)目人員的協(xié)同配合。 很快,項(xiàng)目分工表給出來,項(xiàng)目計(jì)劃表也劃定出了節(jié)點(diǎn)和任務(wù)編排。 按照項(xiàng)目排期,整個(gè)項(xiàng)目劃分為四個(gè)大階段(準(zhǔn)備階段、部署階段、遷移階段、割接保障階段),從當(dāng)前到2月下旬是準(zhǔn)備階段,接著到3月底是部署階段,然后是半個(gè)月左右的正式遷移階段,到4月18日前實(shí)現(xiàn)交割保障,正式完成整個(gè)遷移工作。 這樣確保達(dá)達(dá)能夠在預(yù)留出2個(gè)月的時(shí)間,為參與年度的618大促,提前進(jìn)行演練、壓測。 布陣:運(yùn)籌帷幄,決勝千里 IT業(yè)務(wù)的跨云遷移,是一個(gè)復(fù)雜的系統(tǒng)工程,要充分考慮技術(shù)可行性、終端用戶體驗(yàn)以及遷移成本三個(gè)關(guān)鍵因素,為了業(yè)務(wù)穩(wěn)定性和連貫性,大部分企業(yè)都會(huì)選擇分批次、分階段的逐步遷移。 達(dá)達(dá)遷移到京東云,也經(jīng)歷了長達(dá)3年多的漫長的過程。從最早的以京東云為輔,僅使用數(shù)據(jù)庫以及算力;到中期通過雙活架構(gòu),在京東云與其他云廠商靈活切換,并逐漸將更多業(yè)務(wù)量放在京東云;到此次全量切到京東云,全部使用京東云的產(chǎn)品和服務(wù)??梢哉f,正是李保平和同事們數(shù)年來堅(jiān)持不懈地踐行“以客戶為中心”,才能有今天客戶的信任,愿意把身家性命托付在京東云之上。 跨云遷移是一場沒有硝煙的戰(zhàn)爭,正式遷移前的排兵布陣優(yōu)劣,直接決定了戰(zhàn)場的勝負(fù)成敗,某一個(gè)鏈條的疏忽,可能造成全盤皆輸。 針對此次達(dá)達(dá)快送的全量遷移,京東云和達(dá)達(dá)團(tuán)隊(duì)制定了周密的方案和機(jī)制,來確保遷移的順利進(jìn)行。 首先是人員協(xié)同。雙方各自成立了項(xiàng)目組,并確定了例會(huì)制度,項(xiàng)目進(jìn)展每周面向項(xiàng)目組全員及時(shí)通報(bào),有問題第一時(shí)間開會(huì)解決,從人員層面確保了商務(wù)、售前、技術(shù)交付、產(chǎn)研、基研等各團(tuán)隊(duì)人員各司其職,有機(jī)協(xié)同。 其次是遷移方案。業(yè)務(wù)的跨云遷移工作主要包含應(yīng)用遷移與數(shù)據(jù)遷移,因?yàn)榭缭频漠悩?gòu)性,遷移前需進(jìn)行充分的調(diào)研并制定完備的實(shí)施方案,其中會(huì)涉及大量應(yīng)用改造、數(shù)據(jù)遷移、遷移腳本、遷移自動(dòng)化工具及繁瑣的人工操作,并且通常會(huì)針對于不同應(yīng)用場景規(guī)劃不同的遷移方式。 隨著項(xiàng)目各項(xiàng)準(zhǔn)備工作緊鑼密鼓開展起來,李保平和同事們也快速忙碌起來了。制定Redis遷移方案,制定QA環(huán)境下MySQL遷移方案,加速預(yù)熱鏡像部署,Redis同步集群測試和工具資源預(yù)估,MySQL數(shù)據(jù)同步和遷移時(shí)間預(yù)估,進(jìn)行專線高可用測試保障遷移網(wǎng)絡(luò)穩(wěn)定,壓測資源開通保障等等,各類前期準(zhǔn)備工作有條不紊快速推進(jìn)著。 再次是商議遷移過程中可能出現(xiàn)問題的應(yīng)對方案,以及遷移結(jié)束后的測試交割等等。如商討如何確保當(dāng)晚一次性完成流量平滑切換,需要京東和達(dá)達(dá)一起制定好方案。 因?yàn)闃I(yè)務(wù)不能中斷,遷移過程中也要保證服務(wù)的高可用性,對于前期的準(zhǔn)備,李保平打了一個(gè)形象的比喻:達(dá)達(dá)此次的跨云遷移,相當(dāng)于把一輛高速行駛的汽車上的乘客,換乘到另一輛高速行駛的汽車上,根據(jù)運(yùn)動(dòng)相對論,兩輛汽車速度一致視為相對靜止,這樣乘客就可以平滑地從一輛車換到另一輛車上。京東云此次提供的就是這種平滑的換車服務(wù),雖然外面看起來驚心動(dòng)魄,但經(jīng)過周密的計(jì)劃和詳盡的準(zhǔn)備,給客戶提供了拎包入住的一站式體驗(yàn)。 決戰(zhàn):善戰(zhàn)者無赫赫之功 兵法講,“善戰(zhàn)者無赫赫之功,故善者之戰(zhàn),無奇勝,無智名,無勇功”。 這句話的意思是,善于打仗的人沒有什么顯赫的功勞,他們打仗不需要用奇謀,也不會(huì)被人們稱其聰明,他們好像平平常常就取得了勝利,一點(diǎn)不像人們想象中的那么激烈勇猛。 放在“達(dá)達(dá)快送全量遷移至京東云”這一項(xiàng)目中,對項(xiàng)目組而言也是如此。因?yàn)榍捌诘某渥銣?zhǔn)備和詳盡謀劃,考慮到了各種可能的意外情況和問題,等到真正遷移時(shí),反倒大家沒那么緊張了。 時(shí)間回到正式遷移前三天,項(xiàng)目牽頭人發(fā)出郵件:今天晚上22:00是達(dá)達(dá)4年以來遷移的最重要時(shí)間點(diǎn),21:00前請給出今天晚上達(dá)達(dá)整站遷移相關(guān)產(chǎn)品standby專家名單,并且需要發(fā)給客戶相關(guān)負(fù)責(zé)人,以最快的效率解決客戶問題。經(jīng)歷過多次大項(xiàng)目的李保平知曉,這是吹響決戰(zhàn)前的沖鋒號了。 正式遷移日期轉(zhuǎn)瞬即至,項(xiàng)目牽頭人再度發(fā)出郵件:達(dá)達(dá)切量所涉及的IaaS、網(wǎng)絡(luò)、專線、Redis遷移、數(shù)據(jù)庫DBA等保障團(tuán)隊(duì)及保障工作上周已經(jīng)拉通和準(zhǔn)備完畢,并已在內(nèi)部群同步過給大家,值班表也同步給客戶側(cè)運(yùn)維負(fù)責(zé)人,今天晚上技術(shù)服務(wù)和產(chǎn)研團(tuán)隊(duì)將會(huì)密切關(guān)注客戶側(cè)的切量進(jìn)展確保切量成功,有問題隨時(shí)聯(lián)系,感謝各團(tuán)隊(duì)的支持。 接下來是正式遷移。數(shù)萬核計(jì)算資源、數(shù)百TB存儲(chǔ)數(shù)據(jù),將全量切換到京東云上。 因?yàn)榍捌诤瓦_(dá)達(dá)團(tuán)隊(duì)的緊密溝通,以及充分的準(zhǔn)備工作,整個(gè)遷移過程有驚無險(xiǎn),即使有些小問題,也很快解決了。如在進(jìn)行Redis遷移過程中,出現(xiàn)了部分業(yè)務(wù)無法遷移的狀況,經(jīng)雙方緊急排查后,發(fā)現(xiàn)達(dá)達(dá)的代碼中對集群存在事務(wù)性使用,是一個(gè)非標(biāo)準(zhǔn)化操作,對此,雙方第一時(shí)間定位到代碼,迅速組織了修改,確保了整個(gè)遷移的正常進(jìn)行。 兩天之后,小組長告訴李保平:達(dá)達(dá)全量遷移至京東云已經(jīng)順利完成了。 用李保平的話來講,整個(gè)過程出乎意料地順利,值守中途他甚至一度想拿起手機(jī)去“王者峽谷”遨游一番,但看看周圍同事們都在聚精會(huì)神關(guān)注各種數(shù)據(jù)指標(biāo)和遷移進(jìn)度,他就還是放下了手機(jī)。 就像項(xiàng)目負(fù)責(zé)人事后總結(jié)所言:感謝各位領(lǐng)導(dǎo)和同事的不懈努力,沒有資源和系統(tǒng)的穩(wěn)定性,沒有各團(tuán)隊(duì)的合力協(xié)作和鼎力相挺,遷移就是空中樓閣,善戰(zhàn)者無赫赫之功! 戰(zhàn)后:嚴(yán)陣以待,有備無患 達(dá)達(dá)一端連接著2700多個(gè)縣區(qū)市的幾千萬用戶和幾十萬商家,一端連接著數(shù)十萬的達(dá)達(dá)騎士,承擔(dān)起了將大量訂單第一時(shí)間送到用戶手中的重任,為過生日的用戶送去了蛋糕,為過紀(jì)念日的女生送去了玫瑰花,也為疫情中無數(shù)的家庭送去了溫暖和愛心。 雖然此次全量遷移已經(jīng)結(jié)束,但京東云的技術(shù)人員們?nèi)栽诿β抵?,因?yàn)橐涣硕嗑茫?span lang="EN-US">“520大促”就要來了。這一互聯(lián)網(wǎng)上興起的“網(wǎng)絡(luò)情人節(jié)”,根據(jù)往年經(jīng)驗(yàn),屆時(shí)將會(huì)有大量集中的送單需求,這也將是達(dá)達(dá)全量業(yè)務(wù)跑在京東云上之后,第一次接受大規(guī)模業(yè)務(wù)場景驗(yàn)證,計(jì)算資源儲(chǔ)備、業(yè)務(wù)擴(kuò)容等等工作也在進(jìn)行中。 而再過一個(gè)月,將迎來618購物季,屆時(shí)流量暴漲,面對峰值日配送單量可能超千萬單的流量洪峰,對于達(dá)達(dá)業(yè)務(wù)體系,也將是一次新的考驗(yàn)。 此前,京東云為達(dá)達(dá)搭建了多云雙活架構(gòu),實(shí)現(xiàn)倉揀配各個(gè)環(huán)節(jié)數(shù)個(gè)系統(tǒng)之間的高可用性,將算力和存儲(chǔ)需求全部遷移至云上,從而實(shí)現(xiàn)計(jì)算資源高彈性、成本壓縮與業(yè)務(wù)穩(wěn)定,保證整體可用性提高到99.995%。讓達(dá)達(dá)向公有云遷移的過程中,對原有的技術(shù)架構(gòu)進(jìn)行全面梳理與革新,完成與京東到家、京東物流業(yè)務(wù)系統(tǒng)打通,實(shí)現(xiàn)傳統(tǒng)架構(gòu)向云原生體系的升級。 基于京東云4條裸纖承載多云之間的數(shù)據(jù)傳輸服務(wù),實(shí)現(xiàn)雙活架構(gòu)的穩(wěn)定與高可用性,確保了大數(shù)據(jù)的高效遷移,也更好地支持了通過同步工具實(shí)現(xiàn)雙向數(shù)據(jù)的實(shí)時(shí)同步,滿足用戶的秒級延遲要求。此外,針對達(dá)達(dá)的計(jì)算需求,京東云提供了高可用組服務(wù),更好地滿足資源的彈性和高可用性要求,并利用原生容器POD滿足達(dá)達(dá)對資源秒級啟動(dòng)的需求。 此次,隨著達(dá)達(dá)全量業(yè)務(wù)遷移到京東云,相信經(jīng)歷過多年京東全場景業(yè)務(wù)及618、11.11等萬億級流量洪峰考驗(yàn)的京東云,將高效支撐起達(dá)達(dá)全量業(yè)務(wù),在提升效率的同時(shí),充分發(fā)揮云計(jì)算的彈性和高可靠性,為達(dá)達(dá)大幅降低成本,極大提升達(dá)達(dá)“倉揀配”全鏈路即時(shí)履約服務(wù)的數(shù)智化能力。 后記 外界評價(jià)曾國藩帶兵打仗是“結(jié)硬寨,打呆仗”,貌似規(guī)規(guī)矩矩,自然而然就勝利了,但其背后體現(xiàn)出的精密計(jì)算與豐富經(jīng)驗(yàn),才是真正厲害的地方。表面上看起來的的順利,絕不是偶然,而是趟過無數(shù)次暗礁險(xiǎn)灘,最終才能游刃有余。 此次達(dá)達(dá)全量遷移,如果用一句話來概括,可以用“善戰(zhàn)者無赫赫之功,善醫(yī)者無煌煌之名”。可以說,京東云完善的搬遷方案、順暢的運(yùn)營保障流程、高效的人員協(xié)同,以及對客戶業(yè)務(wù)場景的深刻理解,為達(dá)達(dá)數(shù)萬核計(jì)算資源、數(shù)百TB存儲(chǔ)資源的云上遷移提供了穩(wěn)定支撐,才得以讓此次搬遷能夠零故障順利完成。 截至2022年4月,達(dá)達(dá)已經(jīng)在京東云部署了超5萬核計(jì)算資源,實(shí)現(xiàn)落地配、即時(shí)配和電商系統(tǒng)的全面云化,運(yùn)維效率提升30%,節(jié)省千萬級IT成本,達(dá)達(dá)通過攜手京東云,共同交出了一份滿意的答卷。 當(dāng)前,數(shù)字化浪潮奔涌而來,云上創(chuàng)新已經(jīng)成為企業(yè)的核心議題,通過云廠商提供的高可用、高可靠的服務(wù)體系,讓企業(yè)可以從復(fù)雜的IT系統(tǒng)中更多地解放出來,得以更加專注于業(yè)務(wù)本身。而達(dá)達(dá)快送全量搬遷到京東云,也為業(yè)界提供了有益的參考借鑒,云上搬遷雖然復(fù)雜,但并不是無解的命題,解放生產(chǎn)力,也將是未來很長一段時(shí)間內(nèi)企業(yè)數(shù)字化變革的核心議題。 |
5月8日,總投資1.5億歐元、位于無錫空港經(jīng)開區(qū)的德國威伊
日前,西咸新區(qū)一季度經(jīng)濟(jì)運(yùn)行數(shù)據(jù)出爐,地區(qū)生產(chǎn)總值完成
手機(jī)APP
官方微博
官方微信