隨著農(nóng)業(yè)銀行“兩地三中心”工程建設(shè)的全面開展,數(shù)據(jù)中心部署的應(yīng)用系統(tǒng)、服務(wù)器等設(shè)備數(shù)量日益增長,各種互聯(lián)網(wǎng)業(yè)務(wù)和技術(shù)不斷投產(chǎn),傳統(tǒng)的人肉運維模式、固化的運維理念、欠靈活的運維流程等工作模式已經(jīng)無法適應(yīng)數(shù)據(jù)中心快速發(fā)展的要求?,F(xiàn)代化數(shù)據(jù)中心伴隨著金融科技的發(fā)展,正逐漸向精細化管理、自動化和智能化運維方式轉(zhuǎn)變,數(shù)據(jù)中心從IT運維向IT運營轉(zhuǎn)型,關(guān)注運維過程中的體驗和效率,為全行經(jīng)營轉(zhuǎn)型和改革發(fā)展提供更強有力的科技支撐。
為適應(yīng)新形勢,農(nóng)業(yè)銀行數(shù)據(jù)中心2015年底成立專職開發(fā)部門,負責(zé)生產(chǎn)運行自動化規(guī)劃和研發(fā)。經(jīng)過兩年半的摸索,農(nóng)業(yè)銀行數(shù)據(jù)中心逐漸從理念、組織架構(gòu)和工作方式上形成了開發(fā)驅(qū)動運維的工作模式,現(xiàn)將轉(zhuǎn)型過程中的經(jīng)驗進行分享。
傳統(tǒng)運維痛點
1.被動運維與經(jīng)驗運維效率低下。數(shù)據(jù)中心傳統(tǒng)運維模式下,運維工作主要依賴系統(tǒng)管理員人工操作,“救火隊員”的運維人員以問題、事件為驅(qū)動,工作被動且效率低,全局運維視圖的缺失以及其他專業(yè)領(lǐng)域知識的盲區(qū)讓主動運維逐漸成為口號,效果甚微。傳統(tǒng)運維依賴運維人員經(jīng)驗,雖然運維人員能夠按照ISO20000要求在運維文檔、應(yīng)急文檔等方面形成完整材料,但異常事件千變?nèi)f化,很難完全與應(yīng)急手冊契合。這種經(jīng)驗式運維方式造成運維人員水平參差不齊,問題排查和恢復(fù)更多依賴經(jīng)驗豐富的技術(shù)骨干,年輕運維人員很難在短時間內(nèi)得到提升。在這種被動運維和經(jīng)驗運維模式下,運維人員花費大量人力和時間進行重復(fù)性機械勞動,看起來每個人都很忙,但又沒有體現(xiàn)出重要價值,運維質(zhì)量也因人員水平層次不齊而難以得到保障。
2.部門自研、外包采購式信息系統(tǒng)建設(shè)造成信息孤島。數(shù)據(jù)中心早期建設(shè)時,尚未形成統(tǒng)一的自動化規(guī)劃。各部門根據(jù)自身需求自研或者外包開發(fā)采購,各系統(tǒng)相對獨立,表現(xiàn)為縱向緊耦合,橫向無關(guān)聯(lián)的煙囪式建設(shè)特點,信息孤島效應(yīng)明顯。這種復(fù)雜的IT架構(gòu)難以適應(yīng)當(dāng)前迅速發(fā)展的運維模式,隨著系統(tǒng)和應(yīng)用增加,推倒重來不現(xiàn)實,保留原樣又難以滿足新需求,呈現(xiàn)進退兩難的局面。
長期以來,數(shù)據(jù)中心自動化工具依賴專業(yè)部門自研或者外包開發(fā)采購產(chǎn)品,專業(yè)處室結(jié)合自身需求開發(fā)各種獨立小工具,但囿于精力,以自動化腳本或簡單運維工具為主,難以形成體系。在這種情況下,數(shù)據(jù)中心自動化水平基本內(nèi)部運維人員兼職或者依賴外部廠商,開發(fā)進度不能自由掌控,功能需求不能快速得以滿足,存在明顯的滯后性和嚴重的短期效應(yīng),無法做到長期規(guī)劃和通盤考慮。
在這種碎片式工具使用模式下,運維人員要不斷學(xué)習(xí)并熟練使用各類系統(tǒng),使得系統(tǒng)一體化、定制化、靈活配置、方便使用、系統(tǒng)互聯(lián)互通等需求愈發(fā)迫切。
3.穩(wěn)定與創(chuàng)新難以平衡。數(shù)據(jù)中心的安全穩(wěn)定壓倒一切。從內(nèi)部來看,運維管理模式已經(jīng)成熟,在風(fēng)險防控上也形成了完整的制度和流程。從外部來看,各類監(jiān)管、審計日趨頻繁和深入。這種趨勢下,數(shù)據(jù)中心在管理理念、組織架構(gòu)、工作方式上容易造成一種固化模式。一方面,要對原有IT基礎(chǔ)架構(gòu)運維提供穩(wěn)定的支撐;另一方面,要面對新運維變化提供敏捷的應(yīng)對方法。數(shù)據(jù)中心在穩(wěn)定和創(chuàng)新中尋找平衡點,迫切需要打破傳統(tǒng)運維模式,快速適應(yīng)新變化并作出應(yīng)對,運維轉(zhuǎn)型迫在眉睫。
上述三點可以看出,數(shù)據(jù)中心應(yīng)牢牢把握生產(chǎn)運行主動權(quán),從被動運維轉(zhuǎn)向主動運維,從依賴經(jīng)驗轉(zhuǎn)向依賴系統(tǒng),從使用分散工具到使用統(tǒng)一工具,從監(jiān)控、流程、操作等運維基本功能各自為政到三位一體,做到統(tǒng)一規(guī)劃、統(tǒng)一管理。為實現(xiàn)這一轉(zhuǎn)型,關(guān)鍵核心是掌握生產(chǎn)運行自動化開發(fā)主動權(quán),以開發(fā)促進運維一體化建設(shè),促進運維穩(wěn)定性,建成組織架構(gòu)、開發(fā)模式、系統(tǒng)架構(gòu)、流程管控與自動化系統(tǒng)一體化體系。
從運維理念轉(zhuǎn)型到開發(fā)模式轉(zhuǎn)型
1.運維理念轉(zhuǎn)型。數(shù)據(jù)中心要成功運維轉(zhuǎn)型,首要在理念上摒棄傳統(tǒng)的人肉運維模式,杜絕人海戰(zhàn)術(shù)、避免被動運維。具體來說分為三個層面。
上層領(lǐng)導(dǎo)者要確立生產(chǎn)運行自動化建設(shè)指導(dǎo)性戰(zhàn)略,以3~5年為目標(biāo),自上而下推動數(shù)據(jù)中心自動化建設(shè)。樹立“統(tǒng)一規(guī)劃、統(tǒng)一立項、統(tǒng)一開發(fā)、統(tǒng)一運維、統(tǒng)一管理”的原則,避免出現(xiàn)系統(tǒng)重復(fù)建設(shè)、各自為政的問題,打破專業(yè)運維部門之間的界限,力促專業(yè)處室通過開發(fā)形成合力,共同推進中心自動化建設(shè)。
中層管理者要積極適應(yīng)開發(fā)和運維帶來的新變化,思想上不能對開發(fā)產(chǎn)生排斥,比如認為開發(fā)工作占用運維人力和時間,傳統(tǒng)運維管理運轉(zhuǎn)穩(wěn)定,不需要額外投入來維護目前不需要的信息或流程。這種認識源于就事論事的固化運維理念,新的開發(fā)促進運維模式勢必會加大人員投入。長遠來看,一體化、自動化運維將把一線運維人員從繁瑣操作中解放出來,形成自動化統(tǒng)一的開發(fā)式運維格局。
下層執(zhí)行者要主動跳出自身舒適區(qū),在統(tǒng)一的自動化規(guī)劃下積極思考自動化運維需求,將日常繁瑣、高風(fēng)險、人工檢查和操作融入自動化系統(tǒng)中,從監(jiān)控、流程、操作、資源管理、安全審計、統(tǒng)計分析等多個角度統(tǒng)一思考,學(xué)習(xí)編程技術(shù),在統(tǒng)一框架下實現(xiàn)自動化需求。
2.組織架構(gòu)轉(zhuǎn)型。開發(fā)促進運維轉(zhuǎn)型的第二步是成立一支專職研發(fā)隊伍。農(nóng)行數(shù)據(jù)中心確立了聯(lián)邦制開發(fā)組織架構(gòu),成立自動化運行部,負責(zé)全中心生產(chǎn)運行自動化規(guī)劃和集中研發(fā),對外提供開發(fā)框架和基礎(chǔ)功能模塊。主機系統(tǒng)支持部、開放系統(tǒng)支持部等技術(shù)處室成立自動化開發(fā)組,以聯(lián)邦制形式對各專業(yè)需求進行個性化開發(fā)。
聯(lián)邦制開發(fā)包括合作開發(fā)和獨立開發(fā)兩類。自動化開發(fā)初期,以合作開發(fā)為主,即自動化運行部指派項目經(jīng)理和開發(fā)人員,專業(yè)處室指派開發(fā)人員參與開發(fā)。隨著各專業(yè)處室開發(fā)技能的提升,開發(fā)模式轉(zhuǎn)為獨立開發(fā),在整體自動化規(guī)劃的基礎(chǔ)上,使用共同開發(fā)框架和基礎(chǔ)模塊接口,遵循技術(shù)規(guī)范,各處室獨立開發(fā)實現(xiàn)自動化需求。
3.開發(fā)模式轉(zhuǎn)型。傳統(tǒng)開發(fā)模式迭代周期長,最終產(chǎn)品能滿足使用需求,但從“能用”到“好用”之間存在較大差距。在以開發(fā)促進運維轉(zhuǎn)型上,需要積極探索業(yè)界先進軟件開發(fā)模式與經(jīng)驗,引入敏捷項目開發(fā)模式,結(jié)合精益管理相關(guān)經(jīng)驗,形成符合部門開發(fā)現(xiàn)狀的敏捷開發(fā)模式。
快速迭代。針對項目開發(fā)前期需求不明確、變化頻繁、開發(fā)測試周期長等問題,在風(fēng)險可控的前提下,引入小版本快速迭代開發(fā)方式,以2~4周為一個迭代周期,分解項目復(fù)雜度,降低開發(fā)風(fēng)險。小版本快速迭代方法可以快速將需求轉(zhuǎn)化為實際系統(tǒng),應(yīng)對項目初期需求的調(diào)整,防止因項目長期進展慢影響團隊開發(fā)士氣。
全程參與。針對需求、開發(fā)、測試脫節(jié)的情況,運維需求部門指派專人全程參與開發(fā)。從需求分析階段開始,需求人員、開發(fā)人員和測試人員一起討論,根據(jù)優(yōu)先級制訂版本開發(fā)計劃,開展高效協(xié)作。開發(fā)過程中遇到的問題隨時與運維需求方溝通,小版本開發(fā)完畢后快速開展測試,將功能測試與業(yè)務(wù)測試的結(jié)果快速在下一版本中優(yōu)化,在需求、開發(fā)和測試三個環(huán)形成正向反饋閉環(huán),需求邊界在一次次交流中得到確認,盡早修復(fù)代碼缺陷,確保代碼開發(fā)質(zhì)量和開發(fā)效率。
精益看板與站會。針對項目進度把控困難的問題,引入精益看板機制,以迭代版本為基礎(chǔ)劃分功能點,通過便簽粘貼在看板上。針對項目成員溝通不暢的問題,引入站會機制,團隊成員圍在看板周圍,分述上日工作情況、遇到困難和當(dāng)日工作計劃。通過站會機制,項目成員快速匯報工作成果,遇到問題時相互啟發(fā),共同在會后解決;項目經(jīng)理實時了解成員工作進展,及時更新看板,對后續(xù)工作開展部署。
4.系統(tǒng)架構(gòu)轉(zhuǎn)型。系統(tǒng)架構(gòu)轉(zhuǎn)型最重要的是連接起系統(tǒng)之間的信息孤島,打破傳統(tǒng)的部門各自為政的建設(shè)方式,以統(tǒng)一的規(guī)劃、框架、管控、接口實現(xiàn)系統(tǒng)互聯(lián)互通。
架構(gòu)轉(zhuǎn)型中最困難的是處理新建系統(tǒng)與存量系統(tǒng)之間的關(guān)系。各專業(yè)部門或多或少存在采購或自研系統(tǒng),這些系統(tǒng)目前仍服務(wù)于生產(chǎn)一線,短時間內(nèi)無法被替代。數(shù)據(jù)中心在處理存量系統(tǒng)時,秉承“謹慎廢除存量系統(tǒng),避免推倒重來”基本原則,因此新舊系統(tǒng)在較長時間內(nèi)并存,但最終新系統(tǒng)會替代分散的系統(tǒng)。
為實現(xiàn)上述目標(biāo),系統(tǒng)架構(gòu)設(shè)計時需考慮系統(tǒng)互聯(lián)管控問題,采用“分布-集中”管理模式。新系統(tǒng)提供統(tǒng)一存儲方案,存量系統(tǒng)對各自信息進行分別存儲,通過互聯(lián)管控,新舊系統(tǒng)實現(xiàn)信息共享、操作交互和安全控制,并通過統(tǒng)一門戶進行展示。
解決新舊系統(tǒng)集成后,數(shù)據(jù)中心生產(chǎn)運行自動化將順著信息化、自動化、智能化的方向進行發(fā)展。在發(fā)展過程中,一個重要的理念是如何創(chuàng)建軟件系統(tǒng)來代替人工操作和人工經(jīng)驗,降低操作風(fēng)險,提高處置效率。這種理念也將推動系統(tǒng)架構(gòu)升級,在運維實踐中不斷進行修正,最終形成開發(fā)與運維相結(jié)合的閉環(huán),推動整個數(shù)據(jù)中心朝著自動化、智能化運維方向不斷前進。
5.運維模式轉(zhuǎn)型。數(shù)據(jù)中心轉(zhuǎn)變運維理念后,“以開發(fā)促進運維”的觀念深入人心,經(jīng)過組織架構(gòu)轉(zhuǎn)型,專業(yè)處室開發(fā)人數(shù)保持在10%~20%,并不斷擴大;經(jīng)過系統(tǒng)架構(gòu)轉(zhuǎn)型,各處室在統(tǒng)一框架、統(tǒng)一接口下實現(xiàn)新舊系統(tǒng)互聯(lián)互通,在自動化領(lǐng)域形成合力。目前,小步快跑、快速迭代的項目管理模式成為主流,在提高開發(fā)效率的同時保證了開發(fā)質(zhì)量。
經(jīng)過上述五方面轉(zhuǎn)型,數(shù)據(jù)中心逐漸掌握了生產(chǎn)運行自動化系統(tǒng)的開發(fā)主動權(quán),形成了一整套適合自身的開發(fā)框架和基礎(chǔ)運維組件。在自主開發(fā)的促進下,運維模式逐漸發(fā)生轉(zhuǎn)型,從事后運維轉(zhuǎn)變成系統(tǒng)輔助下的主動運維,最明顯的特征就是運維前移。需求階段,運維與開發(fā)團隊緊密結(jié)合,確保設(shè)計出的系統(tǒng)符合運維需求。開發(fā)階段,運維人員參與開發(fā)工作,在監(jiān)控、操作等領(lǐng)域發(fā)揮專業(yè)特長,以往的人肉運維理念轉(zhuǎn)變?yōu)槔米陨砟芰﹂_發(fā)設(shè)計自動化系統(tǒng)輔助運維。
總結(jié)與展望
在新的運維模式下,開發(fā)成為運維不可或缺的一部分,開發(fā)與運維相輔相成,共同促進數(shù)據(jù)中心從運維中心向運營中心轉(zhuǎn)型。數(shù)據(jù)中心從粗放型管理向追求穩(wěn)定、效率、體驗、自動、智能的精細化管理轉(zhuǎn)型。在轉(zhuǎn)型過程中,提出生產(chǎn)運行自動化三年規(guī)劃,在資源配置、流程、監(jiān)控、操作、統(tǒng)計分析與決策支持、信息安全六大領(lǐng)域開展自動化建設(shè)。通過自主研發(fā),農(nóng)業(yè)銀行數(shù)據(jù)中心生產(chǎn)運行自動化運維模式正在發(fā)生著變化。
新一代運維系統(tǒng)將孤立的信息系統(tǒng)緊密聯(lián)系起來,資源配置管理覆蓋生產(chǎn)運行整個生命周期,通過關(guān)聯(lián)分析引擎自動分析配置項關(guān)聯(lián)關(guān)系,構(gòu)建系統(tǒng)架構(gòu)全局運維視圖,通過可視化引擎進行展示,輔助運維人員進行故障排查。流程管理與監(jiān)控、操作、配置緊密結(jié)合,IT服務(wù)臺從前臺走向后臺,運維人員不再需要額外登錄頁面進行流程控制,所有流程控制將與應(yīng)用場景無縫對接。監(jiān)控作為安全生產(chǎn)排頭兵,與數(shù)據(jù)分析模塊緊耦合,通過算法切實提高監(jiān)控覆蓋率、首次發(fā)現(xiàn)率和監(jiān)控有效性。操作管理提供場景化的任務(wù)列表,異常故障發(fā)生時,通過監(jiān)控分析結(jié)果、全局運維視圖輔助定位異常,通過場景化的操作列表做到異常故障即刻處置。統(tǒng)計分析與決策支持作為生產(chǎn)運行自動化平臺的大腦,對平臺各類數(shù)據(jù)進行分析與挖掘,將運維人員的人工經(jīng)驗轉(zhuǎn)換為機器知識,進而輔助運維人員進行決策。信息安全管理對整個運維過程進行安全審計。
上述新變化,體現(xiàn)了自主研發(fā)在運維轉(zhuǎn)型之路上發(fā)揮的積極作用,數(shù)據(jù)中心自上而下統(tǒng)一運維理念,主動思考、主動擔(dān)當(dāng)、主動作為,形成了開發(fā)與運維相結(jié)合的新模式,為打造精細化數(shù)據(jù)中心不斷前行。
第三十四屆CIO班招生
國際CIO認證培訓(xùn)
首席數(shù)據(jù)官(CDO)認證培訓(xùn)
責(zé)編:content
免責(zé)聲明:本網(wǎng)站(http://www.www.gypb.net/)內(nèi)容主要來自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個人認為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,請及時通知本站,予以刪除。