虛擬化環(huán)境下的統(tǒng)一運(yùn)維論文
1 概述
伴隨著信息技術(shù)的不斷發(fā)展,信息系統(tǒng)運(yùn)維的概念已經(jīng)非常普及,根據(jù)自動(dòng)化運(yùn)維服務(wù)商Puppet labs發(fā)布的2013運(yùn)維報(bào)告顯示,采用自動(dòng)化運(yùn)維后,完成部署的速度提高很多倍,減少50%失敗概率,恢復(fù)系統(tǒng)的速度提高12倍,國內(nèi)外的互聯(lián)網(wǎng)公司都在開發(fā)自己的運(yùn)維軟件,國內(nèi)大型互聯(lián)網(wǎng)公司阿里巴巴、百度、網(wǎng)易等都有專門的運(yùn)維體系研究部門。運(yùn)維管理在高校領(lǐng)域處于逐步實(shí)驗(yàn)階段,國內(nèi)一些高校已經(jīng)重視虛擬化應(yīng)用及運(yùn)維服務(wù)工作,大多采用自主研發(fā)與整合工具相結(jié)合的方式實(shí)現(xiàn),在運(yùn)維服務(wù)專業(yè)化、流程化、規(guī)范化方面取得了不同程度的成果。
2 運(yùn)維的現(xiàn)狀
隨著學(xué)校信息化建設(shè)的發(fā)展,信息門戶、學(xué)工管理、教務(wù)管理、校園卡管理、迎新離校、支付平臺(tái)等系統(tǒng)相繼投入使用,系統(tǒng)基礎(chǔ)平臺(tái)的穩(wěn)定可用性顯得更加重要,學(xué)校信息系統(tǒng)支撐平臺(tái)主要以Vmware虛擬化平臺(tái)為主,通過虛擬化技術(shù)實(shí)現(xiàn)了硬件整合管理和可高用性、改善業(yè)務(wù)可靠性、優(yōu)化系統(tǒng)部署、降低設(shè)備能耗特點(diǎn),但虛擬化管理平臺(tái)的管理只涉及主機(jī)統(tǒng)級別,應(yīng)用系統(tǒng)業(yè)務(wù)的管理需要各利用各自獨(dú)立的工具來管理,運(yùn)維管理整體上基本處于“半自動(dòng)”狀態(tài)。突出的有以下問題:定位實(shí)際故障點(diǎn)的效率低,故障修復(fù)缺乏自動(dòng)化、流程化響應(yīng)機(jī)制,缺乏事件監(jiān)控、診斷、故障響應(yīng)的有效運(yùn)維工具;系統(tǒng)配置變更需人工操作工作量大,缺乏集中的主機(jī)、虛擬機(jī)、應(yīng)用業(yè)務(wù)等的監(jiān)控和預(yù)警機(jī)制;信息系統(tǒng)基礎(chǔ)設(shè)備沒有統(tǒng)一配置管理信息庫,信息登記混亂常造成設(shè)備配置信息的沖突。系統(tǒng)的可用性與運(yùn)維管理有著緊密聯(lián)系,當(dāng)前運(yùn)維工作的重心放在應(yīng)用檢查、部署上線、服務(wù)器配置、數(shù)據(jù)備份、故障搜索處理等方面。
3 統(tǒng)一運(yùn)維的設(shè)想
統(tǒng)一運(yùn)維平臺(tái)規(guī)劃以信息系統(tǒng)基礎(chǔ)設(shè)施及應(yīng)用系統(tǒng)的全局統(tǒng)一管理為出發(fā)點(diǎn),實(shí)現(xiàn)配置批量變更、故障自定義修復(fù)、定期自動(dòng)巡檢、信息集中管理等功能,考慮到免費(fèi)運(yùn)維系統(tǒng)功能有限、大公司自主研發(fā)技術(shù)很難獲取,計(jì)劃采用開源軟件、Vm?ware管理平臺(tái)的功能接口和開發(fā)相結(jié)合的方式來實(shí)現(xiàn)統(tǒng)一運(yùn)維。
系統(tǒng)規(guī)劃實(shí)現(xiàn)的主要功能包括以下幾項(xiàng):集中化管理信息系統(tǒng)基礎(chǔ)架構(gòu)中的服務(wù)器、虛擬機(jī)、應(yīng)用系統(tǒng)、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)、應(yīng)用等配置資源;通過預(yù)先定義主機(jī)系統(tǒng)、虛機(jī)系統(tǒng)、通用應(yīng)用的'模板及配置腳本,實(shí)現(xiàn)主機(jī)系統(tǒng)、虛機(jī)系統(tǒng)與應(yīng)用系統(tǒng)的統(tǒng)一配置管理與自動(dòng)化部署,保證配置變更在規(guī)范的流程下有序。準(zhǔn)確地執(zhí)行;實(shí)現(xiàn)主機(jī)狀態(tài)、應(yīng)用狀態(tài)、應(yīng)用業(yè)務(wù)、負(fù)載性能、存儲(chǔ)狀態(tài)等信息的統(tǒng)一監(jiān)控與預(yù)警,通過預(yù)定義故障狀態(tài)與系統(tǒng)巡檢計(jì)劃實(shí)現(xiàn)自動(dòng)化檢查及修復(fù);建立統(tǒng)一的日志中心庫,采集來自基礎(chǔ)設(shè)備及應(yīng)用的日志信息,在日志系統(tǒng)上配置基于應(yīng)用流程的相關(guān)性規(guī)則,對日志信息進(jìn)行有效性預(yù)處理,將有效及緊急的日志的集中展示,實(shí)現(xiàn)基礎(chǔ)設(shè)備的日志信息的集中化管理及智能化匯總。
4 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
ITIL即IT基礎(chǔ)架構(gòu)庫(Information Technology InfrastructureLibrary,信息技術(shù)基礎(chǔ)架構(gòu)庫)為設(shè)計(jì)IT服務(wù)管理架構(gòu)提供了一個(gè)客觀、嚴(yán)謹(jǐn)、可量化的標(biāo)準(zhǔn)和規(guī)范,參考ITIL2中服務(wù)支持部分,設(shè)計(jì)與實(shí)現(xiàn)統(tǒng)一運(yùn)維的5項(xiàng)功能模塊。資源配置管理系統(tǒng)發(fā)布管理配置變更管理事件預(yù)警處理問題跟蹤管理。
4.1 資源配置管理
建立符合的統(tǒng)一運(yùn)維管理架要求的配置管理數(shù)據(jù)庫,將多處的數(shù)據(jù)源合并至統(tǒng)一視圖中,配置信息庫提供IT基礎(chǔ)架構(gòu)的邏輯模型,定義、識(shí)別、控制基礎(chǔ)設(shè)施與應(yīng)用服務(wù)的部件,對資源信息按技術(shù)參數(shù),屬主,關(guān)系等屬性進(jìn)行存取,記錄每個(gè)資源的唯一標(biāo)識(shí)名、主機(jī)狀態(tài)、硬件信息、位置、功能用途、網(wǎng)絡(luò)配置等技術(shù)參數(shù)信息及資源間的屬主關(guān)系,按照基礎(chǔ)設(shè)施與應(yīng)用業(yè)務(wù)的依賴性信息完成關(guān)系屬性的建立,在配置信息庫的基礎(chǔ)上開發(fā)資源配置管理程序,實(shí)現(xiàn)記錄配置信息的狀態(tài)采集、記錄、整合、檢驗(yàn)、變更等功能。
4.2系統(tǒng)發(fā)布管理
發(fā)布管理是將經(jīng)過實(shí)際應(yīng)用測試的新增配置與系統(tǒng)在環(huán)境進(jìn)行分發(fā),通過流程化實(shí)現(xiàn)系統(tǒng)與配置信息的發(fā)布、交付、分發(fā)。具體到實(shí)際環(huán)境中是Vmware中的虛擬機(jī)發(fā)布管理,通過調(diào)用Vmware管理平臺(tái)提供的接口及工具包,實(shí)現(xiàn)統(tǒng)一化、流程化的虛擬機(jī)申請與管理功能,將虛擬化平臺(tái)中虛擬機(jī)的創(chuàng)建、發(fā)布、交付、回收等功能集成到運(yùn)維平臺(tái)。
4.3 配置變更管理
配置變更要求以受控方式在最短時(shí)間內(nèi)完成基礎(chǔ)架構(gòu)或應(yīng)用服務(wù)配置變更,在變更實(shí)施過程中使用標(biāo)準(zhǔn)化、自動(dòng)化的方法,以將由變更所導(dǎo)致的業(yè)務(wù)中斷影響減小到最低。學(xué)校信息系統(tǒng)所使用的操作系統(tǒng)平臺(tái)分為Windows與Linux二類,同類環(huán)境的配置變更非常類似,經(jīng)過測試選擇Puppet(開源的基于Ruby的自動(dòng)化系統(tǒng)配置管理工具)來實(shí)現(xiàn)自動(dòng)化的配置變更管理,Puppet支持DNS設(shè)置、系統(tǒng)參數(shù)、系統(tǒng)更新、主機(jī)名規(guī)則變更、批量系統(tǒng)的密碼修改、防火墻策略變更等配置的自動(dòng)下發(fā),管理程序讀取指令及配置管理信息庫中設(shè)備的配置,通過調(diào)管理端來實(shí)現(xiàn)配置批量自動(dòng)分發(fā)變更,反饋信息來記錄或變更管理配置息。
4.4 事件預(yù)警處理
在確定事件類型、優(yōu)先級的前提下,實(shí)現(xiàn)快速的服務(wù)恢復(fù)與應(yīng)用切換,實(shí)現(xiàn)服務(wù)器級故障自動(dòng)修復(fù)依賴監(jiān)控預(yù)警信息,信息系統(tǒng)平臺(tái)中需要預(yù)警處理的設(shè)備包括基礎(chǔ)設(shè)備、Vmware平臺(tái)、虛擬主機(jī)、應(yīng)用系統(tǒng)等,使用免費(fèi)工具作為信息采集低層服務(wù)端工具,數(shù)據(jù)采集使用SNMP協(xié)議、SSH訪問與自定義腳本相結(jié)合的方式,預(yù)警方式使用SNMP Trap與郵件告警,通過開發(fā)程序來讀取采集到狀態(tài)數(shù)據(jù)和警告信息匯總到統(tǒng)一的數(shù)據(jù)庫,定義主機(jī)或應(yīng)用的錯(cuò)誤類型代碼及相應(yīng)故障事件的觸發(fā)規(guī)則、運(yùn)行流程、修復(fù)腳本或指令,當(dāng)故障事件發(fā)生時(shí)管理平臺(tái)依據(jù)來源及事件標(biāo)識(shí)讀取事件響應(yīng)配置并發(fā)出指令,事件故障主機(jī)或關(guān)聯(lián)主機(jī)根據(jù)指令主動(dòng)執(zhí)行流程化修復(fù)指令,執(zhí)行修復(fù)指令的結(jié)果被反饋回管理平臺(tái),管理平臺(tái)將結(jié)果記錄入配置信息庫或發(fā)出進(jìn)一步修復(fù)指令。
4.5 問題跟蹤管理
問題跟蹤管理利用logstash,redis等日志采集工具來收集問題信息及日志,管理平臺(tái)對日志信息按照應(yīng)用類型與業(yè)務(wù)邏輯關(guān)系進(jìn)行分類過濾,形成可用的、有針對性的日志事件數(shù)據(jù),管理平臺(tái)根據(jù)日志信息分析IT基礎(chǔ)架構(gòu)的薄弱環(huán)節(jié)并確定引起問題發(fā)生的故障根源,管理人員利用管理平臺(tái)制定解決事故的方案和防止事故再次發(fā)生的措施。
5 進(jìn)一步的思考
規(guī)劃統(tǒng)一運(yùn)維平臺(tái)管理幾百臺(tái)服務(wù)器與應(yīng)用,考慮運(yùn)維管理的高效化與信息安全預(yù)防的標(biāo)準(zhǔn)化,系統(tǒng)設(shè)計(jì)在通用性與擴(kuò)展性還有許多要繼續(xù)改進(jìn),在自動(dòng)化部方面應(yīng)用系統(tǒng)的類型較多且自動(dòng)化管理工具欠缺,如何實(shí)現(xiàn)應(yīng)用系統(tǒng)軟件的自動(dòng)化配置是繼續(xù)關(guān)注,故障巡檢方面要深一步考慮如何實(shí)現(xiàn)精確、有效的故障恢復(fù)策略,缺少考慮多人使用平臺(tái)時(shí)的授權(quán)機(jī)制與安全審計(jì)模塊。
【虛擬化環(huán)境下的統(tǒng)一運(yùn)維論文】相關(guān)文章:
精益化IT運(yùn)維關(guān)鍵技術(shù)研究論文11-06
電力運(yùn)維合一論文05-28
基于虛擬現(xiàn)實(shí)技術(shù)的三維教學(xué)環(huán)境研究論文11-08
運(yùn)維團(tuán)隊(duì)口號(hào)05-03
運(yùn)維實(shí)習(xí)報(bào)告01-18
IT運(yùn)維簡歷模板03-29