IT運維服務整體方案
一、什么是IT運維服務IT運維服務的提供者基于服務級別協議(SLA)向IT運維服務的使用者提供各類IT運維服務。不同服務級別對應的服務質量指標是服務級別協議的重要組成部分。服務質量指標體現服務供應商所提供的IT運維服務的質量。
IT運維服務整體方案為了確保工作或事情能有條不紊地開展,我們需要事先制定方案,方案一般包括指導思想、主要目標、工作重點、實施步驟、政策措施、具體要求等項目。我們應該怎么制定方案呢?以下是小編整理的IT運維服務整體方案,歡迎閱讀,希望大家能夠喜歡。
IT運維服務整體方案1一、IT運維管理概述
IT運維管理是時下IT界最熱門的話題之一。隨著IT建設的不斷深入和完善,計算機硬軟件系統的運行維護已經成為了各行各業各單位領導和信息服務部門普遍關注和不堪重負的問題。由于這是一個隨著計算機信息技術的深入應用而產生的新課題,因此如何進行有效的IT運維管理,這方面的知識積累和應用技術還剛剛起步。對這一領域的研究和探索,將具有廣闊的發展前景和巨大的現實意義。
所謂IT運維管理,是指單位IT部門采用相關的方法、手段、技術、制度、流程和文檔等,對IT運行環境(如硬軟件環境、網絡環境等)、IT業務系統和IT運維人員進行的綜合管理。
二、IT運維管理的主要管理內容
IT運維管理主要包括八個方面的管理內容:
1.設備管理:對網絡設備、服務器設備、操作系統運行狀況進行監控和管理;
2.應用/服務管理:對各種應用支持軟件如數據庫、中間件、群件以及各種通用或特定服務的監控管理,如郵件系統、DNS、Web等的監控與管理;
3.數據/存儲/容災管理:對系統和業務數據進行統一存儲、備份和恢復;
4.業務管理:包含對企業自身核心業務系統運行情況的監控與管理,對于業務的管理,主要關注該業務系統的CSF(關鍵成功因素CriticalSuccessFactors)和KPI(關鍵績效指標Key Performance Indicators);
5.目錄/內容管理:該部分主要對于企業需要統一發布或因人定制的內容管理和對公共信息的管理;
6.資源資產管理:管理企業中各IT系統的資源資產情況,這些資源資產可以是物理存在的,也可以是邏輯存在的,并能夠與企業的財務部門進行數據交互;
7.信息安全管理:目前信息安全管理主要依據的國際標準是ISO17799,該標準涵蓋了信息安全管理的十大控制方面,36個控制目標和127種控制方式,如企業安全組織方式、資產分類與控制、人員安全、物理與環境安全、通信與運營安全、訪問控制、業務連續性管理等;
8.日常工作管理:該部分主要用于規范和明確運維人員的崗位職責和工作安排、提供績效考核量化依據、提供解決經驗與知識的積累與共享手段。
三、項目流程
四、IT運維服務
IT運維服務是指:企業將信息化建設工作交給專業化服務公司來做。它可以包括以下內容:信息化規劃(咨詢)、設備和軟件選型、網絡系統和應用軟件系統建設、整個系統網絡的日常維護管理和升級等,是企業迅速發展企業數字化,提高數字化質量、提高企業工作效率,節約信息化成本的一種途徑與方式。
IT運維服務分為幾個層次:
1.基礎面:IT基礎運維服務
是指在IT設備過了原廠保修期(Warranty Support Period)之后,為包括Unix主機、PC服務器、網絡設備、磁盤陣列和相關操作系統等在內的軟硬件設備能維持一定質量的運轉能力,所需要的技術服務,通常包括預防性的巡檢、更換故障部件、調整軟硬件參數等工作。
2.專業面:IT運營外包服務
是指服務提供商以規范化的服務管理體系(服務人員、服務流程規范、服務網絡覆蓋及服務支撐平臺)為主導的IT服務提供形式,為客戶提供全套的IT系統規劃、采購、實施、運維、咨詢、培訓的整體服務,即,通過基于ITIL規范的服務管理體系實現傳統IT服務的更全面、更規范的完美、高效率交付。在IT運營外包服務模式下,客戶只需負責使用,也僅只需為使用付費,是最大程度簡化IT管理難度,節約客戶成本,提升IT專業化的一種先進的服務方式。
3.升級面:IT規劃與咨詢
是指為客戶提供IT基礎設施層面的咨詢服務,包括:規劃、設計、評估等系列服務;以及基礎設施層面的部署服務,包括:安裝、配置、升級、遷移、搬遷、優化、信息安全評測、風險評估、培訓等系列服務。
IT運維服務提供的方式:
1.在線支持;通過郵件、IM、論壇、客戶知識庫實現與客戶的技術交流與解決;
2.遠程支持;通過各類遠程協助工具;
3.現場支持;依據服務級別協議,現場故障恢復;及預防性巡檢;
4.關鍵時刻值守;依據客戶需求,提供關鍵時刻安全值守保障;
5.駐場服務;常年駐守。
IT運維服務整體方案21.1服務目標
運行維護服務包括,信息系統相關的主機設備、操作系統、數據庫和存儲設備及其他信息系統的運行維護與安全防范服務,保證用戶現有的信息系統的正常運行,降低整體管理成本,提高網絡信息系統的整體服務水平。同時根據日常維護的數據和記錄,提供用戶信息系統的整體建設規劃和建議,更好的為用戶的信息化發展提供有力的保障。
用戶信息系統的組成主要可分為兩類:硬件設備和軟件系統。硬件設備包括網絡設備、安全設備、主機設備、存儲設備等;軟件設備可分為操作系統軟件、典型應用軟件(如:數據庫軟件、中間件軟件等)、業務應用軟件等。
通過運行維護服務的有效管理來提升用戶信息系統的服務效率,協調各業務應用系統的內部運作,改善網絡信息系統部門與業務部門的溝通,提高服務質量。結合用戶現有的環境、組織結構、IT資源和管理流程的特點,從流程、人員和技術三方面來規劃用戶的網絡信息系統的結構。將用戶的運行目標、業務需求與IT服務的相協調一致。
信息系統服務的目標是,對用戶現有的信息系統基礎資源進行監控和管理,及時掌握網絡信息系統資源現狀和配置信息,反映信息系統資源的可用性情況和健康狀況,創建一個可知可控的IT環境,從而保證用戶信息系統的各類業務應用系統的可靠、高效、持續、安全運行。
1.2信息資產統計服務
此項服務為基本服務,包含在運行維護服務中,幫助我們對用戶現有的信息資產情況進行了解,更好的提供系統的運行維護服務。
服務內容包括:
硬件設備型號、數量、版本等信息統計記錄;
軟件產品型號、版本和補丁等信息統計記錄;
網絡結構、網絡路由、網絡IP地址統計記錄;
綜合布線系統結構圖的繪制;
其它附屬設備的統計記錄;
硬件設備清單統計。
1.3網絡、安全系統運維服務
從網絡的連通性、網絡的性能、網絡的監控管理三個方面實現對網絡系統的運維管理。
(1)用戶現場技術人員值守
根據用戶的需求提供長期的用戶現場技術人員值守服務,保證網絡的實時連通和可用,保障接入交換機、匯聚交換機和核心交換機的正常運轉。
現場值守的技術人員每天記錄網絡交換機的端口是否可以正常使用,網絡的轉發和路由是否正常進行,交換機的性能檢測,進行整體網絡性能評估,針對網絡的利用率進行優化并提出網絡擴容和優化的'建議。
現場值守人員還進行安全設備的日常運行狀態的監控,對各種安全設備的日志檢查,對重點事件進行記錄,對安全事件的產生原因進行判斷和解決,及時發現問題,防患于未然。
同時能夠對設備的運行數據進行記錄,形成報表進行統計分析,便于進行網絡系統的分析和故障的提前預知。具體記錄的數據包括:配置數據、性能數據、故障數據。
(2)現場巡檢服務
現場巡檢服務是對客戶的設備及網絡進行全面檢查的服務項目,通過該服務可使客戶獲得設備運行的第一手資料,最大可能地發現存在的隱患,保障設備穩定運行。
同時,將有針對性地提出預警及解決建議,使客戶能夠提早預防,最大限度降低運營風險。
網絡運行分析與管理服務是指工程師通過對網絡運行狀況、網絡問題進行周期性檢查、分析后,為客戶提出指導性建議的一種綜合性高級服務。
(3)網絡運行分析與管理服務
(4)重要時刻專人值守服務
保證重要時刻設備穩定運行對客戶成功尤為關鍵,因此,可對客戶提供重要時刻的專人現場值守支持,包括政府客戶的重大會議期間、金融客戶的年終結算日、運營商客戶的生產網重大割接或其它任何客戶認為可能對其業務運營產生重大影響的時刻。
如需專人值守,客戶需至少提前3周與授權服務商客戶服務經理聯系。對每位合約客戶,授權服務商均需按事先合同約定提供專人值守服務。客戶如需超出合同約定范圍的更多值守支持,需額外支付相應人力和差旅費用。
1.4主機、存儲系統運維服務
主機、存儲系統的運維服務包括:主機、存儲設備的日常監控,設備的運行狀態監控,故障處理,操作系統維護,補丁升級等內容。
現場值守人員可進行監控管理的內容包括:
CPU性能管理;
內存使用情況管理;
硬盤利用情況管理;
系統進程管理;
主機性能管理;
實時監控主機電源、風扇的使用情況及主機機箱內部溫度;
監控主機硬盤運行狀態;
監控主機網卡、陣列卡等硬件狀態;
監控主機HA運行狀況;
主機系統文件系統管理;
監控存儲交換機設備狀態、端口狀態、傳輸速度;
監控備份服務進程、備份情況(起止時間、是否成功、出錯告警);
監控記錄磁盤陣列、磁帶庫等存儲硬件故障提示和告警,并及時解決故障問題;
對存儲的性能(如高速緩存、光纖通道等)進行監控。
數據庫運行維護服務是包括主動數據庫性能管理,數據庫的主動性能管理對系統運維非常重要。通過主動式性能管理可了解數據庫的日常運行狀態,識別數據庫的性能問題發生在什么地方,有針對性地進行性能優化。同時,密切注意數據庫系統的變化,主動地預防可能發生的問題。
1.5數據庫系統運維服務
數據庫運行維護服務還包括快速發現、診斷和解決性能問題,在出現問題時,及時找出性能瓶頸,解決數據庫性能問題,維護高效的應用系統。
數據庫運行維護服務,主要工作是使用技術手段來達到管理的目標,以系統最終的運行維護為目標,提高用戶的工作效率。
1.6中間件運維服務
中間件管理是指對BEAWeblogic、MQ等中間件的日常維護管理和監控工作,提高對中間件平臺事件的分析解決能力,確保中間件平臺持續穩定運行。中間件監控指標包括配置信息管理、故障監控、性能監控。
執行線程:監控WebLogic配置執行線程的空閑數量。
JVM內存:JVM內存曲線正常,能夠及時的進行內存空間回收。JDBC連接池:連接池的初始容量和最大容量應該設置為相等,并且至少等于執行線程的數量,以避免在運行過程中創建數據庫連接所帶來的性能消耗。
檢查WEBLOG日志文件是否有異常報錯,如果有WEBLOG集群配置,需要檢查集群的配置是否正常。
1.7運維服務流程建議用戶采用的服務方式為兩種:一種為技術人員現場值守,另一種是定期巡檢結合故障現場服務。
技術人員現場值守運行維護服務的基本操作流程如下圖所示:
定期巡檢結合故障現場運行維護服務的基本操作流程如下圖所示:
1.8服務管理制度規范1.服務時間
(1)接收服務請求和咨詢:在5*8小時工作時間內設置由專人職守的熱線電話,接聽內部的服務請求,并記錄服務臺事件處理結果。
(2)在非工作時間設置有專人7*24小時接聽的移動電話熱線,用于解決內部的技術問題以及接聽7*24小時機房監控人員的機房突發情況匯報。
技術支持人員在解決故障時,會最大限度保護好數據,做好故障恢復的文檔,力爭恢復到故障點前的業務狀態。
對于“系統癱瘓,業務系統不能運轉”的故障級別,如果不能于12小時內解決故障,將在16小時內提出應急方案,確保業務系統的運行。故障解決后24小時內,提交故障處理報告。說明故障種類、故障原因、故障解決中使用的方法及故障損失等情況。
2.行為規范
(1)遵守用戶的各項規章制度,嚴格按照用戶相應的規章制度辦事。
(2)與用戶運行維護體系其他部門和環節協同工作,密切配合,共同開展技術支持工作。
(3)出現疑難技術、業務問題和重大緊急情況時,及時向負責人報告。
(4)現場技術支持時要精神飽滿,穿著得體,談吐文明,舉止莊重。接聽電話時要文明禮貌,語言清晰明了,語氣和善。
(5)遵守保密原則。對被支持單位的網絡、主機、系統軟件、應用軟件等的密碼、核心參數、業務數據等負有保密責任,不得隨意復制和傳播。
3.現場服務支持規范
運維服務人員要做到耐心、細心、熱心的服務。工作要做到事事有記錄、事事有反饋、重大問題及時匯報。嚴格遵守工作作息時間,嚴格按照服務工作流程操作。
(1)現場支持工程師應著裝整潔、言行禮貌大方,技術專業,操作熟練、嚴謹、規范;現場支持時必須遵守用戶單位的相關規章制度。
(2)現場支持工程師在進行現場支持工作時必須在保證數據和系統安全的前提下開展工作。
(3)現場支持時出現暫時無法解決的故障或其他新的故障時,應告知用戶并及時上報負責人,尋找其他解決途徑。
(4)故障解決后,現場支持工程師要詳細記錄問題的發生時間、地點、提出人和問題描述,并形成書面文檔,必要時應向用戶介紹故障出現的原因及預防方法和解決技巧。
4.問題記錄規范
根據使用人員提出問題的類別,將問題分為咨詢類問題和系統缺陷類問題二類:咨詢類問題是指通過服務熱線或現場解疑等方式能夠當場解決用戶提出的問題,具有問題解答直接、快速和實時的特點,該問題到現場支持人員處即可中止,對于該類問題的記錄可使用咨詢類問題記錄模版進行記錄。系統缺陷類問題是指使用人員提出的問題涉及到系統相應環節的確認修改,需要經過逐級提交、診斷、確認、處理和回復等環節,處理解決需要項目組的分析確認,問題有解決方案后,將解決方案反饋給用戶。具體提交流程如下:
(1)問題提交。應用信息系統的用戶發現屬于系統缺陷類的問題時,填寫系統缺陷類問題提交單,提交服務支持中心。
(2)問題分析。服務中心接到用戶提交的問題單,要組織相應人員對問題單中描述的問題進行分析研判,確定問題的類型(技術問題、業務問題或者操作問題)。屬于技術問題,提交服務中心技術人員對存在的問題提出具體的處理意見和建議;屬于業務問題,提交服務中心業務人員進行處理;屬于操作問題,可安排相關人員對問題提出人進行解釋,并將系統缺陷類問題提交單轉為系統咨詢類問題提交單。
(3)問題確認、解決。服務中心的技術人員和業務人員收到系統缺陷類問題提交單后,對提交的問題進行歸類匯總和分析、確認。可以解決的,明確問題解決的具體處理建議和措施,經主管領導簽字同意后,交實施人員進行解決方案的實施。服務人員確認是否解決,并將解決方法附在系統缺陷類問題提交單上反饋給問題提出人員。
(4)問題上報。服務人員收到經業務或技術人員確認的系統缺陷類問題提交單后,上報服務中心。
(5)問題回復。服務中心根據提交問題的進行分析,制定解決方案并進行實施的解決,同時做好變更記錄。將解決方案匯總后及時向問題提交單位或問題交辦單位作出回復,并將分析過程和問題產生原因一并提交。
1.9應急服務響應措施針對項目制定了詳盡的設計、應急處理預案,整個流程嚴謹而有序。但是,在服務維護過程中,意外情況將難以完全避免。
下面,我們將對項目實施的突發風險進行詳細分析,并且針對各類突發事件,設計了相應的預防與解決措施,同時提供了完整的應急處理流程。
1.應急基本流程
維護服務應急處理流程
2.預防措施
系統運維應急方案是對中斷或嚴重影響業務的故障,如宕機、數據丟失、業務中斷等,進行快速響應和處理,在最短時間內恢復業務系統,將損失降到最低。
在系統維護過程中,突發事件的出現將是很難完全避免的,針對這種情況,設計了完善的突發事件應急策略。
系統巡檢人員要定期規范檢查各硬件設備的運轉情況和應用軟件運行情況,同時做好日常的數據增量備份和定期全備份。
對發現的問題在報各級負責人的同時,要協調相關資源分析問題根源,確定解決方案和臨時解決措施,避免造成更大的影響。問題得到穩定或徹底解決后,要形成問題匯報,避免以后類似重大緊急情況的發生。
對發現的問題在報負責人的同時,要協調相關資源分析問題根源,確定解決方案和臨時解決措施,避免造成更大的影響。問題得到穩定或徹底解決后,要形成問題匯報,避免以后類似重大緊急情況的發生。
當獲悉出現突發事件時,技術支持人員可以立即從知識庫中獲取相應的應急策略,并綜合用戶方的具體情況,給出相關解決方案,然后在第一時間以電話、郵件支持或現場服務的方式幫助用戶解決問題,盡最大努力減小突發事件對用戶日常應用的影響。