锕锕锕锕锕锕_腐文肉高h_日本三级出轨完整版电影_好爽~~~~嗯~~~再快点…漫画

方案之道:機房搬遷

2020-11-06 15:02:15 編輯: 云巔英雄 來源:中信云
前言
    機房搬遷,是運維工作中非常艱巨的工作,需要有資產管理、配置管理、應用關聯系統這些基礎信息,需要存儲、網絡、服務器這些設備搬遷的方案,需要項目管理、廠商管理、溝通管理這些軟技能,是一個綜合性重大任務。自己經歷過3次大的搬遷,將一些心得總結一下。
批次
    搬遷的核心目標是減少對業務的影響。首要的、也是最重要的任務是確認批次。銀行傳統架構是圍繞著存儲的災備技術,建立的兩地三中心架構。確認批次,一般是先要劃分服務器群,從一個存儲設備開始,確認與之關聯的交換機設備,再到所連接的服務器。 還有一個維度是圍繞網絡設備。搬遷前一般在新機房,預先搭建一套新網絡設備,但如果要遷移原有的網絡設備、波分設備,那就要圍繞這網絡設備,構建一個服務器群。
 
     決定批次的另一個要素,是重要程度排序,將7*24的關鍵業務,作為核心考慮要素,以縮短其停機時間為目標,設計搬遷計劃。
 
    第三點,是項目管理中的最長路徑問題。一般關機順序是,分區關機、服務器管理、存儲關機;物理搬遷,開機時是存儲開機、物理機開機、小機開機。這樣,就要將最關鍵系統從關機時間到開機時間的這個時間,作為關鍵路徑考慮。
 
其他原則:
1、每次搬遷數量在“可控”范圍內,盡量做到批次時間不重疊,保障大家“一次只做一件事,一次性做好”
2、與搬遷公司對接,確認好搬遷批次,與車輛批次的關系。
 
四線問題
    搬遷工作,最繁重,也是最容易出問題的,就是四線問題:網線、光纖線、電源線、內部連線。這是對數據中心日常的配置管理的一次大考,是機房準備工作是否充分的一個核心考察項,也是對現場組織能力、應變能力的一大考驗。
1、網線:核對原機房的IP和信息點,在新機房申請信息點,布放網線,測試網線,搬遷后插網線,網線綁扎,開機后測試IP、測試連通性。這一長串圍繞著網線的工作,是整個搬遷工作中耗時最長的工作。尤其現在是云計算時代,使用了大量的trunk替代了傳統的access,給信息點測試帶來了很大的難度。
 
2、光纖線:機房中插線最密集的設備,是光纖交換機;決定某個系統搬遷成功的最關鍵要點,是數據庫能正常連接到存儲;數據中心最難維護的配置管理,是存儲、到交換機、到系統、到災備之間的關聯關系(相對于服務器等設備,業界存儲管理的工具最缺乏)。光纖線插的有問題,將大大延緩系統啟動的時間;光纖線差錯,已經開機的系統將無法識別存儲,需要在光纖鏈路恢復后,重啟掃盤。
 
3、電源線:數據中心一般很重視網線和光纖線,都有相應的標簽規范。但電源線往往不做標簽,簡單綁扎在一起。但如果一個機柜中出現部分設備搬遷,部分設備不搬,沒有電源線標簽,將給拔電源線帶來很大麻煩。
 
4、內部連線:小機、SAN存儲設備都有大量的內部連線,需要專業的廠商來布放、插拔、需要留出足夠的時間,例如某高端存儲,搬遷前后,線纜的相關工作需要2-3小時。
 
應急預案
    運維工作,是一個典型的逆向思維過程,所有的變更,都以失敗為假設前提;搬遷的所有任務,都以出問題為假想指標,尤其是每個關鍵任務,都需要準備應急預案。以下是我們常使用的應急場景。
 
1、存儲無法關閉。
2、搬遷后,存儲無法啟動。將影響整個搬遷進度,影響關鍵系統的開機時間。
3、服務器無法啟動。
4、數據損壞。  需要保障所有系統,搬遷搬遷前有完整的數據備份。
5、少搬設備,應該搬遷的未搬。
6、多搬設備,不應該搬遷設備被下電。
7、誤操作,例如碰到不搬遷設備的線纜。
8、網絡信息點不通。
9、光纖鏈路不通。
10、硬件故障。
11、 機房中沒有手機信號。
 
無法啟動問題
    服務器無法啟動,是搬遷中一個重大問題,除了常見的硬件損壞外,還有很多可能的原因,以下是2個例子。
 
問題1:搬遷后,某小機的分區不能啟動。
分析:通過HMC檢查,發現啟動過程中hang死,檢查啟動信息,發現找不到硬盤,而2塊硬盤同時出問題不太可能。
解決:每個小區分區有1個SAS卡,SAS松動,造成2塊硬盤都找不到。
 
問題2:搬遷后,某PC服務器不能ping通。
解決: 1、ping不通原因是靜電導致網卡通信異常,釋放靜電后解決。
2、重啟后,服務器依然無法啟動,原因是光驅里有光盤,第一啟動項是光驅,將光盤彈出后,可以恢復啟動。
 
預防:
1、配置console方式,實現帶外管理,這樣可遠程處理不能啟動問題:對于PC服務器,通過BMC配置LIM;對于小機,配置HMC;對于虛擬機,為低權用戶用戶增加console權限。
2、常見無法啟動原因:有光盤并設置了光盤啟動、有磁帶并設置了磁帶啟動、小機sas線松動。
溝通問題
   現在是微信時代,搬遷準備階段,我們會建立搬遷群進行項目組內溝通,將搬遷廠商、設備廠商、管理員、機房人員等等相關人員都加入進來,進行溝通協助。
    搬遷開始前,準備搬遷話術,匯報路徑、并進行桌面演練。 其中話術主要包括3類。(1)【信息發布】 (2)【信息反饋】 3【問題反饋】。為了便于管理,外每項任務都進行編號。
 
  其中對于容易出現歧義的操作,要統一話術,例如對于小機的開關機。
1、管理員關機:系統管理員在操作系統中運行shutdown。
2、系統組關機: HMC管理員通過HMC關閉整臺服務器
3、下電: 機房拔掉機器電源
4、加電:機房給服務器插上電源線
5、開機: HMC管理員激活主機
6、啟分區:HMC管理員啟動分區
 
另外,對于機房中信號不好的問題,要提前準備應急的手機;對于手機沒電問題,要準備移動充電器。
 
腳本化
    搬遷一般系統很多,搬遷后的系統比對,是一個非常重要的環節,可以發現潛在的問題。目前我們是通過搬遷秦通過腳本抓取數據,搬遷重啟后,通過腳本進行比對,全面檢查各類問題。以下是腳本的一些考慮因素:
 
1、針對Unix和linux,需要考慮各版本差異,例如RHEL5月RHEL6的ls的輸出的項目不同,會造成腳本讀取的目錄名出現問題。
2、腳本健壯性,要求可重復執行,尤其是搬遷后的比對數據,要解決重復執行問題。
3、要比對靜態配置,過濾掉動態輸出,例如netstat中的動態信息,lsattr的busintr信息都要過濾掉。
4、AIX重啟后執行prtconf,會出現分隔符不同的問題。
5、當比對腳本失效時,需要有手工快速進行比較。  diff <目錄A> <目錄B>
6、服務器重啟后,errpt有重啟的提示,diff比對會報錯。需要過濾重啟記錄,或者只抓取PH,PS類型的告警比對。
7、對于小機,lsdev的輸出有從available變為define狀態的情況, 包括磁帶、CDROM等。
8、對于外置存儲的檢查,需要通過lspv檢查磁盤信息,通過powermt檢查鏈路信息。
9、如果搬遷的是災備系統,需要考慮VG是否自動激活,文件系統是否自動mount的因素。
 
項目管理
   對于搬遷,需要選擇一個強有力的項目經理,進行整體把控。
   搬遷過程中,需要在各個時間斷,在機房和變更室,都有牽頭人進行整體進度把控。
對于搬遷的職責界定,必須清晰明了。最容易出現糾紛的,是搬遷廠商和維保廠商不是一家,設備設備誰來關機,誰來加電,硬件故障如果界定責任等。
   對于各方面的協調工作,需要建立一個溝通計劃,包括總控表、定期開會、核心團隊等。
   機房環境準備:機柜上架圖、用電量評估、線纜準備、存儲做電、搬遷用的電梯等準備。
   標簽:對于搬遷的設備、搬遷涉及的機柜都制作標簽。
本站文章均為華創云鼎摘自權威資料,書籍,或網絡原創文章,如有版權糾紛或者違規問題,請即刻聯系我們刪除,我們歡迎您分享,引用和轉載,我們謝絕直接復制和抄襲!感謝...
我們猜你喜歡