2011年9月28日 星期三

解決ESXi主機中的Guest Host非預期性restart問題

1. 最近這一陣子發現有某幾台Window Guest主機總會在半夜自動重新啟動,檢查各台主機的eventlog都出現以下的錯誤訊息,都是Server自動重新關機後在重新啟動,當下以為是Server作業系統有問題,但反覆check以後,也沒發現哪裡有問題,另外從eventlog中也看不出啥鳥問題?






















2.  隨後在連到vCenter中去檢查Event,然後把Server發生重啟的相對應時間的Event,整個export出來分析比對,我節錄主要兩個Key Word訊息如下:
*yourservername on youresxihost in cluster yourclustername in yourdatacenter reset by HA. Reason: VMware Tools heartbeat failure. A screenshot is saved at /vmfs/volumes/93a8a5f4-e161a15a/yourservername-screenshot-0.png

*Alarm 'Virtual machine high availability error' on yourservername changed from Gray to Gray
Alarm 'Virtual machine high availability error' on yourservername triggered an action
Alarm 'Virtual machine high availability error': an SNMP trap for entity yourservername was sent
從上面看出一些端倪,應該是VMware Tools heartbeat出了問題,翻了一些官方文件,找到以下兩個連結,可以提供參考:
http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1007899
http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1027734
發生主要原因是在Guest OS上,我們都會安裝VMware Tools這一隻程式,而如果在你的vCenter中的Cluster setting裡,如果有Enable VM Monitoring功能,則在ESXI主機上的Host agent會依照你設定的條件去跟Guest OS上VMware Tools去做heartbeat溝通,而一旦ESXi主機沒有收到Guest OS的heartbeat,就會判定Guest OS已經掛了,然後進行重啟,以下是我原本的VM Monitoring設定:
可以看到,原本的Monitoring sensitivity是設成High,後來SI建議我把他設成Low,或者是把VM Monitoring功能關閉,以避免ESXi造成誤判,把原本活的好好的Guest OS,硬把它認為已經掛了,結果造成非預期性重開情事再次發生。

2011年9月26日 星期一

解決VDR Restore無法刪除問題

1. 最近在測試VDR,發現一個怪問題,就是想要刪除一些測試的Restore檔案,卻怎麼也刪除
    不掉,即使已經選擇了Make For Delete,如下圖所示:

2. 後來請教了SI,並且參考以下兩篇連結:
    http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1013387
    http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1029296
作法是這樣,到VDR的Confoguration選項裡的Destinations,選擇你的VDR備份路徑,按右鍵選擇 Integrity check。

3. 選擇Yes,手動讓VDR去把備份路徑重新掃一遍,之後最會發現,有Make For Delete的Restore檔案,已經被刪除。