Konfigurace - Standartní zlepšováky
Obsah
Veškeré zde uvedené zlepšováky se týkají monitoringu windowsích serverů v Centreonu
Zadání 2.4. 2015
Dnes jsme měli velmi užitečnou seanci s Májou a Petrem Mikešem a z ní vypadlo následující zadání. Pokud najdete nepřesnost, doplňte mě, opravte mě. Jedná se částečně o recyklaci témat původního zadání, podněty z diskuze a dále různých problémů řešených v praxi. Zapíšu sem, na čem jsme se domluvili. Až bude hotový výzkum a závěr ve všech uvedených oblastech, aplikujeme to masově na všechny servery (neberme to jako dogma, pokud to bude složité, vybodneme se možná na win 2003).
Acpi shutdown - řeší Mája
na všech clusterových virtuálech by měl být funkční Acpi shutdown. Tohle už většinou je, příslušný check je v monitoringu, ale stane se, že shutdown neproběhne, přestože registry na cílovém virtuálu obsahují to, co mají. Může to být způsobeno několika důvody:
1. blokuje to otevřená seance uživatele která čeká na ukončení uživatelem nebo na time out. Ten je implicitně nastaven na nesmyslně dlouhou dobu a cluster nebo linuxář to killne dřív natvrdo (na clusteru je implicitně 900 vteřin).
Jedná se o timeout okna, které hlásí:
Other people are logged on to this computer. Shutting down Windows might cause them to lose data. Do you want to continue shutting down.
HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\Windows
"ShutdownWarningDialogTimeout"=dword:00000001
Domluveno, že zkrátíme hodnotu timeoutu na 10 vteřin.
2. to není vše. Pri otevrenych dokumentech, napr. notepad nebo wordpad, se win automaticky ptaji, zdali maji system ukoncit nebo jestli chcete ulozit rozdelane dokumenty. Ve vychozim nastaveni tato zadost zastavi vypinani a ACPI shutdown prestane fungovat, dokud nekdo neodklikne shutdown anyway. Resenim je
http://www.technipages.com/windows-8-automatically-close-applications-at-shut-down
což, ovšem může mít moc agresivní důsledky, například to nemusí při korektním vypnutí korektně vypínat všechny služby atd. Prověříme a uvidíme, k jakému nastavení dojdeme.
Check drivers - řeší Mája
domluveno, že budeme kontrolovat všude stejnou skupinu hodnot v registru, ty hodnoty tam ničemu nebrání a znamenají jen to, že v případě detekce jeho potřeby při bootu bude použit příslušný driver. až nám někdě vyskáče, že ty drivery chybějí, doinstalujeme je tam.
tento check bude řešit i sata/ahci hodnoty pro boot instalací v HyperV
ExchangeDBSize - řeší Mája
- řešit jen aktuální velikost DB dle eventlogu. Protože tato se zapisuje při restartu Exchange Store, hledá check v logu 30 dní zpět. Nepotřebujeme vývoj velikostí jednotlivých DB v čase, jako chtěli 2N, nepotřebujeme grafování.
- nasadit na všechny Exchangeservery (dnes je možná na polovině).
Check stáří certifikátů - řeší Mája
Po vymene/prodlouzeni certifikatu CA system i po smazání starého CA certu doplní do Personal certificate store PC předchozí CA cert (asi kvuli navaznosti certificate chain a moznosti overeni starsich certifikatu, deje se po restartu sluzby Certificate services, pripadne po restartu systemu) a Centreon tim padem hlásí starý cert, i když je ve skutečnosti nový
lepsi reseni nez zadat vyjimku podle otisku ručně zatim nemam
Windows updaty - řeší všichni
domluveno, že check předěláme tak, aby hodnoty warning atd. se zadávaly z centreonu. Dále je posuneme asi o měsíc. Dále vyházíme check u klientů, kde to nemáme updatovat. Dále nastavíme delší hodnoty parametrů, kde to tak je domluveno (Nuss atd). Check řeší Petr, Mája s Bobanem dají do kupy seznam serverů (aktuálně je jich 96), kde budou servery rozděleny mezi jednotlivé adminy
Windows backup check - řeší Petr
Check bude přepsán do powershellu. Parametry se mu budou zadávat z Centreonu. Bude umět řešit kontroly záloh serverů s více partišnami (dnes se může stát, že každou partišnu zálohujeme jinak a jedna doběhne, druhá nedoběhne, ale check hlásí vše ok). Dále bude umět vyčítat chyby z eventlogu, bude umět kontrolovat služby a další věci porovnávat realitu s nastavenim Backupsetu (naklikané úlohy). Pokud bude záloha nastavena ručně, bude i check u daného klienta upraven ručně - kdyby nebyl, bude řvát, což je ok. Check bude probíhat nadvakrát, aby netimeoutoval, tj. nejdřív se zeptá na hodnoty ze souboru, když zjistí, že jsou starší než zadaný čas, tak vznese dotaz, ale nečeká na odpověď. Za hodinu (nebo zadaný čas) se znovu zeptá na hodnoty ze souboru, ty už by měly být čerstvé, takže si je vezme do Centreonu.
podúkol - sjednocení WB recovery checku, taky řeší Petr
Nsclient - řeší Petr
Postupně přejdeme na verzi 0.4.3, ideálně už při zavádění ostatních změn. Petr prostuduje nutné změny konfigurace a pak uvidíme, co všechno to znamená. (SSL? )
Zkoušené ale zatím masově nenasazované checky
Monitoring switchů
řešeno pro 2N, i když nakonec ostře nenasazeno (resp. jen ping, ne další hodnoty, které switch sám o sobě umí říct)
na Uvtu testováno v zakázce FT04
Původní zadání z března 2012
Zde by mel byt seznam nastaveni, ktera chceme ci jsou nutne nastavit na serveru (pro spravnou funkcnost, prenositelnost pro pripad havarie atd). Idea je jednak mit pohromade co je treba nastavit a doinstalovat, a jednak pak nejak zajistit ze to na ?vsech? serverech bude
je to mysleno pro vsechny servery, nejen nove instalovane, takova UVTi aktualizace
?vsech? sou s otaznikem - je otazka jestli rozdelit pro virtualy na clusteru a zbytek
az dame dohromady, zkusime naskriptovat nastaveni vseho co pujde a check je-li nastaveno, tam kde se bude muset delat rucne domluvit nejake zaznamy (nejlepe v v registrech myslim) pro kontrolu je-li nastaveno, kdy kontrolovano, nejake verzovani (pripadne u slozitych operaci typu vytvoreni bootu u SW mirroru mozna jen dokumentace standartniho postupu, bude-li nekdy treba)
Požadavky Lukáše Zikmunda
- ACPI shutdown - to je potřeba do clusteru, který přes to korektně vypíná servery - už to vyřešil jaba, stačí změnit registr a .reg soubor je např. U:\linux\bosson\Windows ACPI Shutdown
- boot v Hyper-V / SATA / AHCI - chci, aby všechny naše instalace bootovali na těchto řadičích automaticky a ne až po změně registrů
registry viz:
u:\servis\Boot\
Aktualizace z července 2012
Proces má dvě fáze, 1. zjištění co kde chybí, 2. doinstalace a konfigurace potřebných věcí. První fázi budeme realizovat monitoringem přes Centreon, druhou bude dělat administrátor poloručně (něco ručně, něco skriptem, který ručně spustí na daném serveru.
Úpravy monitoringu
Došli jsme k tomu že při úpravě monitoringu vynucené výše uvedenými ovladači a acpishutdownem přidáme do šablon MS serverů v monitoringu x dalších věcí, krom acpishutdownu to budeme aplikovat na fyzické i virtuální stroje. Samotný Acpishutdown budeme aplikovat jen na KVM virtuály včetně neclusterových (těch je jen pár, např. Hoppecke).
Šablony v Centreonu
Proces nasazení bude probíhat tak: připravíme nové šablony pro winstroje, a postupně na ně budeme jednotlivé stroje přehazovat - admin si nejprve příslušný stroj připraví, doinstaluje, dokonfiguruje nsclienta a checky, pak přehodí šablonu serveru na novou. V monitoringu by tedy nemělo z ničeho nic svítit 20 serverů kterým něco z připravovaného chybí. Až na starých šablonách nepojede nic, smažeme je.
| Stará šablona | Nová šablona__] |
| UVT_MS_General | MS Generic 2003 a MS Generic 2008 |
| UVT_MS_2K3 | zrušit, je v ní jen ntbackup, ten dát do Generic 2003 |
| UVT_MS_2K8 | zrušit, je v ní jen windowsbackup, ten dát do Generic 2008 |
| UVT_MS_APP_Exchange2k3 | přejmenovat na Exchange2K3? |
| UVT_MS_APP_Exchange2k8 | přejmenovat na Exchange2K8? |
| UVT_MS_SBS2003 | MS SBS 2003 |
| UVT_MS_SBS2008 | MS SBS 2008 |
| UVT_MS_APP_MSSQL | MS SQL? |
aby nepřítel nebyl zmaten až příliš, můžeme do smazání starých šablon k novým šablonám dát přídomek NEW
Acpishutdown
na všechny KVM virtuály, 2003 i 2008 a novejsi. Vyzaduje Powershell. Prijde do nove sablony MS General
Stáří certifikátů
na všechny stroje, 2003 i novější, vyžaduje Powershell. Přijde do MS General
Check drivers
drivery pro boot v Hyper-V / SATA / AHC. Na všechny stroje, do MS General
All services check
kontroluje jestli běží všechny služby, které jsou nastavené na "běžet automaticky". Na všechny stroje, do MS General
Ping
dáme do MS General, ale u klientů kteří se monitorují zvenku je check zavádějící, jelikož to pingá firewall, nikoliv server za ním. Takže aby to nemátlo - tam kde se to monitoruje zvenku check ručně odebereme
Check aktuálnosti (windows update)
- primárně byl záměr dát jen na servery, na které lezou klienti a vidí tedy nové aktualizace atd. Sekundárně jsme došli k tomu, že možno dát všude (dáme do MS General?). plus ještě dořešit konfiguraci - kdy to má řvát critical. tam kde lezou klienti by to mělo řvát po 30 dnech, ostatní po 60? případně prozkoumat možnost filtrování tohoto checku zvlášť, asi pod samostatného uživatele aby to neřvalo na dashboardu všem..?
Velikosti DB Exchange
potřebuje Powershell, dát asi na 2003 i 2008, do šablony jednotlivých Exchangí
Velikost MS SQL databází - netřeba spojovat s výše uvedenými checky
- přidáme do šablony pro SQL server?
- popsat dnešní checky pro SQL, některé máme přes šablonu, některé ručně (a pozn. VB - zapomněl jsem k čemu jsme došli co se jejich reorganizace týče, vím že ty ručně přidané měly v názvu rovnou příslušnou databázi/instanci.. ale?)
- dále u checku je třeba zohlednit verzi MS Express