Veel bedrijven vonden een RPO (recovery point objective) gelijk aan – of zo dicht mogelijk tegen – nul altijd de gouden graal. Over de RTO (recovery time objective) werd niet altijd even goed nagedacht. Meestal werd de herstelmogelijkheid van een omgeving tijdens de opzet van nieuwe omgevingen wel uitgeschreven en getest met een beperkt aantal workloads. Maar nadat de omgeving in productie kwam, werd het onderhouden van het Disaster Recovery (DR) Runbook en het écht testen van de DR-procedures vergeten.
Reden? Een test failover hield volgens vele van die bedrijven te veel risico’s in en was te arbeidsintensief. Een verkeerde instelling, maar wel eentje met wat waarheid in.
Gelukkig zijn er ondertussen heel wat oplossingen op de markt die hierbij helpen zoals Zerto, VMware SRM en tools van verschillende back-upvendoren zoals Polaris AppFlows van Rubrik. 🙌
Ook bij Nutanix zetten ze in op test failovers.
Enter: Nutanix Leap
Sinds Nutanix AOS 5.10 zit de runbook automation feature er standaard mee in. De feature werd Nutanix Leap gedoopt; Xi Leap voor de hybride disaster recovery-omgevingen, maar meer daarover in een ander blogbericht.
In deze post bespreek in Nutanix Leap on prem , toon ik hoe deze oplossing werkt en hoe je geautomatiseerde failovers en test failovers kan uitvoeren tussen verschillende hypervisors.
Klaar voor?
Let’s go!
Ready to take a leap?
Om Nutanix Leap te gebruiken heb je volgende zaken nodig:
Nutanix Leap maakt gebruik van enkele nieuwe concepten om op een intuïtieve, policy driven manier de bescherming van workloads te regelen, zodat Leap zowel on prem als richting een cloud kan gebruikt worden.
Nutanix Leap overview (nutanixbible.com)
Binnen Prism Central kan je protection policies defineren en gebruiken. Zo’n policy omvat RPO, RTO, retentie, de recovery-omgeving en een categorie. Handig!
Protection Policy (nutanixbible.com)
Een recovery plan is het effectieve draaiboek van de disaster recovery (DR), dat stap voor stap beschrijft wat er moet gebeuren bij een failover en uitlegt welke workloads er in welke volgorde moeten opstarten in welk netwerk.
Recovery Plan (nutanixbible.com)
Om Nutanix Leap te gebruiken moet je eerst de Leap feature aanzetten op de twee Prism Central servers.
Prism controleert of alle vereisten zijn voldaan,
en geeft een how-to-use-overzicht om de fuctionaliteit verder te configureren.
Nadat Leap functioneel is op beide clusters, maak je de Availability Zones aan. Dat moet je slechts op één Prism Central doen, gezien de instelling automatisch wordt gesynchroniseerd naar de andere Prism Central. Nu al tijdsbesparend!
Nadat je klikt op Connect to Availability Zone, geef je het IP-adres en credentials in van de Prism Central op de DR-locatie.
Weetje: een availability zone kan ook Xi Leap zijn, maar in deze handleiding gebruiken we een Nutanix-cluster in het DR-datacenter.
Als de connectie met het DR-target gelukt is, kan je binnen Prism Central ook de VM’s in het DR-datacenter bekijken.
Zoals je kan zien in de afbeelding, draaien mijn test workloads in datacenter 1 op een VMware ESXi-cluster en behoren ze tot de categorie BVP-LEAP-DEMO.
Dan maak je een protection policy aan. Geef een naam, selecteer de locatie waar je wil recoveren en kies optioneel de cluster waar de workloads moeten terechtkomen. In dit voorbeeld maak ik failovers van de VMware ESXi-cluster naar een Nutanix AHV-cluster. De Cross Hypervisor DR-functionaliteit wordt gelukkig al even ondersteund door Nutanix.
Defineer de RPO, de frequentie (hier elk uur) en de retentie op zowel de lokale omgeving als de remote omgeving. Hier kies ik er ook voor om applicatieconsistente recovery punten te maken. (take app-consistent recovery points)
Als laatste hang ik deze policy aan de categorie BVP-LEAP-DEMO zodat het geldig is voor elke workload in deze categorie. Zo moet je niet elke nieuwe workload manueel aan de policy hangen. Weer een tijdsbesparing!
Hoera, onze workloads zijn nu beschermd!
Alle configuratie gebeurt nu automatisch en de workloads worden lokaal beschermd én gerepliceerd naar de DR-locatie zonder verdere manuele stappen. Bovendien krijg je per workload een handig overzicht.
Nu kan je het Recovery Plan opmaken.
Kies een Recovery locatie:
Definieer een opstartvolgorde.
En bepaal vervolgens de netwerkmapping.
Ik doe een mapping tussen source en target vlans voor failover en test failovers. VM’s zullen automatisch een IP-adres in het juiste subnet krijgen.
Je ziet op het Prism Central dashboard nu ook twee nieuwe widgets:
Zo, alles is geconfigureerd en je kan starten met testen of een effectieve failover uitvoeren.
Je ziet niet alleen de opties Validate, Test en Failover maar ook een Clean test VM’s.
Belangrijke opmerking: je kan deze opties enkel uitvoeren vanuit de DR-locatie!
Bij Validate doet Nutanix enkel de pre-checks en daar stopt het. Bij Test en Failover worden pre-checks ook altijd uitgevoerd, maar gaan de acties verder.
Als je een failover wil uitvoeren, kan je kiezen tussen twee soorten:
Planned failover: de laatste wijzigingen worden eerst gerepliceerd naar de DR-locatie, dan pas wordt de source workload afgezet.
Unplanned failover: Leap gaat ervan uit dat de bronlocatie niet meer beschikbaar is en werkt op basis van het laatste recovery point.
Je kan het volledige proces volgen in Prism Central (mits wat refresh-werk 😉).
De Validate-stap faalt in deze testomgeving door gebrek aan Ultimate License, maar gelukkig kan je bij Nutanix steeds alle functionaliteiten testen zonder een licentie. 😉
Test de Leap feature vooral zelf uit, het scheelt je een pak tijd en nadenkwerk!
Wil je wat meer gedetailleerde info? Check gerust mijn YouTube demo’s:
Vragen? Bedenkingen? Ervaringen?
Met dank aan:
Bart Van Praet
Infrastructure architect
Nutanix Tech Champion