myBackup: Certaines sauvegardes VMware se terminent en code 156...

Problème du jour, identifié avec pas mal de chance, et qui peut vous poser des soucis également, alors je partage l'info.

Le problème était le suivant : sur une infra NetBackup classique, NetBackup en 7.5.0.6, sauvegarde sur bande, j'avais des sauvegardes VMware configurées quelques mois plus tôt et qui se déroulaient très bien. Mais depuis quelques temps, certaines VMs n'étaient plus sauvegardées, toute tombaient en code 156.

Pour rappel, le code 156 est une erreur de snapshot, indispensable à toute sauvegarde de VM. J'ai commencé, comme toujours dans ce cas, à valider la possibilité le faire des snapshots coté VMware, tout était ok.

D'ailleurs, je me suis aperçu que même les demandes de snapshots par NetBackup échouaient avant même de provoquer la prise d'image coté vCenter.

Dans les logs NetBackup bpfis sur le media serveur, des erreurs basiques et pas trop parlantes, comme dans le job de sauvegarde lui même :

10 févr. 2014 21:00:00 - Info nbjm (pid=2577) starting backup job (jobid=100723) for client <Client>, policy VMware_Prod, schedule Incr

10 févr. 2014 21:00:00 - Info nbjm (pid=2577) requesting STANDARD_RESOURCE resources from RB for backup job (jobid=100723, request id:{EC849602-928D-11E3-84A2-0E6ECE4CEAEC})

10 févr. 2014 21:00:00 - requesting resource LB_Montpeliier_EML

10 févr. 2014 21:00:00 - requesting resource backup.NBU_CLIENT.MAXJOBS.<Client>

10 févr. 2014 21:00:00 - requesting resource backup.NBU_POLICY.MAXJOBS.VMware_Prod

10 févr. 2014 21:00:14 - awaiting resource <STU Group>. Waiting for resources.

Reason: Drives are in use, Media server: <Media Server>,

Robot Type(Number): TLD(0), Media ID: N/A, Drive Name: N/A,

Volume Pool: VMware_Day, Storage Unit: <Storage Unit>, Drive Scan Host: N/A,

Disk Pool: N/A, Disk Volume: N/A

10 févr. 2014 21:03:58 - granted resource backup.NBU_CLIENT.MAXJOBS.<Client>

10 févr. 2014 21:03:58 - granted resource backup.NBU_POLICY.MAXJOBS.VMware_Prod

10 févr. 2014 21:03:58 - granted resource 008109

10 févr. 2014 21:03:58 - granted resource HP.ULTRIUM4-SCSI.002

10 févr. 2014 21:03:58 - granted resource <Storage Unit>

10 févr. 2014 21:03:58 - estimated 0 kbytes needed

10 févr. 2014 21:03:58 - begin Parent Job

10 févr. 2014 21:03:58 - begin VMware: Start Notify Script

10 févr. 2014 21:03:58 - Info RUNCMD (pid=21091) started

10 févr. 2014 21:03:58 - Info RUNCMD (pid=21091) exiting with status: 0

Operation Status: 0

10 févr. 2014 21:03:58 - begin VMware: Step By Condition

Operation Status: 0

10 févr. 2014 21:03:58 - end VMware: Step By Condition; elapsed time 0:00:00

10 févr. 2014 21:03:58 - begin VMware: Read File List

Operation Status: 0

10 févr. 2014 21:03:58 - end VMware: Read File List; elapsed time 0:00:00

10 févr. 2014 21:03:58 - begin VMware: Create Snapshot

10 févr. 2014 21:03:58 - started process bpbrm (pid=3048)

10 févr. 2014 21:04:02 - end writing

Operation Status: 156

10 févr. 2014 21:04:02 - end VMware: Create Snapshot; elapsed time 0:00:04

10 févr. 2014 21:04:02 - begin VMware: Stop On Error

Operation Status: 0

10 févr. 2014 21:04:02 - end VMware: Stop On Error; elapsed time 0:00:00

10 févr. 2014 21:04:02 - begin VMware: Delete Snapshot

10 févr. 2014 21:04:02 - started process bpbrm (pid=3136)

10 févr. 2014 21:04:03 - end writing

Operation Status: 1542

10 févr. 2014 21:04:03 - end VMware: Delete Snapshot; elapsed time 0:00:01

Operation Status: 156

10 févr. 2014 21:04:14 - Info bpbrm (pid=3048) <Client> is the host to backup data from

10 févr. 2014 21:04:14 - Info bpbrm (pid=3048) reading file list from client

10 févr. 2014 21:04:14 - Info bpbrm (pid=3048) start bpfis on client

10 févr. 2014 21:04:14 - Info bpbrm (pid=3048) Starting create snapshot processing

10 févr. 2014 21:04:15 - Info bpfis (pid=4068) Backup started

10 févr. 2014 21:04:15 - snapshot backup of client <Client> using method VMware_v2

10 févr. 2014 21:04:17 - Critical bpbrm (pid=3048) from client <Client>: FTL - VMware snapshot failed: Unrecognized error

10 févr. 2014 21:04:17 - Critical bpbrm (pid=3048) from client <Client>: FTL - snapshot processing failed, status 156

10 févr. 2014 21:04:17 - Critical bpbrm (pid=3048) from client <Client>: FTL - snapshot creation failed, status 156

10 févr. 2014 21:04:17 - Warning bpbrm (pid=3048) from client <Client>: WRN - ALL_LOCAL_DRIVES is not frozen

10 févr. 2014 21:04:17 - Info bpfis (pid=4068) done. status: 156

10 févr. 2014 21:04:17 - end VMware: Start Notify Script; elapsed time 0:00:19

10 févr. 2014 21:04:17 - Info bpfis (pid=0) done. status: 156: snapshot error encountered

10 févr. 2014 21:04:18 - Info bpbrm (pid=3136) Starting delete snapshot processing

10 févr. 2014 21:04:18 - Info bpfis (pid=0) Snapshot will not be deleted

10 févr. 2014 21:04:19 - Info bpfis (pid=3624) Backup started

10 févr. 2014 21:04:19 - Critical bpbrm (pid=3136) from client SLPPRAPP01: cannot open C:\Program Files\Veritas\NetBackup\online_util\fi_cntl\bpfis.fim.<Client>_1392062638.1.0

10 févr. 2014 21:04:19 - Info bpfis (pid=3624) done. status: 1542

10 févr. 2014 21:04:19 - end Parent Job; elapsed time 0:00:21

10 févr. 2014 21:04:19 - Info bpfis (pid=0) done. status: 1542: An existing snapshot is no longer valid and cannot be mounted for subsequent operations

snapshot error encountered (156)

J'ai cherché pas mal sans trouver trop de piste, puis en analysant coté vCenter les VMs impactées, je me suis rendu compte que 80% d'entre elles avaient des caractères accentués dans le display name. Ca se réchauffait.
J'ai cherché davantage pour trouver un point commun à toutes, et ça s'est avéré fructueux : toutes ces VMs avaient été créées avec un display name contenant des accents, ce qui a provoqué la création des vmdk dans des répertoires à nom accentués. Les machines sans accents dans le display name avaient juste été renommées par la suite, mais leur arborescence était restée intacte, provoquant également l'erreur.

Le plus simple pour solutionner cela, est de cloner les VMs à problème vers des VMs 'propres', mais cela nécessite une interruption de service.

Alors à l'avenir : pas de backup-host en français, ni de noms de VMs avec des accents (par contre, les caractères internationaux comme &# et autres fonctionnent bien)

myBackup

Tags

mardi 11 février 2014

Certaines sauvegardes VMware se terminent en code 156...

Aucun commentaire:

Enregistrer un commentaire

Rechercher dans ce blog