Panduan recovery RAID 1 (mirror) Linux |
Written by ari | |
Tuesday, 19 September 2006 | |
Di artikel sebelumnya kita telah belajar cara membuat server dengan RAID 1 (mirror) menggunakan solusi software Raid Linux. Dan juga kita sempat mensimulasikan kegagalan salah satu harddisk. Namun bagaimana jika kita BENAR2 mengalami kegagalan harddisk? Jangan panik, berikut ini langkah2nya. Tapi sebelumnya dari mana kita tahu bahwa salah satu harddisk di raid array kita gagal/rusak? Inilah yang menenangkannya: Linux akan mengirimkan email secara otomatis ke kita jika salah satu raid arraynya gagal.
Seperti ini emailnya: DegradedArray event on /dev/md0:server-mail3.kantorku.kom From: mdadm monitoring < root@kantorku.kom > To: root@kantorku.kom Date: Yesterday 18:53:45 This is an automatically generated mail message from mdadm running on server-mail3.kantorku.kom A DegradedArray event had been detected on md device /dev/md0. Faithfully yours, etc. Secara garis besar, langkah2 penanganan kejadiah seperti ini adalah: 1. Jangan panik. Grogi boleh, tapi jangan berlebihan. Konsentrasilah penuh, terutama pada saat partisi harddisk. 2. Cek status RAID arraynya. 3. Coba rebuild kembali arraynya. 4. Bila gagal, berarti ada kerusakan di fisik harddisknya. 5. Siapkan harddisk pengganti yang identik merek, model dan kapasitasnya. 6. Partisi harddisk pengganti tersebut secara identik dengan scheme yang kita gunakan. 7. Rebuild kembali raid arraynya. 8. Test harddisk baru tersebut. Baiklah kita jabarkan lebih lanjut langkah2nya: 1. Jangan panik. Deg2an wajar, tapi tetap tenang. Percaya diri bahwa kejadian seperti ini cepat atau lambat pasti terjadi. Tinggal tergantung bagaimana kita meresponnya apakah siap atau tidak, dan sebagai admin Linux yang baik tentu kita sudah siap. Siapkan referensi command2 yang akan diperlukan bila belum hapal, dan juga bukalah 2 buah terminal untuk memudahkan kita memonitor apa yang terjadi. Baca setiap command yang kita ketikkan 2-3 kali sebelum menekan tombol enter. Terutama jangan sampai TERTUKAR antara sda dan sdb. Bila ternyata harddisk yang rusak adalah sda, kemudian kita tidak sengaja justru mempartisi sdb, hilanglah semuanya. Berkonsentrasilah, bila perlu bilang kepada rekan lain bahwa untuk sementara waktu kita tidak menerima telpon dahulu dari siapapun, atau sebaiknya lakukan recovery ini di malam hari di saat tidak ada yang dapat mengganggu kita (kecuali bila kantor kamu ada makhluk halusnya). 2. Cek status RAID arraynya. Login ke server dan gunakan command ini untuk mengecek status raid array: [root@server-mail3 ~]# cat /proc/mdstat Personalities : [raid1] md1 : active raid1 sdb2[1] 243995136 blocks [2/1] [_U] md0 : active raid1 sdb1[1] 200704 blocks [2/1] [_U] unused devices: Terlihat bahwa sda tidak aktif di dalam raid array, baik di array md0 maupun md1. 3. Kita bisa mencoba untuk merebuild kembali raid arraynya. [root@server-mail3 ~]# mdadm /dev/md0 -a /dev/sda1 [root@server-mail3 ~]# mdadm /dev/md1 -a /dev/sda2 4. Bila gagal, berarti ada kerusakan di fisik harddisknya. Dalam kasus saya ini, md0 berhasil di rebuild, namun ketika merebuild md1, ternyata server restart sendiri. Dicoba beberapa kali tetap restart terus. Bila terjadi hal ini, maka untuk mencegah kerusakan lebih lanjut akibat terjadinya restart terus menerus, maka kita mesti menonaktifkan sda dari raid array: [root@server-mail3 ~]# mdadm /dev/md0 -f /dev/sda1 [root@server-mail3 ~]# mdadm /dev/md1 -f /dev/sda2 Kemudian kita remove sda dari raid array: [root@server-mail3 ~]# mdadm /dev/md0 -r /dev/sda1 [root@server-mail3 ~]# mdadm /dev/md1 -r /dev/sda2 5. Siapkan harddisk pengganti yang identik merek, model dan kapasitasnya. Hal ini penting sebab bila harddisk pengganti itu ternyata kapasitasnya lebih kecil, maka kita tidak akan dapat merebuild raid arraynya secara sempurna. 6. Perhatian, di langkah ke-6 dibutuhkan konsentrasi tinggi. Kini kita mempartisi harddisk pengganti ini. Jangan lupa dipasang dulu ke servernya. Hehe.. 6a. Tunggu dulu, dari mana kita tahu bagaimana skema partisinya? Kita bisa melihatnya dari harddisk yang masih bekerja bagus, yaitu sdb: [root@server-mail3 ~]# fdisk -l /dev/sdb Disk /dev/sdb: 250.0 GB, 250059350016 bytes 255 heads, 63 sectors/track, 30401 cylinders Units = cylinders of 16065 * 512 = 8225280 bytes Device Boot Start End Blocks Id System /dev/sdb1 * 1 25 200781 fd Linux raid autodetect /dev/sdb2 26 30401 243995220 fd Linux raid autodetect Dari data di atas kita dapat mengetahui bahwa: - Partisi sdb1 dimulai dari cylinder 1 s/d 25, jenis partisinya adalah fd (Linux raid) - Partisi sdb2 dimulai dari cylinder 26 s/d 30401, jenis partisinya adalah fd (Linux raid) 6b. Mari kita mulai mempartisi harddisk pengganti tersebut. Ingat, tetap konsentrasi. - Sebelumnya kita pastikan bahwa benar sda belum ada partisi apapun: [root@server-mail3 ~]# fdisk -l /dev/sda Disk /dev/sda: 250.0 GB, 250059350016 bytes 255 heads, 63 sectors/track, 30401 cylinders Units = cylinders of 16065 * 512 = 8225280 bytes Disk /dev/sda doesn't contain a valid partition table - Kita mulai partisi sda: [root@server-mail3 ~]# fdisk /dev/sda Device contains neither a valid DOS partition table, nor Sun, SGI or OSF disklabel Building a new DOS disklabel. Changes will remain in memory only, until you decide to write them. After that, of course, the previous content won't be recoverable. The number of cylinders for this disk is set to 30401. There is nothing wrong with that, but this is larger than 1024, and could in certain setups cause problems with: 1) software that runs at boot time (e.g., old versions of LILO) 2) booting and partitioning software from other OSs (e.g., DOS FDISK, OS/2 FDISK) Warning: invalid flag 0x0000 of partition table 4 will be corrected by w(rite) Command (m for help): Mari kita ketik m untuk melihat command apa saja yang ada. Command (m for help): m Command action a toggle a bootable flag b edit bsd disklabel c toggle the dos compatibility flag d delete a partition l list known partition types m print this menu n add a new partition o create a new empty DOS partition table p print the partition table q quit without saving changes s create a new empty Sun disklabel t change a partition's system id u change display/entry units v verify the partition table w write table to disk and exit x extra functionality (experts only) Dari help di atas terlihat bahwa untuk membuat partisi baru commandnya adalah: n Kita buat partisi sda1: Command (m for help): n Command action e extended p primary partition (1-4) p Partition number (1-4): 1 First cylinder (1-30401, default 1): 1 Last cylinder or +size or +sizeM or +sizeK (1-30401, default 30401): 25 Kemudian partisi sda2: Command (m for help): n Command action e extended p primary partition (1-4) p Partition number (1-4): 2 First cylinder (26-30401, default 26): Using default value 26 Last cylinder or +size or +sizeM or +sizeK (26-30401, default 30401): Using default value 30401 6c. Selanjutnya kita mesti mendefinisikan jenis partisinya, dalam hal ini adalah: fd (Linux raid auto). Kita lihat daftarnya bila perlu. Command (m for help): t Partition number (1-4): 1 Hex code (type L to list codes): L 0 Empty 1e Hidden W95 FAT1 75 PC/IX be Solaris boot 1 FAT12 24 NEC DOS 80 Old Minix bf Solaris 2 XENIX root 39 Plan 9 81 Minix / old Lin c1 DRDOS/sec (FAT- 3 XENIX usr 3c PartitionMagic 82 Linux swap c4 DRDOS/sec (FAT- 4 FAT16 <32m> 5 Extended 41 PPC PReP Boot 84 OS/2 hidden C: c7 Syrinx 6 FAT16 42 SFS 85 Linux extended da Non-FS data 7 HPFS/NTFS 4d QNX4.x 86 NTFS volume set db CP/M / CTOS / . 8 AIX 4e QNX4.x 2nd part 87 NTFS volume set de Dell Utility 9 AIX bootable 4f QNX4.x 3rd part 8e Linux LVM df BootIt a OS/2 Boot Manag 50 OnTrack DM 93 Amoeba e1 DOS access b W95 FAT32 51 OnTrack DM6 Aux 94 Amoeba BBT e3 DOS R/O c W95 FAT32 (LBA) 52 CP/M 9f BSD/OS e4 SpeedStor e W95 FAT16 (LBA) 53 OnTrack DM6 Aux a0 IBM Thinkpad hi eb BeOS fs f W95 Ext'd (LBA) 54 OnTrackDM6 a5 FreeBSD ee EFI GPT 10 OPUS 55 EZ-Drive a6 OpenBSD ef EFI (FAT-12/16/ 11 Hidden FAT12 56 Golden Bow a7 NeXTSTEP f0 Linux/PA-RISC b 12 Compaq diagnost 5c Priam Edisk a8 Darwin UFS f1 SpeedStor 14 Hidden FAT16 <3> 16 Hidden FAT16 63 GNU HURD or Sys ab Darwin boot f2 DOS secondary 17 Hidden HPFS/NTF 64 Novell Netware b7 BSDI fs fd Linux raid auto 18 AST SmartSleep 65 Novell Netware b8 BSDI swap fe LANstep 1b Hidden W95 FAT3 70 DiskSecure Mult bb Boot Wizard hid ff BBT 1c Hidden W95 FAT3 Hex code (type L to list codes): fd Changed system type of partition 1 to fd (Linux raid autodetect) Yang sda2 juga: Command (m for help): t Partition number (1-4): 2 Hex code (type L to list codes): fd Changed system type of partition 2 to fd (Linux raid autodetect) Jangan lupa kita setel juga partisi sda1 sebagai boot partition: Command (m for help): a Partition number (1-4): 1 6d. Setelah selesai, dan yakin bahwa kita tidak melakukan kesalahan, maka kita save skema partisi yang kita buat ini. Command (m for help): w The partition table has been altered! Calling ioctl() to re-read partition table. Syncing disks. 6e. Kernel menyimpan informasi partisi di memory, yang dibaca pada saat booting. Bila kita tidak ingin melakukan booting ulang, maka kita bisa menggunakan command ini untuk memaksa kernel membaca kembali table partisi: partprobe 6f. Kita cek bahwa kernel telah mengenali partisi yang baru di sda: [root@server-mail3 ~]# fdisk -l /dev/sda Disk /dev/sda: 250.0 GB, 250059350016 bytes 255 heads, 63 sectors/track, 30401 cylinders Units = cylinders of 16065 * 512 = 8225280 bytes Device Boot Start End Blocks Id System /dev/sda1 * 1 25 200781 fd Linux raid autodetect /dev/sda2 26 30401 243995220 fd Linux raid autodetect 7. Kini saatnya kita membangun kembali raid array mirror kita. Di step ini juga diperlukan konsentrasi tinggi. Jangan sampai salah ketik. 7a. Kita lihat bahwa raid array belum terbuild: [root@server-mail3 ~]# cat /proc/mdstat Personalities : [raid1] md1 : active raid1 sdb2[1] 243995136 blocks [2/1] [_U] md0 : active raid1 sdb1[1] 200704 blocks [2/1] [_U] unused devices: 7b. Kita add /dev/sda1 ke dalam array /dev/md0: [root@server-mail3 ~]# mdadm /dev/md0 -a /dev/sda1 mdadm: hot added /dev/sda1 Kita dapat lihat proses rebuildingnya: [root@server-mail3 ~]# cat /proc/mdstat Personalities : [raid1] md1 : active raid1 sdb2[1] 243995136 blocks [2/1] [_U] md0 : active raid1 sda1[2] sdb1[1] 200704 blocks [2/1] [_U] [==============>......] recovery = 74.1% (150464/200704) finish=0.0min speed=37616K/sec Setelah beberapa saat, /dev/md0 telah selesai di rebuild: [root@server-mail3 ~]# cat /proc/mdstat Personalities : [raid1] md1 : active raid1 sdb2[1] 243995136 blocks [2/1] [_U] md0 : active raid1 sda1[0] sdb1[1] 200704 blocks [2/2] [UU] unused devices: 7c. Kemudian kita add juga /dev/sda2 ke /dev/md1: [root@server-mail3 ~]# mdadm /dev/md1 -a /dev/sda2 mdadm: hot added /dev/sda2 Segera dia akan otomatis merebuild arraynya: [root@server-mail3 ~]# cat /proc/mdstat Personalities : [raid1] md1 : active raid1 sda2[2] sdb2[1] 243995136 blocks [2/1] [_U] [>....................] recovery = 0.2% (606656/243995136) finish=80.2min speed=50554K/sec md0 : active raid1 sda1[0] sdb1[1] 200704 blocks [2/2] [UU] unused devices: Di server saya, proses rebuild mirror untuk harddisk sebesar 250GB memerlukan waktu 1,5 jam. 7d. Setelah selesai, maka di /proc/mdstat kita dapat melihat bahwa array telah sempurna kembali: [root@server-mail3 ~]# cat /proc/mdstat Personalities : [raid1] md1 : active raid1 sda2[0] sdb2[1] 243995136 blocks [2/2] [UU] md0 : active raid1 sda1[0] sdb1[1] 200704 blocks [2/2] [UU] unused devices: Juga di /var/log/messages ada pesan bahwa RAID 1 telah selesai direbuild: Sep 18 20:49:37 server-mail3 kernel: md: md1: sync done. Sep 18 20:49:37 server-mail3 kernel: RAID1 conf printout: Sep 18 20:49:37 server-mail3 kernel: --- wd:2 rd:2 Sep 18 20:49:37 server-mail3 kernel: disk 0, wo:0, o:1, dev:sda2 Sep 18 20:49:37 server-mail3 kernel: disk 1, wo:0, o:1, dev:sdb2 INSTALL GRAB
masuk ke Grub command line: # grub Install grub pada MBR: grub> device (hd0) /dev/sdb (or /dev/hdb for IDE drives) 8. Test harddisk baru tersebut dengan mencopot atau menonaktifkan sdb. Resources:
|