一次惊心动魄的ASM磁盘头损坏故障处理过程带来的深思-mysql教程-PHP中文網

首頁

資料庫

mysql教程

一次惊心动魄的ASM磁盘头损坏故障处理过程带来的深思

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 05:17 PM

Oracle数据库，为了防止数据丢失以及构建高可用环境给出了多种架构方式。例如，为了防止Oracle实例级别的单点故障提供了RAC技术（

数据通常比喻为企业的血液和生命，数据安全一直是大家非常重视的话题。

Oracle数据库，为了防止数据丢失以及构建高可用环境给出了多种架构方式。例如，为了防止Oracle实例级别的单点故障提供了RAC技术（Real Application Clusters，真正的应用集群），RAC以Share Everything的架构方式使多个主机实例可以共享一套存储上的数据，从而避免了由于个别实例出现故障导致数据库不可用；RAC技术仅仅给出了实例层面的高可用解决方案，为了防止存储层面的单点故障，Oracle又提出了Data Guard（数据卫士）技术，无论是逻辑Data Guard还是物理Data Guard都从存储层面解决了单点故障，同时也是灾备技术的最佳选择。基于RAC和Data Guard技术，Oracle进一步又推出了MAA架构方式，即主站点是RAC架构方式，备用站点也是RAC架构方式，主备站点之间通过Data Guard技术使用redo传输变化的数据，确保备站点与主站点之间达到实时或者准实时的数据一致。

除此之外，Oracle还提供了各种备份恢复工具，比如物理备份恢复工具RMAN、逻辑备份恢复工具EXP/IMP EXPDP/IMPDP。基于这些工具便可以定制一套有效的备份恢复策略，以便防止数据丢失。

以上技术手段都是确保数据不丢失的必要条件，绝非充分条件！这些技术固然重要，但是与之相比，更加重要的是“人”的因素。再优秀的技术，如果没有人来定期做健康检查并排查潜在问题的话，这些都是“浮云”。这里给大家分享一个最近刚刚为客户处理完的一个Case。起到警示的作用。

【数据库环境描述】：

数据库类型：某政府核心生产系统

影响范围：全国性

数据量： 8T

主机类型： IBM 570

数据库版本： 10.2.0.4.0

ASM版本： 10.2.0.4.0

数据库架构方式：两节点RAC架构方式；存储使用ASM技术，并且ASM磁盘头没有备份；未部署Data Guard灾备站点；归档模式，，使用RMAN做全库及增量备份。

【故障现象】：

在手工为表空间添加数据文件的时候，触发ASM磁盘头损坏，ASM的alert日志中记录了如下信息：

Sat Jun 9 01:45:51 2012

WARNING: cache read a corrupted block gn=1 dsk=39 blk=18 from disk 39

NOTE: a corrupted block was dumped to the trace file

ERROR: cache failed to read dsk=39 blk=18 from disk(s): 39

ORA-15196: invalid ASM block header [kfc.c:8033] [check_kfbh] [2147483687] [18] [2154781313 != 2634714205]

System State dumped to trace file /home/oracle/admin/+ASM/bdump/+asm1_arb0_602136.trc

NOTE: cache initiating offline of disk 39 group 1

WARNING: offlining disk 39.3734428818 (BDC_DATA_0039) with mask 0x3

NOTE: PST update: grp = 1, dsk = 39, mode = 0x6

【艰难的数据恢复过程】：

第一次尝试：直接恢复ASM磁盘头数据

尝试使用Oracle KFED（Kernel Files Editor）工具修改ASM磁盘头，如果这种方式能够顺利的恢复ASM磁盘头的话，将是一种完美的结局，然而事与愿违，此时的ASM磁盘头损坏非一般类型的损坏（故障原因中给出分析），使用KFED无法完成恢复。第一次梦魇不期而遇。

第二次尝试：使用RMAN进行数据恢复

既然每天都做RMAN的备份，正常情况下便可以使用RMAN进行数据恢复。因此，找来设备上尝试数据恢复（提醒：千万不要在生产环境上尝试恢复，保留现场很重要！），8T的数据拷贝以及恢复时间都是不可想象的，经过漫长的17小时的恢复，梦魇再一次来袭，在尝试恢复的过程中突然发现，RAC的第二节点上的归档日志不完整，仅剩半个月之前的归档日志，这是不可饶恕的，这也就意味着，使用RMAN工具最多只能恢复到15天前的数据，最近半个月的数据将荡然无存。这便是典型的“无人值守”导致的灾难。

第三次尝试：尽最大努力挽回数据

由于RAC第二节点归档日志的丢失导致最多可以恢复到15天前的数据，但也不要放弃希望，尽一切努力进行数据恢复。再次尝试使用RMAN恢复数据到15天前。正如小说中常见的情景，此时，梦魇又一次降临到这套可怜的数据库！即便恢复到了15天前的数据，发现数据库依然无法正常open。尝试各种手段，启用隐含参数等方法，亦不奏效。使用各种手段强制open数据库后alert日志中频现ORA-00600错误，即使在逻辑导出数据的过程中，都在频繁的抛出 ORA-00600错误。最终以备份介质无效无法完美恢复而终止。

第四次终极处理方法：使用工具直接抽取ASM磁盘组中的数据

在客户几近崩溃的时候，最终选择了直接数据抽取方法进行恢复，直接抽取ASM磁盘组中的数据，构造出数据文件的全貌，又是一个10多小时的漫长数据抽取恢复时间。经过漫长的等待之后，经验证，数据完美恢复完毕，没有让客户丢失任何一条重要数据！

【故障原因】：

此次故障推测是由于底层磁盘的映射混乱导致的，比如主机重启后导致disk number变化，导致Oracle认为ASM磁盘组的某块盘是voting disk，进而错误的写入了心跳信息，覆盖了原来位置上的ASM元数据ALT，这样一旦有大规模的reblance操作需要改上述ALT时，ASM便出现了上述故障。这种故障是无法通过简单的KFED工具进行恢复的。

【数据安全故障总结】：

这个Case中的故障本身并不可怕，可怕的是这个过程中出现的各种险情，发人深思。我们经常提到“备份重于一切”、“有备无患”等DBA职业操守。我认为最佳的诠释应该再加一条：在可信的架构方式下，定期对备份介质进行有效性验证，及灾备环境DRP演练的前提下！

针对此次故障的前因后果，给出以下建议：

1.给出高可用解决方案；建议使用Data Guard技术做远程灾备；

2.RMAN物理备份以及逻辑备份介质，要定期做备份介质有效性验证；

3.“人”的因素，制定严格的备份恢复检查机制，对备份以及灾备环境进行日常检查；

4.前期的架构设计很重要；

5.……

linux

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1669

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1273

C# 教程

1256

Related knowledge

MySQL的角色：Web應用程序中的數據庫 Apr 17, 2025 am 12:23 AM

MySQL在Web應用中的主要作用是存儲和管理數據。 1.MySQL高效處理用戶信息、產品目錄和交易記錄等數據。 2.通過SQL查詢，開發者能從數據庫提取信息生成動態內容。 3.MySQL基於客戶端-服務器模型工作，確保查詢速度可接受。

說明InnoDB重做日誌和撤消日誌的作用。 Apr 15, 2025 am 12:16 AM

InnoDB使用redologs和undologs確保數據一致性和可靠性。 1.redologs記錄數據頁修改，確保崩潰恢復和事務持久性。 2.undologs記錄數據原始值，支持事務回滾和MVCC。

MySQL與其他編程語言：一種比較 Apr 19, 2025 am 12:22 AM

MySQL与其他编程语言相比，主要用于存储和管理数据，而其他语言如Python、Java、C 则用于逻辑处理和应用开发。MySQL以其高性能、可扩展性和跨平台支持著称，适合数据管理需求，而其他语言在各自领域如数据分析、企业应用和系统编程中各有优势。

MySQL索引基數如何影響查詢性能？ Apr 14, 2025 am 12:18 AM

MySQL索引基数对查询性能有显著影响：1.高基数索引能更有效地缩小数据范围，提高查询效率；2.低基数索引可能导致全表扫描，降低查询性能；3.在联合索引中，应将高基数列放在前面以优化查询。

初學者的MySQL：開始數據庫管理 Apr 18, 2025 am 12:10 AM

MySQL的基本操作包括創建數據庫、表格，及使用SQL進行數據的CRUD操作。 1.創建數據庫：CREATEDATABASEmy_first_db;2.創建表格：CREATETABLEbooks(idINTAUTO_INCREMENTPRIMARYKEY,titleVARCHAR(100)NOTNULL,authorVARCHAR(100)NOTNULL,published_yearINT);3.插入數據：INSERTINTObooks(title,author,published_year)VA

MySQL與其他數據庫：比較選項 Apr 15, 2025 am 12:08 AM

MySQL適合Web應用和內容管理系統，因其開源、高性能和易用性而受歡迎。 1)與PostgreSQL相比，MySQL在簡單查詢和高並發讀操作上表現更好。 2)相較Oracle，MySQL因開源和低成本更受中小企業青睞。 3)對比MicrosoftSQLServer，MySQL更適合跨平台應用。 4)與MongoDB不同，MySQL更適用於結構化數據和事務處理。

解釋InnoDB緩衝池及其對性能的重要性。 Apr 19, 2025 am 12:24 AM

InnoDBBufferPool通過緩存數據和索引頁來減少磁盤I/O，提升數據庫性能。其工作原理包括：1.數據讀取：從BufferPool中讀取數據；2.數據寫入：修改數據後寫入BufferPool並定期刷新到磁盤；3.緩存管理：使用LRU算法管理緩存頁；4.預讀機制：提前加載相鄰數據頁。通過調整BufferPool大小和使用多個實例，可以優化數據庫性能。

MySQL：結構化數據和關係數據庫 Apr 18, 2025 am 12:22 AM

MySQL通過表結構和SQL查詢高效管理結構化數據，並通過外鍵實現表間關係。 1.創建表時定義數據格式和類型。 2.使用外鍵建立表間關係。 3.通過索引和查詢優化提高性能。 4.定期備份和監控數據庫確保數據安全和性能優化。

See all articles

一次惊心动魄的ASM磁盘头损坏故障处理过程带来的深思

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題