操作もメンテナンスもスムーズな鉄鍋
6 月 5 日、Vipshop は、2023 年 3 月 29 日の障害レポートを発表しました。南沙 IDC 冷凍システムの障害により、Vipshop オンライン モールはサービスを停止し、数億ドルの被害が発生しました。 (小規模な運用保守担当者として、私は震えています)。
Vipshop にとって、オンライン モールは事業の入り口であり、失敗は避けられませんが、これほど長期にわたる失敗は許されないのですが、なぜこのようなことが起こるのでしょうか。私たちのような小規模事業者の目には、このような規模の企業でこのような事故が起こるはずはなく、彼らの PPT を真似し、学びながら、どのように運営し維持するかを模索しています。
しかし、PPT は高度な機能を備えているため、障害の発生を完全に防ぐことができないのはなぜでしょうか。
私は個人的にいくつかの推測をしてみます:
- PPT≠ 現実
- フォールトドリル = 動作を実行しますか?
- 長生きしてください、それについて話してください?
- 賢い女性がご飯抜きで食事を作るのは難しい
PPT≠現実
今、国内でさまざまな技術カンファレンスが開催されていますが、有名企業のCTOや技術者を招聘 担当者がスピーチをしました スピーチを見る限り、どの企業も非常に強いです(少なくともPPTではそう示されています) 聞くたびに、私はそう思います「私はこれらの企業を心の底から尊敬しており、素晴らしい思考、素晴らしい能力、そしてクールなチームの素晴らしい力に感心しています。」
しかし、PPT は結局のところ補助ツールにすぎず、現状を置き換えることはできません。
美しいPPTは見たい人だけのもので、美しくないものは一人で我慢しなければなりません。
以前、GOPS で Vipshop の共有を見たことがありますが、PPT プレゼンテーションは本当に素晴らしかったです。これを上司に報告するために使用すると、上司も当社のテクノロジーが本当に強力で、私たちの仕事が本当に素晴らしいと感じるでしょう。それは上司にすべてがうまくいったという錯覚を与えました。
何か問題が起こった場合、あなたがやらなければ誰がしますか?
自分の口から吹き出した凄さは自分の口にも戻ってくる。
フォールトドリル = 動作を確認しますか?
書籍『SRE: Decryption of Google Operations and Maintenance』では、障害訓練が大きなスペースを占めています。障害訓練を通じて、システムの信頼性と耐障害性を向上させることができ、チームはシステムのアーキテクチャと動作原理をよりよく理解でき、各モジュールの相互影響をよりよく理解でき、システム アーキテクチャの抜け穴や抜け穴を見つけることができます。より早く発見されます。
障害訓練は、チームが実際の障害を最小限に抑え、起こり得る問題により効率的に対応できるようになるため、全体の安定性保証の中核となるものであると言えます。
しかし、これは実際に真実でしょうか?
実際に障害訓練を実施する場合、障害箇所をあらかじめ定め、具体的な対策を整理して出力し、総合計画を策定し、各人の職務責任と課題を正確に記述する必要があります。
これらの準備作業だけでも多くの人的資源と物的リソースが必要です。多くのチームと多くの人々が手順と対策を合理化します。彼らは障害訓練を「必ず実行する」という心構えで扱い、障害に対処するという心構えで行います。幸運自体、他の人が問題を抱えていないことに希望を置きます。
例えば、パブリッククラウドに期待する場合、パブリッククラウドに問題がなければシステム全体は安定しますが、パブリッククラウド≠は完全に信頼できます。 Google Cloud、Alibaba Cloud、Tencent Cloud など。ただし、料金を支払うのはユーザー自身です。
したがって、運用保守チームまたは SRE チームは障害訓練に真剣に取り組む必要があり、訓練の準備作業を行うだけでなく、訓練中も計画に細心の注意を払い、タイムリーに実行する必要があります。問題が発見された場合には、対処および修正を行います。
訓練を形式的なものにしないでください。訓練を KPI にしないでください。そうしないと、あなたが次の最適化のターゲットになってしまいます。
ただの話ですか?
3 月 29 日の Vipshop の問題は、側面から見ると、「Duohuo」は単なる口論かもしれません。
高可用性に対する要件はますます高くなっているため、ビジネスが発展するにつれて、システム アーキテクチャは進化し続けます。
たとえば、同じコンピューター ルーム内の単一マシン アーキテクチャからアクティブ/スタンバイ アーキテクチャにアップグレードし、次に同じ都市内のマルチ マシン ルーム アーキテクチャにアップグレードし、最終的に 3 センター アーキテクチャに到達します。 2か所でレベルを上げます。
Vipshop が同じ都市に複数のコンピュータ ルームを構築した場合、同じ都市にある最も単純なメイン システムとバックアップ システムであっても 12 時間ダウンすることはありません。
同じ都市に二重に住んでいる場合は言うまでもありません。
しかし、私は神の観点から推測しているだけです。もしかしたら彼らもたくさん仕事をしているのかもしれないが、ただたくさん働いているふりをしているだけだ。
賢い女性にとって、米なしで食事を作るのは難しいです
上記の上司たちは、最終的には経済的、人的、物質的なリソースをすべて考え出します。例として、市全体の防災体制を構築する、投資コストはダボほど単純ではない、SRE担当者が資金申請を報告するたびに、上のリーダーが支援しなければ(お金は稼げない)、 、しかし非常に多くの費用がかかります)、すべてが無駄です。
リーダーはコストをコントロールする必要があり、部下は何かをするためにお金が必要です。コストが不足すると経営が成り立たなくなり、PPT は美しくても現実はひどいという状況が発生します。
野心があっても無駄です。
何か問題が起こったら、私はあなたを天国に犠牲にします。
最後に
#上記はまったくの架空のものです。類似点がある場合は、気に入ってください~
多くの企業では、運用と保守に強いと言います 低い、ばかばかしいほど低い、そのため、運用や保守が物事を行ったり、物事を進めたりすることが困難になります。
しかし、ひとたび問題が発生すると、真っ先に運用保守が押しのけられるため、常に運用保守が「スケープゴート」の責任を負わされてきました。
それでは、運用保守担当者として何をすべきでしょうか?
- 外へ出てみましょう - 運用保守チームに限定されず、外に出て、運用保守の価値を事業部門に知らせてください。
- 内部に入る - 運用および保守の知識システムは複雑で常に変化します。知識の内部に入り込み、その背後にある原則を深く理解し、専門知識を活用してチームに貢献する必要があります。
- 上へ - 運営と保守の影響力を向上させ、専門的な能力と積極的な姿勢を通じてより多くの信頼とサポートを獲得し、現状を変え、ステータスを向上させます。
最後に、これについて話しましょう。プロダクションを馬鹿にしないでください。
以上が操作もメンテナンスもスムーズな鉄鍋の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









昔、コンピュータサイエンスを専攻していた新卒の頃、求人サイトでたくさんの求人情報を見ていたのですが、研究開発エンジニア、運用保守エンジニア、テストエンジニア…というまぶしい技術職に戸惑いました。 、私の専門コースはまあまあで、技術的なビジョンを持っていなかったことは言うまでもなく、どの技術的な方向性を追求するかについて明確なアイデアがありませんでした。先輩に「運用保守をやれ。運用保守は毎日コードを書く必要はない。Liunx が遊べるようになればいい!開発よりずっと楽だよ!」と言われるまでは、私はその道を選びました。信じられない...私はこの業界に10年以上従事しており、多くの苦しみ、多くの責任を負い、サーバーを停止させ、部門の解雇を経験しました。今、誰かが開発より運用と保守の方が簡単だと言うなら、 、それならそうします

1. SpringBootActuator エンドポイントの概要 1.1 Actuator エンドポイントとは SpringBootActuator は、SpringBoot アプリケーションを監視および管理するために使用されるサブプロジェクトです。アプリケーションのステータス、動作ステータス、動作インジケーターを表示するために使用できる一連の組み込みエンドポイント (エンドポイント) を提供します。アクチュエータ エンドポイントは、HTTP、JMX、またはその他の形式で外部システムに公開できるため、運用および保守担当者がアプリケーションを監視、診断、管理することが容易になります。 1.2 エンドポイントの役割と機能 Actuator エンドポイントは主に次の機能を実装するために使用されます: データベース接続、キャッシュ、

インターネットの急速な発展に伴い、エンタープライズレベルのアプリケーションの複雑さは日に日に増しています。この状況に対応して、マイクロサービス アーキテクチャが登場しました。そのモジュール性、独立した展開、および高い拡張性により、今日ではエンタープライズレベルのアプリケーション開発の最初の選択肢となっています。 Spring Cloud は優れたマイクロサービス アーキテクチャとして、実際のアプリケーションで大きな利点を示しています。この記事では、SpringCloud マイクロサービス アーキテクチャのデプロイと運用保守について紹介します。 1. SpringCloud マイクロサービス アーキテクチャ SpringCloud をデプロイする

連休前に、PG China コミュニティと協力して、D-SMART を使用して PG データベースを運用および保守する方法についてオンライン ライブ ブロードキャストを実施したところ、金融業界のクライアントの 1 人が私の紹介を聞いて電話をかけてきました。チャットするために。彼らはデータベース Xinchuang を選択し、いくつかの国内データベースを試しましたが、最終的に TDSQL を選択する予定です。そのとき少し驚いたのは、2020年から国内データベースを選定していたのですが、TDSQLを使った後の初期体験があまり良くなかったようです。その後のやり取りの結果、彼らは TDSQL の分散データベースを使い始めたばかりで、研究開発の要件が高すぎることがわかったので、全員が TDSQL の集中型 MYSQL インスタンスを選択したことを知りました。 。データベース クラウド全体

可観測性という用語はエンジニアリング分野に由来し、近年ソフトウェア開発分野でますます普及しています。簡単に言えば、可観測性とは、外部出力に基づいてシステムの内部状態を理解する能力です。 IBM は可観測性を次のように定義しています。 一般に、可観測性とは、複雑なシステムの内部状態または状態が、その外部出力の知識に基づいて理解できる程度を指します。システムの観察可能性が高ければ高いほど、追加のテストやコーディングを必要とせずに、パフォーマンス問題の根本原因を特定するプロセスがより速く、より正確になります。クラウド コンピューティングでは、可観測性は、アプリケーション システムをより効果的に監視、トラブルシューティング、デバッグするために、分散アプリケーション システムとその運用をサポートするインフラストラクチャからのデータを集約、関連付け、分析するソフトウェア ツールと実践を指し、それによって顧客エクスペリエンスを実現します。最適化とサービスレベル契約

インタビューや提出を通じて、運用とメンテナンスの分野のベテランが招待され、高度な合意を形成し、業界がより良く前進することを促進することを目的として、深い洞察を提供し、意見をぶつけ合うことができます。今回は、Tuyou Games の運営保守ディレクター、Zou Yi 氏をお招きします。鄒氏は、よく冗談めかして自分のことを世界トップ 500 万企業の運営保守代表者と呼んでいますが、心の中では次のように感じていることがわかります。中小企業の運用保守構築の考え方は大企業の考え方とは異なります。違いがあります。今日はいくつか質問があり、鄒氏に中小企業向けの研究と運用を統合するまでの道のりについて語ってもらいます。規模の企業。堅実でハイレベルな「運用・保守フォーラム」の第6回が始まります!質問プレビュー Tuyou はゲーム会社ですが、ゲームの運営とメンテナンスの特徴は何だと思いますか?直面している運用上の最大の課題は何ですか?これらの課題をどのように解決しましたか?ゲームの運営・保守担当者

運用保守のために Golang を学ばない理由: 1. Golang は主に、高パフォーマンスおよび同時パフォーマンス要件を持つアプリケーションの開発に使用されます; 2. 運用保守エンジニアが一般的に使用するツールとスクリプト言語は、すでに満たしていますほとんどの管理およびメンテナンス要件; 3. golang の学習には、一定のプログラミングの基礎と経験が必要; 4. 運用およびメンテナンス エンジニアの主な目標は、アプリケーションの開発ではなく、システムの安定性と高可用性を確保することです。

インタビューや提出を通じて、運用とメンテナンスの分野のベテランが招待され、高度な合意を形成し、業界がより良く前進することを促進することを目的として、深い洞察を提供し、意見をぶつけ合うことができます。今回は、20 年のキャリアのほとんどをインターネット分野で過ごしてきた、Du Xiaoman システム運用保守部門のゼネラルマネージャー、Chen Cunli 氏をお招きします。 Baidu 運営保守部門に在籍していたとき、その優れたリーダーシップ スタイルにより、チーム メンバーからは「陳司令官」と呼ばれていました。今日は「陳司令官」を招き、彼の見解について語っていただきます。堅実でハイレベルな「運用・保守フォーラム」の第5回が始まります!質問プレビュー: あなたは非常に早く百度に入社し、その後ドゥ・シャオマンと独立しました。あなたの周りの多くの従業員があなたを長くフォローし、多くの事業運営と保守のテストを経験していると思います。誰もが非常に興味を持っていると思います。
