


Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?
1. Masalah dan Cabaran
Sejak 2017, skala mesin vivo dan bilangan perkhidmatan telah berkembang dengan ketara, seperti yang boleh dilihat dalam carta. Saiz mesin telah meningkat kira-kira lima kali, dan bilangan perkhidmatan pada asasnya telah meningkat lebih daripada sepuluh kali Jangka masa adalah dari 2017 hingga 2022.
Apabila skala semakin meningkat, cabaran dan kerumitan pasti akan meningkat terutamanya dibahagikan kepada cabaran perubahan dan cabaran kegagalan.
1. Cabaran Perubahan
Masih terdapat lebih kurang senario perubahan manual dalam perubahan;
Masa keluaran tunggal kami agak lama;
Terdapat banyak senario migrasi perniagaan berskala besar;
Google SRE mempunyai konsep sedemikian: 70% daripada kegagalan disebabkan oleh perubahan. Keadaan ini juga wujud dalam vivo, dan perubahan akan memberi kesan yang besar terhadap kestabilan dalam talian.
2. Cabaran kegagalan
- Risiko kegagalan tahap bilik komputer (kedua-dua syarikat besar dan kecil akan menghadapi ia, gangguan perlombongan gentian atau kegagalan dalaman dalam bilik komputer, dsb.);
- Pertumbuhan perniagaan yang pesat telah meningkatkan keperluan kapasiti dengan ketara.
Di bawah cabaran ini, kami membahagikan pembinaan kepada dua dimensi: keupayaan ketersediaan dan peringkat ketersediaan untuk memastikan kestabilan perniagaan.
2. Pembinaan keupayaan ketersediaan
1
Pembinaan keupayaan ketersediaan kami adalah berdasarkan pengurusan kerosakan kitaran penuh, meliputi kejadian ralat, penemuan, tindak balas dan pemulihan ., semakan dan langkah pencegahan. Masa dari berlakunya kerosakan kepada pemulihan dipanggil MTTR; masa dari pemulihan kerosakan kepada kejadian, dari stabil kepada tidak stabil, dipanggil MTTF, masa antara kejadian kerosakan dipanggil MTBF, dengan jumlah 3 penunjuk.
Pengurusan kesalahan tidak lebih daripada 4 perkara ini:
Bagaimana untuk mengelakkan kegagalan?- Bagaimana untuk mengesan kerosakan secepat mungkin?
- Bagaimana cara cepat menyembuhkan kerosakan?
- Selepas kerosakan dipulihkan, bagaimana untuk membuat susulan?
Terutama mempertimbangkan ketersediaan perniagaan, anda perlu memberi perhatian kepada kekerapan kegagalan dan masa impak pada perniagaan. Oleh itu, mengurangkan kekerapan ralat, mencari ralat dengan cepat, memendekkan tempoh ralat, dan mencapai penyembuhan ralat pantas adalah idea umum keseluruhan pembinaan keupayaan ketersediaan tinggi kami. Izinkan saya memperkenalkan kepada anda langkah-langkah yang telah kami sediakan:
2. , adalah perlu untuk mencapai Untuk mengelakkan kesilapan, kita mesti terlebih dahulu memahami mengapa kesilapan berlaku, yang boleh dilihat dari perspektif perkhidmatan dan perspektif pautan penuh.
1) Perspektif Perkhidmatan
Sesuatu perkhidmatan tidak lebih daripada input yang diminta, dan biasanya ia hanya memerlukan output yang sepadan. Dalam situasi sebenar, terdapat banyak aspek yang mempengaruhi respons perkhidmatan yang betul. Dalam beberapa senario klasik, faktor yang mempengaruhi telah diringkaskan
- 2) Perspektif pautan penuh
Lapisan kapasiti: peningkatan mendadak dalam permintaan dan kapasiti keseluruhan pautan tidak mencukupi, mengakibatkan anomali perkhidmatan
- Dari perspektif kestabilan keseluruhan pautan: kebergantungan huluan dan hiliran, kapasiti yang tidak mencukupi dan konfigurasi perkhidmatan yang tidak normal adalah semua faktor penting yang mempengaruhi kestabilan.
3. Pembinaan pencegahan kerosakan
Selepas menganalisis faktor kerosakan dari dua perspektif perkhidmatan dan pautan penuh, kesalahan Terdapat idea yang sepadan untuk pembinaan pencegahan:
- Keabnormalan pautan penuh: Ia adalah perlu untuk menganalisis kekuatan dan kelemahan hulu dan hilir, dan menyediakan perlindungan khas untuk pelayan utama , untuk memastikan kestabilan keseluruhan pautan; , dan redundansi yang baik dan pemulihan bencana.
4. Pencegahan kegagalan
<.>
Saya bercakap tentang analisis keseluruhan dan idea pembinaan sebelum ini. Bagaimanakah vivo sebenarnya melakukannya?
1) Unitisasi: Kurangkan panggilan perkhidmatan di seluruh bilik komputer untuk mengelakkan kegagalan satu bilik komputer daripada menjejaskan semua perkhidmatan bilik komputer; Lebih Banyak Pintu Masuk: Pada masa lalu, banyak perniagaan hanya mempunyai satu pintu masuk lapisan akses Selepas membina keupayaan berbilang kemasukan IDC dan awan awam, kesan pengecualian pintu masuk tunggal pada keseluruhan akses perkhidmatan akan menjadi lebih kecil 🎜>
3) Perlindungan beban: Apabila kapasiti perniagaan tiba -tiba meningkat, perkhidmatan lapisan akses dapat secara aktif menolak beberapa permintaan pecah mengikut tetapan untuk mencegah trafik permintaan yang berlebihan dari perkhidmatan berikutnya;
4) Penurunan taraf pemutus litar: Penurunan taraf monopoli perkhidmatan bergantung boleh melindungi kesan perkhidmatan yang tidak normal dan mengelakkan kesan runtuhan salji.
5 Penemuan kesalahan
<.>Kami telah membina keupayaan pengesanan kerosakan berdasarkan keseluruhan pautan Pada masa ini, kadar pengesanan kerosakan proaktif boleh mencapai 90%, yang merangkumi pemantauan pelanggan, pemantauan pelayan dan pemantauan asas:
.1) Pemantauan pelanggan: sistem ujian dial-up binaan sendiri, memantau ketersediaan setiap perkhidmatan melalui akses pengguna simulasi pintasan; , pemantauan log dan pemantauan panggilan antara perkhidmatan Menurut kaedah pelaksanaan pemantauan, ia adalah terutamanya metrik/log/jejak; situasi hos, terutamanya dalam bentuk metrik.
6. Menyelesaikan masalah
7. Semakan kerosakan
Semakan kerosakan sangat penting dalam keseluruhan kitaran pembinaan ketersediaan tinggi yang penting. bahagian.
- Kami menggunakan penggredan SLA berasaskan perniagaan untuk memastikan kestabilan perniagaan dalam cara yang disasarkan merekodkan setiap kesalahan perniagaan, menambah baik dan mengesahkan pembinaan kapasiti:
1) Penggredan perniagaan: Sumber operasi dan penyelenggaraan adalah sangat terhad, memastikan semua perniagaan mempunyai SLA yang sama, jadi penggredan Jaminan adalah sangat diperlukan. Berdasarkan reputasi dan hasil perniagaan, kami membahagikannya kepada empat peringkat perniagaan: teras, penting, umum, dan lain-lain Ini membimbing tenaga kerja operasi dan penyelenggaraan yang dilaburkan dalam setiap perniagaan 🎜 >
2) Rekod kerosakan: meningkatkan kecekapan semakan, dan menjejaki kesilapan perniagaan dalam talian untuk analisis susulan untuk membimbing pengoptimuman perniagaan; pengesahan ke belakang berdasarkan kejuruteraan huru-hara untuk menentukan sama ada langkah penambahbaikan telah berkuat kuasa.
Ini adalah amalan kami dalam semakan kesalahan Kami juga telah melaksanakan keupayaan dan amalan ini ke dalam platform dan menguruskan kerja semakan kerosakan melalui platform.
8 Pengurusan Kapasiti
<. . keupayaan pengurusan.>
- Skala keanjalan sumber: Bina keupayaan jaminan sumber berasaskan awan hibrid untuk meningkatkan keanjalan sumber dengan hebat
- Keupayaan penghantaran, operasi dan pengurusan sumber : Wujudkan mekanisme pengurusan untuk keseluruhan kitaran hayat sumber untuk memastikan bekalan maksimum dan kecekapan penggunaan sumber, termasuk pengurusan belanjawan, pengurusan permintaan, pengurusan perolehan dan pengurusan operasi inventori.
3. Pembinaan Fasa Kebolehgunaan
Selepas pembinaan keupayaan kebolehgunaan, kami membahagikannya kepada tiga fasa untuk membina kebolehgunaan: Fasa Standardisasi , peringkat proses dan peringkat platform.
1 Peringkat Standardisasi
Mengapa kita perlu membina standardisasi?
Penstandardan boleh mengurangkan kerumitan operasi dan penyelenggaraan perniagaan, sekali gus mengurangkan kos operasi dan penyelenggaraan. Kami telah melakukan banyak kerja penyeragaman di kedua-dua peringkat perkakasan dan perisian.
- Tahap perkakasan: penyeragaman bilik komputer, penyeragaman rangkaian (rangkaian awam, Internet aktif, talian khusus intranet
- Tahap perisian: Penyeragaman OS, persekitaran hos); penyeragaman , penyeragaman katalog perkhidmatan, Penyeragaman ejen, akses kepada penyeragaman kluster nginx, dan penyeragaman keupayaan perkhidmatan (perkhidmatan perisian tengah).
2 Proses dan pembinaan piawai
Pertama sekali, kami akan memendekkan amalan dan kaedah terbaik dalam proses operasi dan penyelenggaraan kepada mekanisme dan spesifikasi proses untuk memastikan kestabilan perniagaan teratur dan terkawal, termasuk peraturan operasi dan penyelenggaraan ketenteraan, kesalahan. mekanisme tindak balas, spesifikasi hal ehwal awam, spesifikasi jaminan acara berskala besar, dsb.
Sebagai contoh, apabila spesifikasi jaminan untuk acara berskala besar tidak ditetapkan, seperti aktiviti operasi berskala besar atau aktiviti pengedaran sampul merah Festival Musim Bunga, adalah mudah untuk kegagalan dalam talian untuk berlaku Sejak 2018 Selepas menetapkan piawaian jaminan untuk acara berskala besar, insurans berat seperti Festival Musim Bunga boleh memastikan operasi lancar.
3. Pembinaan platform dan sistem
Dari segi pembinaan platform dan sistem, menggunakan CMDB sebagai asas, mekanisme proses biasa yang lebih baik dikembangkan lagi menjadi platform, seperti platform perubahan, platform pemantauan, platform alat perkhidmatan, dll., untuk menyokong perniagaan kestabilan.
4. Keputusan dan prospek ketersediaan
Menjelang 2022, keseluruhan operasi dan penyelenggaraan perniagaan akan teratur dan cekap, dan ketersediaan perniagaan akan peningkatan daripada tahap sebelumnya Tiga sembilan telah meningkat kepada empat sembilan sekarang, dan bilangan perniagaan yang memenuhi standard juga telah meningkat daripada lapan sebelum kepada 24 sekarang.
Mencapai hasil kebolehgunaan ini terutamanya melalui pembinaan keupayaan kebolehgunaan dan pembinaan fasa kebolehgunaan:
- Pembinaan keupayaan kebolehsediaan: pencegahan kerosakan, penemuan kerosakan, penawar kerosakan, semakan kerosakan
- Pembinaan fasa ketersediaan: penyeragaman, proses/pestandardisasi, platform/automasi
Pada masa hadapan, kami akan menumpukan pada pelbagai aktiviti luar tapak, kontena/ awan asli Ketersediaan dijamin.
Ambil jaminan ketersediaan kontena dan asli awan sebagai contoh ialah mesin fizikal tulen Kemudian, mesin maya telah ditambah, dan kemudian awan awam telah ditambah, yang mengurangkan lagi pergantungan langsung pada infrastruktur asas Pada masa yang sama, kami juga sedang mengusahakan kontena dan asli awan untuk menyatukan sumber dan secara fleksibel menjadualkannya untuk mengurangkan keperluan sumber pergantungan langsung pada sumber perkakasan fizikal, jadi kami perlu membina keupayaan ketersediaan tinggi untuk infrastruktur yang berbeza.
Apa lagi yang boleh dilakukan untuk membina kebolehgunaan?
Saya secara peribadi berpendapat bahawa kita bukan sahaja mempertimbangkan ketersediaan, kualiti perniagaan dan kos operasi Ini adalah semua perkara yang perlu kita pertimbangkan Jaminan operasi dan penyelenggaraan perniagaan kemudiannya akan memasuki peringkat jaminan operasi yang diperhalusi.
S&J
S1: Apakah kesukaran terbesar yang dihadapi semasa pelaksanaan pembinaan kebolehgunaan?
A1: Perkara pertama ialah spesifikasi pembinaan keupayaan teknikal asas Jika spesifikasi ini tidak dipatuhi, ia akan membawa kepada ketidakpastian yang besar dalam keputusan ketersediaan perniagaan, jadi piawaian tertentu. mesti dirumuskan untuk pasukan, dan pada masa yang sama, mesti ada mekanisme bottom-keeping tertentu; permintaan yang berbeza pada peringkat yang berbeza, dan kestabilan adalah berbeza, ia akan menjejaskan perniagaan, reputasi dan pendapatan Selepas diiktiraf oleh pengurusan atasan, pembinaan kebolehgunaan akan lebih mudah untuk dipromosikan.
S2: Semasa pelaksanaan CMDB, sebagai tambahan kepada orang yang bertanggungjawab pembangunan, hos dan maklumat lain, apakah maklumat lain yang dikaitkan dalam proses sebenar? Sebagai contoh, adakah ia berkaitan dengan maklumat perisian tengah?
A2: Pada masa ini, kebanyakan sistem kami berasaskan CMDB Bukan sahaja sistem operasi dan penyelenggaraan, banyak sistem dibina berdasarkan CMDB, dan perkhidmatan perisian tengah juga akan disepadukan dengan CMDB. Pembinaan persatuan, seperti dubbo dalam perkhidmatan mikro, juga berdasarkan CMDB untuk penemuan perkhidmatan dan tadbir urus.
Pengenalan Pengajar
Zhou Jiali kini ialah pengarah operasi dan penyelenggaraan vivo, bertanggungjawab ke atas pengendalian dan penyelenggaraan perniagaan Internet vivo. Orang yang pernah bekerja di Baidu dan Tencent ini mempunyai pengalaman dalam operasi dan penyelenggaraan perniagaan luar talian seperti klien, pengantarabangsaan dan algoritma data besar. Selepas menyertai vivo, saya mengetuai pembinaan ketersediaan tinggi perniagaan dan meningkatkan ketersediaan perniagaan kepada tahap 99.99%.
Atas ialah kandungan terperinci Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas





<p>MSTeams ialah platform yang dipercayai untuk berkomunikasi, bersembang atau menelefon dengan rakan sepasukan dan rakan sekerja. Kod ralat 80090016 pada MSTeams dan mesej <strong>Modul Platform Dipercayai komputer anda telah gagal</strong> Apl tidak akan membenarkan anda log masuk sehingga kod ralat diselesaikan. Jika anda menemui mesej sedemikian semasa membuka MS Teams atau mana-mana aplikasi Microsoft lain, maka artikel ini boleh membimbing anda untuk menyelesaikan isu tersebut. </p><h2&

Apakah kegagalan 0x0000004e Kegagalan adalah masalah biasa dalam sistem komputer. Apabila komputer mengalami kerosakan, sistem biasanya dimatikan, ranap atau memaparkan mesej ralat kerana ia tidak dapat berjalan dengan betul. Dalam sistem Windows, terdapat kod kesalahan khusus 0x0000004e, iaitu kod ralat skrin biru yang menunjukkan bahawa sistem telah mengalami ralat yang serius. Ralat skrin biru 0x0000004e disebabkan oleh isu kernel atau pemacu sistem. Ralat ini biasanya menyebabkan sistem komputer

Apakah yang perlu saya lakukan jika telefon Black Shark saya tidak boleh dihidupkan? Ajar anda cara menyelamatkan diri! Dalam kehidupan seharian kita, telefon bimbit telah menjadi sebahagian daripada kita. Bagi kebanyakan orang, telefon bimbit Black Shark ialah telefon permainan yang digemari. Tetapi tidak dapat dielakkan anda akan menghadapi pelbagai masalah, salah satunya ialah telefon tidak boleh dihidupkan. Apabila anda menghadapi situasi sedemikian, jangan panik Berikut adalah beberapa penyelesaian, saya harap mereka dapat membantu anda. Pertama sekali, apabila telefon Black Shark tidak boleh dihidupkan, semak dahulu sama ada telefon mempunyai kuasa yang mencukupi. Mungkin telefon tidak boleh dihidupkan kerana kehabisan bateri.

Pengguna yang berkongsi pencetak mendapati bahawa komputer win10 mereka tidak dapat menyambung ke pencetak yang dikongsi selepas menaik taraf tampung September 2021. Jadi, apakah yang perlu mereka lakukan jika mereka menghadapi kegagalan pencetak kongsi win10 0x0000011b. Masalah ini dihadapi oleh ramai pengguna memberi anda kandungan khusus penyelesaian kesalahan pencetak kongsi win10 0x0000011b Kaedah ini sangat mudah, dan pelanggan boleh mempelajarinya sepintas lalu. Apa yang perlu dilakukan jika pencetak kongsi win10 0x0000011b gagal 1. Buka panel kawalan, masukkan program dan fungsi, dan semak peningkatan yang dipasang 2. Nyahpasang tampung berikut: KB5005569/KB5005573/KB5005568/KB;

Apa yang perlu dilakukan mengenai 0x00000001 skrin biru Masalah skrin biru adalah sakit kepala yang sering dihadapi oleh ramai pengguna komputer. Apabila komputer kita menemui skrin biru, ia akan berhenti berjalan secara tiba-tiba dan memaparkan antara muka skrin biru dengan kod ralat. Antaranya, 0x00000001 ialah kod ralat skrin biru biasa. Isu skrin biru boleh disebabkan oleh pelbagai sebab, termasuk ralat perisian, kegagalan perkakasan, isu pemandu dan banyak lagi. Walaupun masalah ini boleh mengecewakan, ada perkara yang boleh kita lakukan untuk menyelesaikannya. Di bawah saya akan memperkenalkan beberapa penyelesaian kepada skrin biru

Black Shark ialah jenama telefon pintar yang terkenal dengan prestasi hebat dan pengalaman permainan yang sangat baik. Ia disukai oleh pemain dan peminat teknologi. Bagaimanapun, seperti telefon pintar lain, telefon Black Shark akan menghadapi pelbagai masalah, antaranya kegagalan pengecasan adalah perkara biasa. Kegagalan pengecasan bukan sahaja akan menjejaskan penggunaan biasa telefon bimbit, tetapi juga boleh menyebabkan masalah yang lebih serius, jadi adalah sangat penting untuk menyelesaikan masalah pengecasan tepat pada masanya. Artikel ini akan bermula dengan punca biasa kegagalan pengecasan telefon bimbit Black Shark dan memperkenalkan kaedah untuk menyelesaikan masalah dan menyelesaikan masalah pengecasan Saya harap ia dapat membantu pembaca menyelesaikan masalah pengecasan telefon bimbit Black Shark.

Ramai rakan baru membeli kad grafik selepas memasangnya selama beberapa hari, kipas tiba-tiba berhenti berputar. Adakah ini normal? kabel memori dan cakera keras disambungkan dan tiada bekalan kuasa Adakah terdapat ketidakstabilan voltan. 1. Bekalan kuasa yang tidak mencukupi menyebabkan kipas tidak berputar Salah satu sebab yang paling biasa ialah apabila tenaga yang disediakan oleh bekalan kuasa anda tidak dapat memenuhi keperluan kad grafik, untuk mengekalkan operasi normal program komputer, kebanyakannya. kad grafik akan menghentikan kipas penyejuk mereka untuk memastikan teras GPU boleh Teruskan melakukan pengiraan Apabila menghadapi situasi ini, jangan salahkan kad grafik kerana tidak berkuasa. Ia jelas sangat bertimbang rasa, okay?

MySQL vs. TiDB: Mana yang lebih baik untuk perniagaan anda? Dengan perkembangan pesat Internet dan data besar, penyimpanan dan pengurusan data telah menjadi bahagian penting dalam perniagaan perusahaan. Apabila memilih penyelesaian pangkalan data yang sesuai, banyak perusahaan menemui dua pilihan MySQL dan TiDB. Artikel ini akan membandingkan ciri dan kelebihan MySQL dan TiDB untuk membantu anda menentukan yang mana satu lebih sesuai untuk perniagaan anda. MySQL ialah sistem pengurusan pangkalan data hubungan sumber terbuka yang dilahirkan seawal tahun 1995
