Adakah bijak untuk mencipta jadual yang berbeza untuk data yang sama untuk setiap tarikh?

Question

Saya mempunyai jadual MYSQLInnoDB dengan lajur berikut (nama jadual dan lajur ditukar): tarikh (PK, tarikh) var_a (PK, FK, INT) var_b (PK, FK, INT) rel_ab (perpuluhan) di mana rel_ab ialah penerangan Lajur bagi hubungan antara 2 pembolehubah var_a dan var_b tarikh yang diberikan. (var_a dan var_b merujuk kepada jadual yang berbeza) Data dimuat naik dalam kelompok setiap hari, berjumlah kira-kira 7 juta baris setiap hari. Masalahnya ialah, selepas hanya beberapa minggu, ia mula mengambil masa berjam-jam untuk memuat naik setiap kumpulan harian baharu. jelas sekali

P粉781235689 · Answer

Terdapat beberapa penyelesaian berpotensi yang boleh membantu anda meningkatkan kelajuan muat naik jadual MySQL anda:

Alih keluar indeks pada var_a dan var_b: Memandangkan anda tidak menggunakan indeks ini untuk mempercepatkan pertanyaan, mengalih keluarnya boleh membantu mempercepatkan proses muat naik. Walau bagaimanapun, jika anda menggunakan kekangan kunci asing, biasanya disyorkan untuk menyimpan indeks pada lajur yang dimiliki oleh kunci asing.

Pecah jadual mengikut tarikh: Pembahagian membantu meningkatkan prestasi pertanyaan kerana ia membenarkan pangkalan data mengimbas hanya partition yang berkaitan untuk pertanyaan tertentu. Walau bagaimanapun, ia juga menjadikan penyelenggaraan dan sandaran lebih kompleks, yang mungkin tidak diperlukan jika pertanyaan anda sudah menunjukkan prestasi yang baik.

Gunakan kaedah sisipan pukal: Daripada memasukkan baris individu menggunakan df.to_sql, anda boleh cuba menggunakan kaedah sisipan pukal seperti LOAD DATA INFILE atau API sisipan pukal MySQL. Ini lebih pantas daripada memasukkan secara individu, terutamanya jika anda boleh memuat naik data secara pukal dan bukannya satu baris pada satu masa.

Gunakan algoritma pemampatan yang berbeza: Anda sedang menggunakan pemampatan zlib, tetapi terdapat algoritma pemampatan lain yang mungkin lebih pantas atau lebih cekap untuk data anda. Anda boleh cuba mencuba pilihan pemampatan yang berbeza untuk melihat sama ada pilihan tersebut meningkatkan kelajuan muat naik.

Tingkatkan sumber pelayan: Jika anda mempunyai belanjawan dan sumber, menaik taraf perkakasan pelayan atau menambah bilangan pelayan boleh membantu meningkatkan kelajuan muat naik. Ini mungkin bukan pilihan yang berdaya maju untuk semua orang, tetapi patut dipertimbangkan jika anda telah kehabisan pilihan anda yang lain.

Mengenai pilihan cadangan anda, mengalih keluar kekangan kunci asing boleh menyebabkan isu integriti data, jadi saya tidak mengesyorkan pendekatan ini. Jika pertanyaan anda sudah mengalami masalah prestasi, pembahagian mengikut tarikh mungkin merupakan penyelesaian yang baik, tetapi jika pertanyaan anda sudah berjalan dengan cepat, ia mungkin tidak diperlukan.

P粉098979048 · Answer

Untuk mempercepatkan muat naik, padamkannya. Serius, jika satu-satunya perkara yang anda lakukan ialah mendapatkan apa yang ada dalam fail untuk tarikh tertentu, mengapa meletakkan data ke dalam jadual? (Ulasan anda menunjukkan bahawa satu fail sebenarnya adalah beberapa fail. Mungkin idea yang baik untuk menggabungkannya dahulu.)

Jika anda benar-benar memerlukan data dalam jadual, mari kita bincangkan perkara ini...

Sebelum menentukan indeks, kita mesti melihat semua pertanyaan utama.
Tertib lajur dalam PK adalah penting untuk memuatkan dan membuat pertanyaan.
Pembahagian mungkin membantu dengan memuatkan, tetapi tidak mungkin membantu dengan pertanyaan. Pengecualian: Adakah anda memadamkan data "lama"?
Sila berikan显示创建表; mungkin terdapat beberapa kehalusan yang hilang daripada apa yang anda sediakan.
Bagaimana pemuatan dilakukan? 加载数据 besar? Semoga tidak memasukkan satu baris pada satu masa. Saya tidak tahu bagaimana panda berfungsi. (Anda juga tidak tahu bagaimana 99 pakej lain yang "memudahkan" akses MySQL berfungsi.) Sila fahami apa yang ia lakukan di sebalik tabir. Anda mungkin perlu memintas Panda untuk mendapatkan prestasi yang lebih baik. Pemuatan pukal sekurang-kurangnya 10 kali lebih cepat daripada pemuatan baris demi baris.
Saya tidak nampak keperluan untuk meja sementara semasa memuatkan. Mungkin. Jika anda mengalih keluar FK (seperti yang anda cadangkan), anda boleh melaksanakan pertanyaan untuk mengesahkan kewujudan var_a dan var_b dalam jadual lain. Itulah "FK analog".
Jika boleh, susun data masuk berdasarkan PK. (Ini mungkin menjadi punca pertumbuhan ekonomi yang perlahan.)
Adakah terdapat sebarang kunci tambahan? Mereka menjejaskan kelajuan pemuatan.
Saya rasa FK anda membayangkan indeks pada jadual lain.
Adakah anda menambah baris baharu pada jadual lain?
"rel_ab (PERPULUHAN)" - berapa tempat perpuluhan? Apakah kenyataan yang tepat? Jika ia adalah sejenis ukuran, adakah anda telah mempertimbangkan FLOAT?
Kini terdapat banyak baris dalam jadual lain. Iaitu, adakah anda benar-benar memerlukan INT 4-bait untuk merujuknya? Tukar kepada 3 Bait MEDIUMINT [UNSIGNED] Jimat sekurang-kurangnya 7MB sehari.
Bagaimana anda mengendalikan 7 juta baris dalam PILIHAN itu?
Tiada mampatan. InnoDB sangat tidak cekap. Hanya satu daripada 4 lajur yang boleh dimampatkan. Mampatan memerlukan ruang_kolam_penampan tambahan. Mampatan menggunakan banyak CPU. Untuk InnoDB, pengecutan 2x adalah tipikal.

Berbilang jadual "sama" selalu tidak bijak. Meja sentiasa lebih baik. Walau bagaimanapun, seperti yang dicadangkan di atas, jadual sifar masih lebih baik.