Apabila menggunakan NodeJS untuk menulis alat bahagian hadapan, fail teks yang paling biasa digunakan ialah fail teks, jadi isu pengekodan fail turut terlibat. Pengekodan teks yang biasa kami gunakan ialah UTF8 dan GBK, dan fail UTF8 juga mungkin mengandungi BOM. Apabila membaca fail teks dengan pengekodan yang berbeza, kandungan fail perlu ditukar kepada rentetan berkod UTF8 yang digunakan oleh JS sebelum ia boleh diproses secara normal.
Penyingkiran BOM
BOM digunakan untuk menandakan fail teks menggunakan pengekodan Unicode, yang merupakan aksara Unicode ("uFEFF") yang terletak di pengepala fail teks. Di bawah pengekodan Unicode yang berbeza, bait binari yang sepadan dengan aksara BOM adalah seperti berikut:
Bytes Encoding ---------------------------- FE FF UTF16BE FF FE UTF16LE EF BB BF UTF8
Oleh itu, kami boleh menentukan sama ada fail itu mengandungi BOM dan pengekodan Unikod yang hendak digunakan berdasarkan jumlah beberapa bait pertama fail teks yang sama. Walau bagaimanapun, walaupun aksara BOM memainkan peranan dalam menandakan pengekodan fail, ia bukan sebahagian daripada kandungan fail Jika BOM tidak dialih keluar semasa membaca fail teks, akan ada masalah dalam senario penggunaan tertentu. Sebagai contoh, selepas kami menggabungkan beberapa fail JS ke dalam satu fail, jika fail tersebut mengandungi aksara BOM, ia akan menyebabkan ralat sintaks JS penyemak imbas. Oleh itu, apabila menggunakan NodeJS untuk membaca fail teks, anda biasanya perlu mengalih keluar BOM. Sebagai contoh, kod berikut melaksanakan fungsi mengenal pasti dan mengalih keluar BOM UTF8.
function readText(pathname) { var bin = fs.readFileSync(pathname); if (bin[0] === 0xEF && bin[1] === 0xBB && bin[2] === 0xBF) { bin = bin.slice(3); } return bin.toString('utf-8'); }
GBK kepada UTF8
NodeJS menyokong penentuan pengekodan teks apabila membaca fail teks atau apabila menukar Penimbal kepada rentetan, tetapi malangnya, pengekodan GBK tidak berada dalam skop sokongan NodeJS sendiri. Oleh itu, kami biasanya menggunakan pakej pihak ketiga iconv-lite untuk menukar pengekodan. Selepas memuat turun pakej menggunakan NPM, kita boleh menulis fungsi untuk membaca fail teks GBK seperti berikut.
var iconv = require('iconv-lite'); function readGBKText(pathname) { var bin = fs.readFileSync(pathname); return iconv.decode(bin, 'gbk'); }
Pengekodan bait tunggal
Kadangkala, kami tidak dapat meramalkan pengekodan fail yang perlu kami baca gunakan, jadi kami tidak dapat menentukan pengekodan yang betul. Sebagai contoh, beberapa fail CSS yang perlu kami proses dikodkan dalam GBK dan beberapa dalam UTF8. Walaupun adalah mungkin untuk meneka pengekodan teks berdasarkan kandungan bait fail pada tahap tertentu, apa yang saya akan perkenalkan di sini adalah teknik yang agak terhad, tetapi lebih mudah.
Pertama sekali, kami tahu bahawa jika fail teks hanya mengandungi aksara Inggeris, seperti Hello World, maka tidak akan ada masalah membaca fail menggunakan pengekodan GBK atau pengekodan UTF8. Ini kerana di bawah pengekodan ini, aksara dalam julat ASCII0~128 menggunakan pengekodan bait tunggal yang sama.
Sebaliknya, walaupun terdapat aksara Cina dan aksara lain dalam fail teks, jika aksara yang perlu kita proses hanya dalam julat ASCII0~128, seperti kod JS selain daripada ulasan dan rentetan, kita boleh gunakan bait tunggal secara seragam untuk membaca fail, tidak perlu mengambil kira sama ada pengekodan sebenar fail adalah GBK atau UTF8. Contoh berikut menggambarkan pendekatan ini.
1. kandungan fail sumber pengekodan GBK:
var foo = '中文';
2. Bait sepadan:
76 61 72 20 66 6F 6F 20 3D 20 27 D6 D0 CE C4 27 3B
3. Kandungan yang diperoleh selepas membaca menggunakan pengekodan bait tunggal:
var foo = '{乱码}{乱码}{乱码}{乱码}';
4. Kandungan pengganti:
var bar = '{乱码}{乱码}{乱码}{乱码}';
5. Bait yang sepadan selepas disimpan menggunakan pengekodan bait tunggal:
76 61 72 20 62 61 72 20 3D 20 27 D6 D0 CE C4 27 3B
6. Gunakan pengekodan GBK untuk membaca dan mendapatkan kandungan:
var bar = '中文';
Caranya di sini ialah tidak kira apa aksara yang bercelaru satu bait yang lebih besar daripada 0xEF dihuraikan di bawah pengekodan bait tunggal, apabila aksara yang bercelaru ini disimpan menggunakan pengekodan bait tunggal yang sama, bait yang sepadan di belakangnya kekal tidak berubah.
NodeJS disertakan dengan pengekodan binari yang boleh digunakan untuk melaksanakan kaedah ini, jadi dalam contoh berikut, kami menggunakan pengekodan ini untuk menunjukkan cara menulis kod yang sepadan dengan contoh di atas.
function replace(pathname) { var str = fs.readFileSync(pathname, 'binary'); str = str.replace('foo', 'bar'); fs.writeFileSync(pathname, str, 'binary'); }