Pengekodan kod sumber C ialah subjek pelbagai rupa. Mari kita terokai nuansa pengendalian aksara.
Setiap pengkompil C mesti menyokong aksara daripada set aksara sumber asas. Ini termasuk aksara biasa seperti huruf, angka dan tanda baca. Selain itu, penyusun menyediakan sokongan untuk menyatakan aksara yang tidak disertakan dalam set ini menggunakan nama aksara universal (cth., uffff, Uffffffff).
Pemetaan antara aksara dalam fail sumber dan aksara sumber dalaman yang digunakan pada masa penyusunan ialah pelaksanaan-ditakrifkan. Pemetaan ini membentuk pengekodan yang digunakan. Mengikut piawaian C 98:
Physical source file characters are mapped, in an implementation-defined manner, to the basic source character set (introducing new-line characters for end-of-line indicators) if necessary. Any source file character not in the basic source character set is replaced by the universal-character-name that designates that character.
GCC membenarkan penyesuaian set aksara input menggunakan pilihan -finput-charset=charset. Begitu juga, set aksara yang digunakan semasa runtime boleh diubah suai menggunakan -fexec-charset=charset untuk char (lalai kepada UTF-8) dan -fwide-exec-charset=charset untuk wchar_t (lalai kepada UTF-16 atau UTF-32, bergantung pada saiznya).
Aksara bukan ASCII, seperti aksara Cina, boleh digunakan dalam ulasan dan rentetan. Sebagai contoh, kod berikut adalah sah:
<code class="cpp">// Comment containing Chinese character: 中 wstring str = L"Strange chars: â Țđ ě €€";</code>
Set aksara Unicode penuh disokong, membenarkan ungkapan pelbagai aksara dalam kod sumber.
Atas ialah kandungan terperinci Bagaimanakah Pengekodan Kod Sumber Unicode Impact C?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!