Windows Notepad裡可選的字元編碼的詳細介紹-Notepad-PHP中文網

警告

注意

測試案例

ANSI

Unicode系列

UTF-16 和 BOM

記事本的“Unicode”和“Unicode big endian”

UTF-8

番外：Notepad++的字符编码测试

首頁

開發工具

Notepad

Windows Notepad裡可選的字元編碼的詳細介紹

不言

Sep 27, 2018 pm 05:40 PM

unicode windows 記事本

這篇文章帶給大家的內容是關於Windows Notepad裡可選的字元編碼的詳細介紹，有一定的參考價值，有需要的朋友可以參考一下，希望對你有所幫助。

Windows Notepad（記事本）中儲存檔案的程式碼選項都是什麼意思…

這篇文章就簡單測試一下Windows Notepad的行為。

Windows Notepad裡可選的字元編碼的詳細介紹

Windows Notepad的編碼包含ANSI、Unicode、Unicode big endian和UTF-8。

警告

本文僅闡述一個廣泛使用的軟體的技術事實，不代表作者支持或反對使用該軟體。
事實上作者推薦任何時候都不使用 Windows Notepad 來處理電腦程式碼。
本文僅在某一個簡體中文版64位元Windows 7的實例下驗證，僅供參考。不保證在其他相同或相異系統下能夠重現一致的結果。

注意

本文嚴格區分Unicode的編碼和位元組序列化。
Unicode的編碼僅指使用數字（通常寫成16進位數）來一對一的代表字元的工作。這個數的範圍只受Unicode標準的約束，與電腦毫無關聯。
Unicode的位元組序列化指為了能夠寫入電腦記憶體，而把一個Unicode標準範圍內的數，表示成N個位元組的工作。

測試案例

測試案例為：「錟斤拷【斷行】a【斷行】」。（錟斤拷貝是一種信仰。）

所有字元的GBK和Unicode編碼為：

錟GBK=EFBF Unicode=U 951F
斤GBK=BDEF Unicode=U 65A4
拷貝GBK=BFBD Unicode=U 62F7

以下ASCII字元的GBK和Unicode編碼與ASCII一致：

a=0x61 CR=0x0D LF=0x0A
# （Windows一個換行符佔有兩個字元：CR LF）

ANSI

#在簡體中文系統下，ANSI就是中華人民共和國國家標準定義的GBK編碼。

Windows Notepad使用ANSI儲存這個檔案的結果如下：

EF BF  BD EF  BF BD  0D  0A  61  0D  0A
-----  -----  -----  --  --  --  --  --

登入後複製

簡單的使用GBK編碼儲存了所有的字元。最高位元不是1的單字節並等同於ASCII，否則雙位元組。

這裡要注意位元組序（Endian）的問題[註A]。可以看到這裡的字節序是大端在先（big-endian）的。

但不必刻意強調「大端在先的GBK」－因為從GB2312開始，標準就規定了儲存方式是大端在先的[註B]。後來的GBK和GB18030-2000向下相容。

ANSI的麻煩就是依賴系統－其他語言系統的ANSI就不是GBK了，開啟GBK的檔案必然亂碼。且GBK的字元集本身也太小。
（千萬不要說「我只用中文」－少了Unicode那些符號，網路上那些顏文字都打不出來）

Unicode系列

Windows Notepad所說的「Unicode」、「Unicode big endian」和UTF-8，全都是同樣的Unicode編碼的不同的位元組序列化儲存方法。

UTF-16 和 BOM

這裡的Unicode指UTF-16[註C]。 UTF-16是極為簡單粗暴的序列化方法－絕大多數的Unicode字元都在U 0000~U FFFF的範圍內[註D]，那就每個字元用兩個位元組，把Unicode編碼的原始值寫盤。

注意ASCII字元也必須浪費一倍的空間儲存高8位元的0x00－因為如果把高8位元的0略了，解析時就再也沒有其他的依據去斷字。

對於UTF-16就存在大端和小端的問題了－UTF-16並不規定位元組的大端在前還是小端在前。但UTF-16並不包含表示字節序的訊息，總不能人工看看哪個解析是不亂碼的吧…

Unicode提供的解決方式是，把一個零寬無斷字空格符（U FEFF ZERO WIDTH NO-BREAK SPACE）以UTF-16的方式序列化之後，塞到檔案的最前邊。這樣UTF-16解析器讀取檔案的前兩個位元組，如果是FE FF就是大端在前，FF FE就是小端在前。

這個塞進去的東西就叫BOM（Byte Order Mark，位元組順序標記）。

值得一提的是，零寬無斷字空格符也常用於充當1個有效字符，破拆各種場合的字數限制。包括SegmentFault的問答和評論內容在內。

記事本的“Unicode”和“Unicode big endian”

單寫“Unicode”，根本就不是一種儲存方法的完整表達。因為這只包含編碼而沒有位元組序列化。

M$出現這種錯誤，我一點都不覺得奇怪。死記結論就可以了：Windows Notepad的「Unicode」就是UTF-16。

Windows Notepad使用“Unicode” = 小端在先的UTF-16，存储这个文件的结果如下：

 FF FE 1F 95 A4 65 F7 62 0D 00 0A 00 61 00 0D 00 0A 00
 -BOM- ----- ----- ----- ----- ----- ----- ----- ----- 
U+FEFF  951F  65A4  62F7  000D  000A  0061  000D  000A <p>Windows Notepad使用<strong>“Unicode big endian” = 大端在先的UTF-16</strong>，存储这个文件的结果如下：</p><pre class="brush:php;toolbar:false"> FE FF 95 1F 65 A4 62 F7 00 0D 00 0A 00 61 00 0D 00 0A
 -BOM- ----- ----- ----- ----- ----- ----- ----- ----- 
U+FEFF  951F  65A4  62F7  000D  000A  0061  000D  000A <h3 id="UTF">UTF-8</h3><p>UTF-8是一种用1~4个字节表示1个Unicode字符的<strong>变长的</strong>字节序列化方法。具体的实现细节看这篇文章。UTF-8的好处在于：</p><ol class=" list-paddingleft-2">
<li><p>无论是IETF的推荐，还是实际业界的执行，UTF-8都是互联网的标准。</p></li>
<li><p>向下兼容，ASCII字符UTF-8序列化后仍是原样，任何ASCII文件也是有效的UTF-8文件。</p></li>
<li><p>没有字节序问题。UTF-8的字节序是由RFC3629定死的。</p></li>
</ol><p>Windows Notepad使用UTF-8存储这个文件的结果如下：</p><pre class="brush:php;toolbar:false"> EF BB BF  E9 94 9F  E6 96 A4  E6 8B B7  0D   0A   61   0D   0A
 --BOM---  --------  --------  --------  --   --   --   --   --
U+ FEFF      951F      65A4      62F7   000D 000A 0061 000D 000A <p>注意UTF-8前边仍然塞进去了<code>U+FEFF</code>按照UTF-8序列化的结果<code>EF BB BF</code>，作为前边提到过的<strong>BOM</strong>字节顺序标记。<strong>Windows Notepad存储的UTF-8，是带有BOM标记的UTF-8</strong>。</p><p>但是如果仅仅对于UTF-8而言，字节序是没有意义的。因为UTF-8的字节序被规范写死，<code>U+FEFF</code>编码后必然得到<code>EF BB FF</code>，得不出其他的。没有二义性，BOM就失去了原本的意义。也许只有区别UTF-8文件和UTF-16文件的用处……</p><p>如何对待UTF-8文件的BOM，RFC3629的第6章有详细的规定，不加详述。</p><p>值得一提的是，BOM我想很多PHP程序员都经历过并且恨之入骨——PHP不认识文件中的BOM头并会将其作为HTTP Response的正文送出。这甚至在无缓冲的情况下，会导致<code>header()</code>等必须在Response开始前执行的函数直接失效。</p><p>所以PHP程序员总是会喜欢<strong>UTF-8 without BOM</strong>的编码方式——这基本也就宣布了Windows下的PHP开发，Windows Notepad完全的淘汰出局，哪怕是任何一星半点代码的临时修改。</p><h2 id="番外-Notepad-的字符编码测试">番外：Notepad++的字符编码测试</h2><p>ANSI没有区别，但Notepad++支持选择多国编码的不同ANSI编码方式（类似浏览器里选编码），可以轻松生成或读取Shift-JIS等其他字符集的文件。适合用于对付日文老游戏的<code>README</code>等文档。</p><p>UCS-2 Big Endian、UCS-2 Little Endian和前边UTF-16的两个例子一致。注意UTF-16的文件不提供“无BOM”的存储方法（提供了就坏了）。</p><p>UTF-8仍然代表“带有BOM标记的UTF-8”。但同时提供PHP程序员最爱的UTF-8 without BOM，就像：</p><pre class="brush:php;toolbar:false"> E9 94 9F  E6 96 A4  E6 8B B7  0D   0A   61   0D   0A
 --------  --------  --------  --   --   --   --   --
U+ 951F      65A4      62F7   000D 000A 0061 000D 000A <p>Simple and clean.</p><p>注解<br>[注A] 对于一个双(多)字节的数，一定会按8位截断为1字节后写盘。那么写盘时先写最低8位还是先写最高8位，就是所谓的“字节序”（Endian）问题。例如，数0x01020304写盘时，是先写最低8位的04 03 02 01，还是先写最高8位的01 02 03 04？<br>
  先写低8位的叫做小端在先（little-endian），先写高8位的叫做大端在先（big-endian）。实际采用何种字节序受系统环境、标准规范和软件实际编写的多方面控制，不一概而论。<br>[注B] 字节序如果我没弄错，是GB2312采用的EUC字符编码方法控制的。<br>[注C] 本文并不严格区分UTF-16与UCS-2。<br>[注D] Unicode的最大值实际上达到了U+10FFFF，超出了两个字节能够存储的限度。<br>
  但Unicode由于历史原因，留下了U+D800~U+DFFF这一段永久保留不用的空缺区域。<br>
  因此对U+10000及以上的字符，UTF-16借助了这部分空缺区域，对这些编码超大的字符打破2字节16位的惯例，特别的用4字节32位去表示之。<br>
  这一部分编码值太大的字符，超出了GBK的字符集范围，因此本文将完全忽略。如有机会再进一步测试。</p><p class="comments-box-content"></p>

登入後複製

以上是Windows Notepad裡可選的字元編碼的詳細介紹的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1665

CakePHP 教程

1424

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

mysql怎麼複製粘貼 Apr 08, 2025 pm 07:18 PM

MySQL 中的複制粘貼包含以下步驟：選擇數據，使用 Ctrl C（Windows）或 Cmd C（Mac）複製；在目標位置右鍵單擊，選擇“粘貼”或使用 Ctrl V（Windows）或 Cmd V（Mac）；複製的數據將插入到目標位置，或替換現有數據（取決於目標位置是否已存在數據）。

vs code 可以在 Windows 8 中運行嗎 Apr 15, 2025 pm 07:24 PM

VS Code可以在Windows 8上運行，但體驗可能不佳。首先確保系統已更新到最新補丁，然後下載與系統架構匹配的VS Code安裝包，按照提示安裝。安裝後，注意某些擴展程序可能與Windows 8不兼容，需要尋找替代擴展或在虛擬機中使用更新的Windows系統。安裝必要的擴展，檢查是否正常工作。儘管VS Code在Windows 8上可行，但建議升級到更新的Windows系統以獲得更好的開發體驗和安全保障。

Debian中Tigervnc支持哪些操作系統 Apr 12, 2025 pm 10:15 PM

開源VNC工具Tigervnc兼容眾多操作系統，其中包括Windows、Linux和macOS。本文將詳細介紹Tigervnc在Debian系統上的應用情況。 Tigervnc在Debian系統的應用系統集成:在Debian系統中，Tigervnc作為VNC服務器組件被集成到系統中。用戶可通過命令行工具（例如vncserver）啟動VNC服務，並自定義顯示設置，如分辨率和色彩深度。跨平台連接:Tigervnc客戶端支持Windows、Linux和macOS，這意味著用戶可以從任何運行這

sublime寫好代碼後如何運行 Apr 16, 2025 am 08:51 AM

在 Sublime 中運行代碼的方法有六種：通過熱鍵、菜單、構建系統、命令行、設置默認構建系統和自定義構建命令，並可通過右鍵單擊項目/文件運行單個文件/項目，構建系統可用性取決於 Sublime Text 的安裝情況。

如何解決Laravel中復雜的BelongsToThrough關係問題？使用Composer可以！ Apr 17, 2025 pm 09:54 PM

在Laravel開發中，處理複雜的模型關係一直是個挑戰，特別是當涉及到多層級的BelongsToThrough關係時。最近，我在處理一個多級模型關係的項目中遇到了這個問題，傳統的HasManyThrough關係無法滿足需求，導致數據查詢變得複雜且低效。經過一番探索，我找到了staudenmeir/belongs-to-through這個庫，它通過Composer輕鬆安裝並解決了我的困擾。

laravel安裝代碼 Apr 18, 2025 pm 12:30 PM

要安裝 Laravel，需依序進行以下步驟：安裝 Composer（適用於 macOS/Linux 和 Windows）安裝 Laravel 安裝器創建新項目啟動服務訪問應用程序（網址：http://127.0.0.1:8000）設置數據庫連接（如果需要）

Mac系統中的系統維護與優化工具推薦 Apr 12, 2025 pm 04:45 PM

Mac 系統維護包括：磁盤管理（使用 OmniDiskSweeper 清理磁盤空間，用磁盤工具檢查磁盤錯誤）內存管理（用 Activity Monitor 監控內存佔用，結束佔用過高的進程）啟動項管理（用 Linc 或 LaunchControl 管理啟動項，禁用不必要的啟動項）系統緩存清理（用 CleanMyMac X 或手動清理系統緩存）軟件更新（及時更新系統和應用程序）定期備份（使用 Time Machine 定期備份數據）良好使用習慣（不過度安裝應用程序，定期清理文件，監控系統日誌）

git軟件安裝 Apr 17, 2025 am 11:57 AM

安裝 Git 軟件包括以下步驟：下載安裝包運行安裝包驗證安裝配置 Git安裝 Git Bash（僅限 Windows）

See all articles

Windows Notepad裡可選的字元編碼的詳細介紹

警告

注意

測試案例

ANSI

Unicode系列

UTF-16 和 BOM

記事本的“Unicode”和“Unicode big endian”

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題