BOM——Byte Order Mark,就是字節序標記
在UCS 編碼中有一個叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的編碼是FEFF。而FFFE在UCS中是不存在的字符,所以就不應該出現在實際傳輸中。 UCS規範建議我們在傳輸位元組流前,先傳輸 字元"ZERO WIDTH NO-BREAK SPACE"。這樣如果接收者收到FEFF,就表示這個位元組流是Big-Endian的;如果收到FFFE,就表示這個位元組流是Little- Endian的。因此字元"ZERO WIDTH NO-BREAK SPACE"又被稱為BOM。
UTF-8不需要BOM來表示位元組順序,但可以用BOM來表示編碼方式。字元"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是EF BB BF。所以如果接收者收到以EF BB BF開頭的位元組流,就知道這是UTF-8編碼了。
UTF- 8編碼的文件中,BOM佔三個位元組。如果用記事本把一個文字文件另存為UTF-8編碼方式的話,用UE打開這個文件,切換到十六進位編輯狀態就可以看到開 頭的FFFE了。這是識別UTF-8編碼檔案的好方法,軟體透過BOM來辨識這個檔案是否是UTF-8編碼,許多軟體也要求讀入的檔案必須帶BOM。可 是,還是有很多軟體不能辨識BOM。
在Firefox早期的版本裡,擴充是不能有BOM的,不過Firefox 1.5以後的版本已經開始支援BOM了。現在又發現,PHP也不支援BOM。 PHP在設計時就沒有考慮BOM的問題,也就是說他不會忽略UTF-8編碼的檔案開頭BOM的那三個字元。
由 於必須在在Bo-Blog的wiki看到,同樣使用PHP的Bo-Blog也一樣受到BOM的困擾。其中提到另一個麻煩:「受COOKIE送出機制的限制,在這些檔案開頭已經有BOM的檔案中,COOKIE無法送出(因為在COOKIE送出前PHP已經送出了檔案頭),所以登入和登出功能失效。 session的功能失效。
解決的辦法嘛,如果只包含英 文字(或者說ASCII編碼內的字元),就把文件存成ASCII碼方式吧。用UE等編輯器的話,點檔->轉換->UTF-8轉 ASCII,或是在另存為裡選擇ASCII編碼。如果是DOS格式的行尾符,可以用記事本打開,點另存為,選ASCII編碼。如果包含中文字元的話,可以 用UE的另存為功能,選擇「UTF-8 無 BOM」即可。
utf-8本來就不應該加bom,除了 讓編輯器知道它是個utf-8之外什麼用處都沒有。實際上編輯器完全有能力在不太多的幾個編碼格式之間根據特徵來判斷一個文件是什麼編碼,就算不能自動識 別,編輯器也應該有設定編碼的地方。所以我覺得BOM對於utf-8來說是多餘的東西。
utf-16才需要加bom。因為它是按unicode順序編碼,在BMP範圍內是二字節,需要識別是大或小字節序。
實 際上,我覺得utf-8引入大小字節序的概念太愚蠢了,不知道那些標準委員會是怎麼想的。大小字節序存在的意義,在於cpu的處理方式。如果cpu是大字 節序處理,那麼對於小字節序,就必須做一層轉換,這帶來了效率上的下降。但是在實際應用程式裡,誰會去關心大小字節序?文字編碼引起字節序的概念,只能說那些 制定標準的人太死板了。對於utf-16,我認為只要全世界都遵循一種字節序方式,那就沒什麼必要用BOM來標註了。
話說回來,PHP是不支援utf-16編碼的檔案的。因為例如$這個符號,在utf-8裡也是兩個字節,PHP解碼器無法解析的。在不知道PHP6內部處理引入unicode 的概念之後,對這個是否會有支持。
編 碼問題是一個說起來簡單,但是實際上很繁瑣的東西。很多程序,都有分層編碼的概念。像MySQL,就分為 client->connection->storage和storage->connection->result這些概念。 storage又分為system,database,table,column。我有時候在想,有必要搞這麼複雜嘛,TNND。像MySQL,誰用利用 它這些特性阿?除非允許兩個client在不同的編碼環境下運作,否則它把client編碼分離出來根本沒有必要。大多數情況下,直接binary in/binary out就好了
以上就介紹了utf-8與utf-8無BOM的區別 ,包括了方面的內容,希望對PHP教程有興趣的朋友有所幫助。