> 백엔드 개발 > PHP 튜토리얼 > php中文分词源码遇到的小疑点

php中文分词源码遇到的小疑点

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
풀어 주다: 2016-06-13 11:52:03
원래의
777명이 탐색했습니다.

php中文分词源码遇到的小问题

本帖最后由 zhuzhaodan 于 2014-03-20 22:26:08 编辑
define('_SP_', chr(0xFF).chr(0xFE)); <br />define('UCS2', 'ucs-2be');
로그인 후 복사

这2个常量定义的作用是什么?_SP_定义成chr(0xFF).chr(0xFE)是什么意思,我在ascii对照表内根本找不到FF,FE这2个对应的编码啊?
后面的代码如下
        //载入副词典<br />        $hw = '';<br />        $ds = file($dicAddon);//17行的txt格式字典文件<br />        foreach($ds as $d)<br />        {<br />            $d = trim($d);<br />            if($d=='') continue;<br />            $estr = substr($d, 1, 1);<br />            if( $estr==':' ) {<br />                $hw = substr($d, 0, 1);<br />            }<br />            else<br />            {<br />                $spstr = _SP_;<br />                $spstr = iconv(UCS2, 'utf-8', $spstr);//怎么会出现ucs2编码?咋回事<br />                $ws = explode(',', $d);//每一行的汉字,用中间的逗号分成数组<br />                $wall = iconv('utf-8', UCS2, join($spstr, $ws));//用_SP_又组合成了字符串??,然后又转换成了ucs2?<br />                $ws = explode(_SP_, $wall);//又接着分割成数组?啥意思啊!!!<br />                foreach($ws as $estr)<br />                {<br />                    $this->addonDic[$hw][$estr] = strlen($estr);<br />                }<br />            }<br />        }
로그인 후 복사


这段代码,就是载入字典文件,可是我没明白ELSE代码的逻辑?谁能简单说说
------解决方案--------------------
BOM 是编码类型声明,把 _SP_ 解释为 BOM 是为了帮助理解
你不是”在ascii对照表内根本找不到FF,FE这2个对应的编码“
再看
define('_SP_', chr(0xFF).chr(0xFE)); <br />define('UCS2', 'ucs-2be');
$spstr = _SP_;
$spstr = iconv(UCS2, 'utf-8', $spstr);
echo bin2hex($spstr);
로그인 후 복사
得到 efbfbe
这是 utf-8 的 BOM

至于他为什么要这样做,你看看字典文件就知道是怎么回事了
관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿