텍스트 파일에 대한 신뢰할 수있는 CodePage 감지 : BOM을 넘어
소프트웨어 개발에서 다양한 소스에서 텍스트 파일을 처리하려면 정확한 인코딩 식별이 필요합니다. 잘못된 코드 피지 감지는 데이터 손상으로 이어집니다. 's 는 UTF-8 및 기타 유니 코드 인코딩에 도움이되지만 IBM 850 또는 Windows-1252와 같은 코드 페지에는 효과가 없습니다.
이 문제는 자동 감지의 한계를 강조합니다. 전문가들은 명시적인 정보가없는 정확한 코드 피지 결정이 실제로 불가능하다는 데 동의합니다. 인간의 판단과 교육받은 추측은 종종 필요합니다.
일반적인 개발자 전략은 메모장과 같은 텍스트 편집기에서 파일을 검사하는 것과 관련이 있습니다. 왜곡 된 캐릭터 분석 (예 : "François"와 같은 이름이 잘못 나타나면 언어와 상황에 따라 정보에 입각 한 추측이 가능합니다.
또 다른 접근법은 코드 페지 식별을 도와주는 유틸리티를 만드는 것입니다. 사용자는 파일에서 알려진 텍스트 샘플을 제공합니다. 그런 다음 응용 프로그램은 다양한 코드 페지를 시도하여 그럴듯한 디코딩을 생성하는 사람들을 표시합니다.
여러 코드가 수용 가능한 결과를 얻으면 추가 텍스트 샘플을 사용하여 선택을 개선 할 수 있습니다. 그러나이 방법은 불가능하지 않으며 여전히 어느 정도의 해석에 의존합니다.
Joel Spolsky의 "모든 소프트웨어 개발자가 절대적으로 절대적으로 최소한, 유니 코드 및 문자 세트 (변명 없음!)에 대해 긍정적으로 알아야합니다." "일반"텍스트는 인코딩 사양없이 의미가 부족합니다. 인코딩을 이해하는 것은 올바른 디스플레이 및 해석에 중요하며 자동화 된 감지의 한계와 모호성을 인코딩하는 텍스트 파일을 해결하는 데있어 인간의 개입의 필요성을 강조합니다.
위 내용은 바이트 주문 마크가 실패 할 때 텍스트 파일의 코드 페지를 어떻게 안정적으로 감지 할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!