MYSQL VER 8에 저장된 700만개 레코드 중 문자, 공백, 마침표 이외의 문자가 포함된 레코드 찾기
P粉132730839
P粉132730839 2024-02-25 21:01:35
0
1
450

MYSQL DB의 특수문자를 아래 예시와 같이 주로 데이터베이스의 이름, 성 컬럼에 삽입했습니다.

<强>1. ➡️발파이 SAB

<强>2. ������������������������°������������������ � �������������������������������������������� �� ������������������������������������������ ??

효과적인 사례:

*사우라브 슈리

S.shree

T.M.

찰스 배비지 Sr.*

길이는 가변적입니다. 모든 항목은 대소문자를 구분하지 않으며 뒤에 공백이 없습니다. 연속된 두 단어 사이에는 공백과 마침표 만 허용됩니다.

정규식 게시물을 살펴보고 열과 테이블의 조합을 utfmb4_unicode_ci로 변경하고 regexp를 적용했지만 운이 없었습니다.

한 글자라도 나오려면 700만개 정도의 레코드를 검색해야 했어요.

으아아아

내 코드는 다음과 같습니다.

SELECT FARMER_BRANCH_NAME, HEX(FARMER_BRANCH_NAME) FROM BSBY.PROPOSAL

OUTPUT

Farmer Branch Name      Hex(Farmer Branch Name)
SME œ•œBRANCH JASDANœ•œ   534D45209C959C4252414E4348204A415344414E9C959C
নলহাটি        E0A6A8E0A6B2E0A6B9E0A6BEE0A69FE0A6BF
নলহাটি        E0A6A8E0A6B2E0A6B9E0A6BEE0A69FE0A6BF
নলহাটি        E0A6A8E0A6B2E0A6B9E0A6BEE0A69FE0A6BF
SME œ•œBRANCH JASDANœ•œ   534D45209C959C4252414E4348204A415344414E9C959C
Mumbai - Chembur         4D756D626169202D204368656D627572C2A0
New Delhi - Connaught Place - II   4E65772044656C6869202D20436F6E6E617567687420506C616365202D204949C2A0
Mumbai - Malad            4D756D626169202D204D616C6164C2A0
Bangalore - Cantonment    42616E67616C6F7265202D2043616E746F6E6D656E74C2A0
Ahmedabad-BOPAL           41686D6564616261642D424F50414CC2A0
SME œ•œBRANCH JASDANœ•œ    534D45209C959C4252414E4348204A415344414E9C959C

SELECT FARMER_NAME,HEX(FARMER_NAME) FROM BSBY_UAT.PROPOSAL where FARMER_NAME NOT REGEXP '[A-Za-z0-9.() ]$' 

OUTPUT

FARMER NAME         HEX(FARMER NAME)
RAHIM BISWAS        524148494D2042495357415309
ESARUL GAZI         45534152554C2047415A4909
GOLAM NABI MANDAL   474F4C414D204E414249204D414E44414C09
LATIF MANDAL        4C41544946204D414E44414C09
NILKAMAL MANDAL     4E494C4B414D414C204D414E44414C09
SHUKUR ALI MONDAL   5348554B555220414C49204D4F4E44414C09
¦€ Â¦€° Â¦€º Â§Â Â¦€¢  Â¦€  Â¦Â² Â¦Â¿  A0C2A680A0C2A680B0A0C2A680BAA0C2A7C281A0C2A680A220A0C2A680A0A0C2A6C2B2A0C2A6C2BF
HASINA KHATUN       484153494E41204B484154554E09
KSHETRAGOPAL GHOSH  4B534845545241474F50414C2047484F534809
SUKUMAR DAS HALDAR  53554B554D4152204441532048414C44415209
Yasin Hossain       596173696E20486F737361696E09
SHAH HOSSAIN MOLLA  5348414820484F535341494E204D4F4C4C4109
RAMJAN SEKH         52414D4A414E2053454B4809
Nibaran Ch. Mahato  4E69626172616E2043682E204D616861746F09
PRAKASH KUMAR MONDAL 5052414B415348204B554D4152204D4F4E44414C2009
UNFERA BEWA          554E4645524120424557410909
BODRUL HOQUE        424F4452554C20484F5155450909
à¦à¦¾à¦¦à¦² চনà§à¦¦à§à¦° সরকার    E0A6E0A6BEE0A6A6E0A6B220E0A69AE0A6A8E0A78DE0A6A6E0A78DE0A6B020E0A6B8E0A6B0E0A695E0A6BEE0A6B0
à¦à¦¾à¦¦à¦² চনà§à¦¦à§à¦° সরকার    E0A6E0A6BEE0A6A6E0A6B220E0A69AE0A6A8E0A78DE0A6A6E0A78DE0A6B020E0A6B8E0A6B0E0A695E0A6BEE0A6B0
মিনতি সিংহ    E0A6AEE0A6BFE0A6A8E0A6A4E0A6BF20E0A6B8E0A6BFE0A682E0A6B9
রেখা সরকার    E0A6B0E0A787E0A696E0A6BE20E0A6B8E0A6B0E0A695E0A6BEE0A6B0
রেখা সরকার    E0A6B0E0A787E0A696E0A6BE20E0A6B8E0A6B0E0A695E0A6BEE0A6B0
SUKDEB SARKARপ    53554B444542205341524B4152E0A6AA
KEYAMUL SEKH            4B4559414D554C2053454B480909
घोष पारà¥à¤µà¤¤à¥€  E0A498E0A58BE0A4B720E0A4AAE0A4BEE0A4B0E0A58DE0A4B5E0A4A4E0A580
à¦à¦¨à§à¦Ÿà§ সরকার    E0A69DE0A6A8E0A78DE0A69FE0A78120E0A6B8E0A6B0E0A695E0A6BEE0A6B0
à¦à¦²à¦°à¦¾à¦® সরকার  E0A6E0A6B2E0A6B0E0A6BEE0A6AE20E0A6B8E0A6B0E0A695E0A6BEE0A6B0
মনোতোষ সরকার  E0A6AEE0A6A8E0A78BE0A6A4E0A78BE0A6B720E0A6B8E0A6B0E0A695E0A6BEE0A6B0

P粉132730839
P粉132730839

모든 응답(1)
P粉340980243

질문에 "2"가 필요합니다. 이것이 어떤 단서를 제공하는지 궁금합니다.

으아악

제가 본 16진수 문자열 중 하나는 转换(UNHEX('E0A69DE0A6A8E0A78DE0A69FE0A78120E0A6B8E0A6B0E0A695E0A6BEE0A6B0')使用utf8mb4) 잔투 사르카르

제작

이로 인해 반드시 해결되는 것은 아니지만 삽입 중 인코딩 문제가 있음을 시사할 수 있습니다.

정규식의 경우 다음과 같은 것을 고려하세요.

으아악

이것은 문자열의 바이트에 ASCII가 아닌 8비트 코드가 있는지 검색합니다.

이것은 혼합물입니다:

으아악

즉, Ascii이지만 끝에 벵골어 "PA"가 있습니다. 사실 보시는 "SUKDEB SARKARàª"는 모지바케 로고입니다. Mojibake(및 기타 일반적인 혼동)에 대한 토론은 다음을 참조하세요. UTF-8 문자 관련 문제; 내가 보는 내용이 내가 저장한 내용이 아닙니다.

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿