웹 텍스트 데이터 정리 과정 및 예시(예제 코드)

云罗郡主
풀어 주다: 2018-10-17 14:46:03
앞으로
3838명이 탐색했습니다.

이 글의 내용은 웹 텍스트 데이터 정리 과정과 예시(예제 코드)에 관한 내용입니다. 참고할 만한 가치가 있으니 도움이 필요한 분들에게 도움이 되길 바랍니다.

오늘날 데이터의 80% 이상이 구조화되지 않았습니다. 텍스트 데이터 전처리는 데이터 분석 전의 유일한 방법입니다. 사용 가능한 대부분의 텍스트 데이터는 본질적으로 구조화되지 않고 잡음이 많으므로 데이터를 처리하기 위해 더 나은 통찰력이 필요하거나 더 나은 알고리즘을 구축해야 합니다.

우리는 소셜 미디어 데이터가 고도로 구조화되어 있지 않으며 비공식적인 의사소통으로 인해 철자 오류, 잘못된 문법, 속어 사용, URL, 불용어, 표현 등 불필요한 내용이 있다는 것을 알고 있습니다.

당신이 관심이 있다고 가정할 때 일반적인 비즈니스 질문: 이것은 팬들 사이에서 더 인기 있는 iPhone의 기능입니다. 아래에서 iPhone과 관련된 소비자 의견에 대한 트윗을 추출했습니다.

다음은 이 트윗에 대한 텍스트 전처리입니다.

1. HTML 문자 제거 :

웹에서 얻은 데이터에는 일반적으로

이는 정보를 복잡한 기호에서 간단하고 이해하기 쉬운 문자로 변환하는 프로세스입니다. 텍스트 데이터는 "Latin", "UTF8" 등과 같은 다양한 형태의 디코딩이 적용될 수 있습니다. 따라서 더 나은 분석을 위해서는 전체 데이터를 표준 인코딩 형식으로 유지하는 것이 필요합니다. UTF-8 인코딩은 널리 허용되고 권장됩니다.号 撇 撇 撇 撇 撇 撇 웹 텍스트 데이터 정리 과정 및 예시(예제 코드)

: 본문의 의미를 피하기 위해 기사의 적절한 구조를 유지하고 문맥에 문법이 없는 규칙을 준수하는 것이 좋습니다. 아포스트로피를 사용하면 명확성의 가능성이 높아집니다.

웹 텍스트 데이터 정리 과정 및 예시(예제 코드)예를 들어 “it’s는 it is or it has”의 축약형입니다.

모든 아포스트로피는 표준사전으로 변환해야 합니다. 모호성을 제거하기 위해 가능한 모든 키워드의 조회 테이블을 사용할 수 있습니다.

                                                          4. 불용어 제거: 데이터 분석이 단어 수준에서 데이터 중심으로 이루어져야 하는 경우 자주 발생하는 단어(불용어)를 삭제해야 합니다. 긴 불용어 목록을 생성하거나 사전 정의된 언어별 라이브러리를 사용할 수 있습니다.

5. 구두점 삭제: 모든 구두점은 우선순위에 따라 처리되어야 합니다. 예: ",", ",", "?" "중요한 구두점은 유지해야 하며 다른 구두점은 삭제해야 합니다.

6. 표현식 삭제: 텍스트 데이터(일반적으로 음성 전사)에는 다음과 같은 인간 표현이 포함될 수 있습니다. [웃음], [울음], [청중 일시 중지] 이러한 표현은 일반적으로 음성 내용과 관련이 없으므로 제거해야 합니다. 이 경우 간단한 정규 표현식이 유용할 수 있습니다. 웹 텍스트 데이터 정리 과정 및 예시(예제 코드)

7. 추가 단어 분할: 사람은 in. 소셜 포럼에서 생성된 텍스트 데이터는 본질적으로 완전히 비공식적입니다. 대부분의 트윗에는 RayyDay, PrimeCythOrth 등과 같은 여러 추가 단어가 포함됩니다. 이러한 엔터티는 간단한 규칙과 정규식을 통해 분할될 수 있습니다.

8. 속어 조회: 마찬가지로 소셜 미디어에는 대부분의 속어가 포함되어 있습니다. 이러한 단어는 자유 텍스트를 만들기 위해 표준 단어로 변환되어야 합니다. LUV와 같은 단어는 속어 조회로 변환됩니다. 변환을 위한 검색 사전으로 사용할 수 있는 모든 가능한 속어 목록을 제공하는 정보 소스가 인터넷에 많이 있습니다. 예를 들면 다음과 같습니다. I looooveee"는 "I love you"여야 합니다. 간단한 규칙과 정규 표현식이 이러한 상황을 해결하는 데 도움이 될 수 있습니다.

10. URL 제거: 텍스트 데이터의 URL 및 하이퍼링크는 제거되어야 합니다. 댓글, 코멘트 및 트윗.

위는

HTML 비디오 튜토리얼

에 대해 더 알고 싶다면 PHP 중국어 웹사이트를 주목하세요.

위 내용은 웹 텍스트 데이터 정리 과정 및 예시(예제 코드)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:csdn.net
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿