首頁 web前端 html教學 web文本資料清洗流程及實例 (實例代碼)

web文本資料清洗流程及實例 (實例代碼)

Oct 17, 2018 pm 02:41 PM

本篇文章帶給大家的內容是關於web文本資料清洗流程及實例 (實例程式碼),有一定的參考價值,有需要的朋友可以參考一下,希望對你有幫助。

今天,超過80%的資料是非結構化的。文字資料預處理是資料分析前的必經之路。大多數可用的文字資料本質上是高度非結構化和嘈雜的,需要更好的見解或建立更好的演算法來處理資料。

我們知道,社群媒體資料是高度非結構化的,因其非正式的交流,存在包括拼字錯誤、文法不好、俚語的使用、諸如URL、停用詞、表達式等不必要內容。

一個典型的商業問題,假設你感興趣的是:這是iPhone在粉絲中更受歡迎的特質。下面你已經提取了與iPhone相關的消費者意見的一條推特:

下面對這條推特做文字預處理:

1、去掉HTML 字元:    

從Web取得的資料通常包含許多HTML實體,如lt;& gt;& &;它嵌入到原始資料中。因此,必須擺脫這些實體。一種方法是透過使用特定的正規表示式直接刪除它們。另一種方法是使用適當的套件和模組(例如Python的HTMLPARSER),它可以將這些實體轉換成標準的HTML標記。例如:& lt;轉換為“

         web文本資料清洗流程及實例 (實例代碼)

2、解碼資料:

這是將資訊從複雜符號轉換為簡單易懂字元的過程。文字資料可能會受到不同形式的解碼,如“拉丁語”、“UTF8”等。因此,為了更好地分析,有必要保持完整的資料以標準的編碼格式。 UTF-8編碼被廣泛接受並推薦使用。

       web文本資料清洗流程及實例 (實例代碼)

3、撇號找出:為了避免文本中的任何字詞義消歧,建議在文章中保持適當的結構,並遵守上下文無關文法的規則。當使用撇號時,消歧的機會增加。

For example “it’s is a contraction for it is or it has”.

所有撇號都應該轉換成標準字典。可以使用所有可能的關鍵字的查找表來消除歧義。

       web文本資料清洗流程及實例 (實例代碼)

4、停用詞的移除:當資料分析需要在字級上進行資料驅動時,應刪除通常出現的單字(停用詞)。透過創建的一個長長的停止詞列表,或者可以使用預先定義的語言特定的庫。

5、刪除標點符號:所有的標點符號應依照優先權來處理。例如:“,”,“,”,“?”“重要標點應該保留,而其他標點需要刪除。

6、刪除表達式:文字資料(通常是語音轉錄)可能包含人類的表達,如[笑],[哭],[觀眾暫停]。這些表達式通常與語音內容無關,因此需要刪除。在這種情況下,簡單正則表達式可能是有用的。

7 、分裂的附加詞:人在社交論壇中的生成文本數據,本質上是完全非正式的。大多數推文伴隨著多個附加詞,例如RayyDay. PrimeCythOrth.等,這些實體可以用簡單的規則和正規表示式分裂成它們的正常形式.

8、俚語查找:同樣,社交媒體包括大多數俚語詞彙。這些詞應該轉換成標準詞來製作自由文本。像LUV這樣的詞將被轉換成愛,Helo到Hello。撇號查找的類似方法可以用來將俚語轉換成標準詞。網上有大量的信息源,它提供了所有可能的俚語的列表,可以用它們作為查找字典來進行轉換。

9、規範字:有時字的格式不正確。例如:「I looooveee you」應為「I love you」。簡單的規則和正規表示式可以幫助解決這些情況。

10、刪除URL:應刪除文字資料中的URL和超鏈接,如評論、評論和推文。

以上就是對web文本資料清洗流程及實例(實例代碼)的全部介紹,如果您想了解更多有關HTML視頻教程,請關注PHP中文網。

 

以上是web文本資料清洗流程及實例 (實例代碼)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

> gt;的目的是什麼 元素? > gt;的目的是什麼 元素? Mar 21, 2025 pm 12:34 PM

本文討論了HTML< Progress>元素,其目的,樣式和與< meter>元素。主要重點是使用< progress>為了完成任務和LT;儀表>對於stati

< datalist>的目的是什麼。 元素? < datalist>的目的是什麼。 元素? Mar 21, 2025 pm 12:33 PM

本文討論了html< datalist>元素,通過提供自動完整建議,改善用戶體驗並減少錯誤來增強表格。Character計數:159

HTML5中跨瀏覽器兼容性的最佳實踐是什麼? HTML5中跨瀏覽器兼容性的最佳實踐是什麼? Mar 17, 2025 pm 12:20 PM

文章討論了確保HTML5跨瀏覽器兼容性的最佳實踐,重點是特徵檢測,進行性增強和測試方法。

< meter>的目的是什麼。 元素? < meter>的目的是什麼。 元素? Mar 21, 2025 pm 12:35 PM

本文討論了HTML< meter>元素,用於在一個範圍內顯示標量或分數值及其在Web開發中的常見應用。它區分了< meter>從< progress>和前

如何使用HTML5表單驗證屬性來驗證用戶輸入? 如何使用HTML5表單驗證屬性來驗證用戶輸入? Mar 17, 2025 pm 12:27 PM

本文討論了使用HTML5表單驗證屬性,例如必需的,圖案,最小,最大和長度限制,以直接在瀏覽器中驗證用戶輸入。

視口元標籤是什麼?為什麼對響應式設計很重要? 視口元標籤是什麼?為什麼對響應式設計很重要? Mar 20, 2025 pm 05:56 PM

本文討論了視口元標籤,這對於移動設備上的響應式Web設計至關重要。它解釋瞭如何正確使用確保最佳的內容縮放和用戶交互,而濫用可能會導致設計和可訪問性問題。

< iframe>的目的是什麼。 標籤?使用時的安全考慮是什麼? < iframe>的目的是什麼。 標籤?使用時的安全考慮是什麼? Mar 20, 2025 pm 06:05 PM

本文討論了< iframe>將外部內容嵌入網頁,其常見用途,安全風險以及諸如對象標籤和API等替代方案的目的。

Gitee Pages靜態網站部署失敗:單個文件404錯誤如何排查和解決? Gitee Pages靜態網站部署失敗:單個文件404錯誤如何排查和解決? Apr 04, 2025 pm 11:54 PM

GiteePages靜態網站部署失敗:404錯誤排查與解決在使用Gitee...

See all articles