Rumah hujung hadapan web html tutorial web文本数据清洗流程及实例 (实例代码)

web文本数据清洗流程及实例 (实例代码)

Oct 17, 2018 pm 02:41 PM

本篇文章给大家带来的内容是关于web文本数据清洗流程及实例 (实例代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。

今天,超过80%的数据是非结构化的。文本数据预处理是数据分析前的必经之路。大多数可用的文本数据本质上是高度非结构化和嘈杂的,需要更好的见解或建立更好的算法来处理数据。 

我们知道,社交媒体数据是高度非结构化的,因其非正式的交流,存在包括拼写错误、语法不好、俚语的使用、诸如URL、停用词、表达式等不必要内容。

一个典型的商业问题,假设你感兴趣的是:这是iPhone在粉丝中更受欢迎的特点。下面你已经提取了与iPhone相关的消费者意见的一条推特:

下面对这条推特做文本预处理:

1、去掉HTML 字符:    

从Web获得的数据通常包含许多HTML实体,如lt;& gt;& &;它嵌入到原始数据中。因此,必须摆脱这些实体。一种方法是通过使用特定的正则表达式直接删除它们。另一种方法是使用适当的包和模块(例如Python的HTMLPARSER),它可以将这些实体转换成标准的HTML标记。例如:& lt;转换为“<”,转换为“&”。

         1.png

2、解码数据:

这是将信息从复杂符号转换为简单易懂字符的过程。文本数据可能会受到不同形式的解码,如“拉丁语”、“UTF8”等。因此,为了更好地分析,有必要保持完整的数据以标准的编码格式。UTF-8编码被广泛接受并推荐使用。

       2.png

3、撇号查找:为了避免文本中的任何词义消歧,建议在文章中保持适当的结构,并遵守上下文无关文法的规则。当使用撇号时,消歧的机会增加。

For example “it’s is a contraction for it is or it has”.

所有撇号都应该转换成标准词典。可以使用所有可能的关键字的查找表来消除歧义。

       3.png

4、停用词的去除:当数据分析需要在字级上进行数据驱动时,应删除通常出现的单词(停用词)。通过创建的一个长长的停止词列表,或者可以使用预定义的语言特定的库。

5、删除标点符号:所有的标点符号应根据优先级来处理。例如:“,”,“,”,“?”“重要标点应该保留,而其他标点需要删除。

6、删除表达式:文本数据(通常是语音转录)可能包含人类的表达,如[笑],[哭],[观众暂停]。这些表达式通常与语音内容无关,因此需要删除。在这种情况下,简单正则表达式可能是有用的。

7、分裂的附加词:人在社交论坛中的生成文本数据,本质上是完全非正式的。大多数推文伴随着多个附加词,例如RayyDay. PrimeCythOrth.等,这些实体可以用简单的规则和正则表达式分裂成它们的正常形式.

8、俚语查找:同样,社交媒体包括大多数俚语词汇。这些词应该转换成标准词来制作自由文本。像LUV这样的词将被转换成爱,Helo到Hello。撇号查找的类似方法可以用来将俚语转换成标准词。网上有大量的信息源,它提供了所有可能的俚语的列表,可以用它们作为查找字典来进行转换。

9、规范词:有时词的格式不正确。例如:“I looooveee you” 应为 “I love you”。简单的规则和正则表达式可以帮助解决这些情况。

10、删除URL:应删除文本数据中的URL和超链接,如评论、评论和推文。

以上就是对web文本数据清洗流程及实例 (实例代码)的全部介绍,如果您想了解更多有关HTML视频教程,请关注PHP中文网。

 

Atas ialah kandungan terperinci web文本数据清洗流程及实例 (实例代码). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Arahan sembang dan cara menggunakannya
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Apakah tujuan & lt; kemajuan & gt; unsur? Apakah tujuan & lt; kemajuan & gt; unsur? Mar 21, 2025 pm 12:34 PM

Artikel ini membincangkan html & lt; kemajuan & gt; elemen, tujuan, gaya, dan perbezaan dari & lt; meter & gt; elemen. Tumpuan utama adalah menggunakan & lt; kemajuan & gt; untuk menyelesaikan tugas dan & lt; meter & gt; untuk stati

Apakah tujuan & lt; DATALIST & GT; unsur? Apakah tujuan & lt; DATALIST & GT; unsur? Mar 21, 2025 pm 12:33 PM

Artikel ini membincangkan html & lt; datalist & gt; elemen, yang meningkatkan bentuk dengan menyediakan cadangan autokomplete, meningkatkan pengalaman pengguna dan mengurangkan kesilapan. Kira -kira: 159

Apakah amalan terbaik untuk keserasian penyemak imbas dalam HTML5? Apakah amalan terbaik untuk keserasian penyemak imbas dalam HTML5? Mar 17, 2025 pm 12:20 PM

Artikel membincangkan amalan terbaik untuk memastikan keserasian silang pelayar HTML5, memberi tumpuan kepada pengesanan ciri, peningkatan progresif, dan kaedah ujian.

Apakah tujuan & lt; meter & gt; unsur? Apakah tujuan & lt; meter & gt; unsur? Mar 21, 2025 pm 12:35 PM

Artikel ini membincangkan html & lt; meter & gt; elemen, digunakan untuk memaparkan nilai skalar atau pecahan dalam julat, dan aplikasi umum dalam pembangunan web. Ia membezakan & lt; meter & gt; dari & lt; kemajuan & gt; dan Ex

Bagaimana saya menggunakan atribut pengesahan borang html5 untuk mengesahkan input pengguna? Bagaimana saya menggunakan atribut pengesahan borang html5 untuk mengesahkan input pengguna? Mar 17, 2025 pm 12:27 PM

Artikel ini membincangkan menggunakan atribut pengesahan bentuk HTML5 seperti had, corak, min, max, dan panjang untuk mengesahkan input pengguna secara langsung dalam penyemak imbas.

Apakah tag meta viewport? Mengapa penting untuk reka bentuk responsif? Apakah tag meta viewport? Mengapa penting untuk reka bentuk responsif? Mar 20, 2025 pm 05:56 PM

Artikel ini membincangkan tag Meta Viewport, penting untuk reka bentuk web responsif pada peranti mudah alih. Ia menerangkan bagaimana penggunaan yang betul memastikan skala kandungan yang optimum dan interaksi pengguna, sementara penyalahgunaan boleh membawa kepada isu reka bentuk dan kebolehaksesan.

Apakah tujuan & lt; iframe & gt; Tag? Apakah pertimbangan keselamatan semasa menggunakannya? Apakah tujuan & lt; iframe & gt; Tag? Apakah pertimbangan keselamatan semasa menggunakannya? Mar 20, 2025 pm 06:05 PM

Artikel ini membincangkan & lt; iframe & gt; Tujuan TAG dalam membenamkan kandungan luaran ke dalam halaman web, kegunaan umum, risiko keselamatan, dan alternatif seperti tag objek dan API.

GITEE PAGES PENYEDIAAN LAMAN WEB STATIC Gagal: Bagaimana menyelesaikan masalah dan menyelesaikan kesilapan fail tunggal 404? GITEE PAGES PENYEDIAAN LAMAN WEB STATIC Gagal: Bagaimana menyelesaikan masalah dan menyelesaikan kesilapan fail tunggal 404? Apr 04, 2025 pm 11:54 PM

Giteepages Statik Laman Web Penggunaan Gagal: 404 Penyelesaian Masalah dan Resolusi Ralat Semasa Menggunakan Gitee ...

See all articles