Le contenu de cet article concerne le processus de nettoyage des données de texte Web et des exemples (exemple de code). Il a une certaine valeur de référence. Les amis dans le besoin peuvent s'y référer.
Aujourd'hui, plus de 80% des données sont non structurées. Le prétraitement des données textuelles est le seul moyen avant l'analyse des données. La plupart des données textuelles disponibles sont très non structurées et de nature bruyante, ce qui nécessite de meilleures informations ou la construction de meilleurs algorithmes pour traiter les données.
Nous savons que les données des réseaux sociaux sont très non structurées en raison de la communication informelle, notamment des fautes d'orthographe, une mauvaise grammaire, l'utilisation d'argot, des irrégularités telles que des URL, des mots vides, des expressions, etc. Contenu requis.
Une question commerciale typique, en supposant que cela vous intéresse : c'est la fonctionnalité qui rend l'iPhone plus populaire parmi les fans. Ci-dessous, vous avez extrait un tweet sur les avis des consommateurs liés à l'iPhone :
Ce qui suit est le prétraitement du texte pour ce tweet :
1. Supprimez les caractères HTML :
<.>Les données obtenues à partir du Web contiennent généralement de nombreuses entités HTML telles que &&&& qui sont intégrées dans les données d'origine. Il est donc nécessaire de se débarrasser de ces entités. Une solution consiste à les supprimer directement en utilisant des expressions régulières spécifiques. Une autre approche consiste à utiliser des packages et des modules appropriés (tels que HTMLPARSER de Python), qui peuvent convertir ces entités en balisage HTML standard. Par exemple : 2. Décodage des données : Il s'agit du processus de conversion des informations de symboles complexes en caractères simples et compréhensibles. Les données texte peuvent faire l'objet de différentes formes de décodage, telles que "Latin", "UTF8", etc. Par conséquent, pour une meilleure analyse, il est nécessaire de conserver les données complètes dans un format de codage standard. Le codage UTF-8 est largement accepté et recommandé. 3. Recherche d'apostrophe : Afin d'éviter toute ambiguïté de sens de mot dans le texte, il est recommandé de maintenir une structure appropriée dans l'article et de suivre les règles de contexte- grammaire libre. Lorsqu’une apostrophe est utilisée, les chances d’homonymie augmentent. Par exemple « c'est une contraction pour c'est ou il a ».Toutes les apostrophes doivent être converties en dictionnaires standards. Une table de recherche de tous les mots-clés possibles peut être utilisée pour éliminer toute ambiguïté. 4. Suppression des mots vides : lorsque l'analyse des données doit être basée sur les données au niveau des caractères, les mots courants (mots vides) doivent être supprimés. En créant une longue liste de mots vides, vous pouvez également utiliser des bibliothèques prédéfinies spécifiques à la langue. 5. Supprimer les signes de ponctuation : tous les signes de ponctuation doivent être traités en fonction de la priorité. Par exemple : ",", ",", "?" "Les signes de ponctuation importants doivent être conservés, tandis que les autres signes de ponctuation doivent être supprimés. 6. Supprimer les expressions : les données textuelles (généralement des transcriptions vocales) peuvent contenir des expressions humaines. expressions , telles que [rire], [pause d'audience]. Ces expressions ne sont généralement pas pertinentes pour le contenu du discours et doivent donc être supprimées. Dans ce cas, des expressions régulières simples peuvent être utiles. les forums sociaux, qui sont de nature complètement informelle. La plupart des tweets sont accompagnés de plusieurs compléments, tels que RayyDay., etc. Ces entités peuvent être représentées par des règles simples et les expressions régulières sont divisées dans leurs formes normales. > 8. Recherche d'argot : De même, les médias sociaux incluent la plupart des mots d'argot et ces mots doivent être convertis en mots standard pour créer du texte libre. Convertir en amour, Helo en Bonjour. Une méthode similaire à la recherche d'apostrophe peut être utilisée pour convertir l'argot. mots en mots standard. Il existe de nombreuses sources d'informations sur Internet qui fournissent des listes de tous les mots d'argot possibles qui peuvent être utilisés comme dictionnaires de recherche pour la conversion 9. . Par exemple : "Je t'aime" devrait être "Je t'aime". Des règles simples et des expressions régulières peuvent aider à résoudre ces situations.10. Supprimer les URL : les URL et les hyperliens dans les données textuelles doivent être supprimés. commentaires et tweets.
Ce qui précède est une introduction complète au processus de nettoyage des données de texte Web et des exemples (exemple de code, si vous souhaitez en savoir plus sur le
Tutoriel vidéo HTML, veuillez payer). attention au site PHP chinois.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!