Douze fonctions de la plateforme intelligente de recherche et d'exploitation minière Nlpir Parser-Développement de mini-programmes-php.cn

Douze fonctions de la plateforme intelligente de recherche et d'exploitation minière Nlpir Parser

phpcn_u1852

Libérer： 2017-06-23 11:48:45

original

2174 Les gens l'ont consulté

L'exploration de texte est devenue un domaine de recherche de plus en plus populaire et important dans l'exploration de données. Différente du data mining général, qui se concentre sur les relations, les transactions et les données structurées dans des entrepôts de données, la base de données textuelle étudiée par le text mining se compose d'un grand nombre de documents provenant de diverses sources de données. Ces documents peuvent contenir des données structurées telles que le titre, l'auteur, la date de publication, la longueur, etc., ou ils peuvent contenir des composants textuels non structurés tels que le résumé et le contenu. De plus, le contenu de ces documents est un langage naturel utilisé par les humains, et c'est le cas. difficile pour les ordinateurs de traiter sa sémantique. Par conséquent, la technologie traditionnelle de recherche d’informations ne peut plus s’adapter aux besoins croissants de traitement de grandes quantités de données textuelles. Les gens ont alors proposé des méthodes d’exploration de texte pour comparer différents documents et organiser leur importance et leur pertinence, ou pour trouver des modèles ou des tendances dans plusieurs documents. Attendez l'analyse.

La plate-forme intelligente de recherche et d'exploration de données Nlpir Parser est un ensemble d'outils de base pour la recherche sur réseau, la compréhension du langage naturel et le développement de technologies d'exploration de texte. La plate-forme de développement est composée de plusieurs middlewares et chaque API de middleware peut être intégrée de manière transparente aux clients. Divers systèmes d'applications complexes sont compatibles avec différents systèmes d'exploitation tels que Windows, Linux et FreeBSD, et peuvent être utilisés dans divers langages de développement tels que Java, C et C#.

La plateforme intelligente de recherche et d'exploration de données Nlpir Parser est un ensemble de logiciels spécialement conçus pour le traitement et le traitement des ensembles de textes originaux. Elle fournit un affichage visuel des effets de traitement du middleware et peut également être utilisée comme un petit. outil de traitement de données à grande échelle. Les utilisateurs peuvent utiliser ce logiciel pour traiter leurs propres données.

Douze fonctions principales de la plateforme intelligente de recherche et d'exploration de données Nlpir Parser :

1. Récupération précise du texte intégral : prend en charge divers types de données tels que le texte, les nombres, les dates, les chaînes, etc., avec Efficacité multi-champs La recherche prend en charge la syntaxe de requête telle que AND/OR/NOT et NEAR proximité, et prend en charge la récupération en ouïghour, tibétain, mongol, arabe, coréen et d'autres langues minoritaires. Peut être intégré de manière transparente aux systèmes de traitement de texte et aux systèmes de bases de données existants.

2. Découverte de nouveaux mots : une liste de nouveaux mots avec des connotations extraits de la collection de fichiers peut être utilisée pour compiler le dictionnaire professionnel de l'utilisateur ; les annotations peuvent également être modifiées et importées dans le dictionnaire de segmentation de mots, ainsi améliorer la précision du degré du système de segmentation des mots et s'adapter aux nouveaux changements linguistiques.

3. Segmentation de mots : segmentez le corpus original, identifiez automatiquement les mots non enregistrés tels que les noms de personnes, de lieux et d'institutions, les nouvelles balises de mots et les balises de parties du discours. Et des dictionnaires définis par l'utilisateur peuvent être importés pendant le processus d'analyse.

4. Analyse statistique et traduction terminologique : sur la base des résultats d'annotation de segmentation, le système peut automatiquement effectuer des statistiques de fréquence de mots unigrammes et des statistiques de probabilité de transition de mots binaires (en comptant la fréquence des connexions gauche et droite entre deux mots, ce qui c'est-à-dire la probabilité). Pour les termes couramment utilisés, des explications correspondantes en anglais seront automatiquement fournies.

5. Regroupement de textes et analyse des points chauds : il peut analyser automatiquement les événements chauds à partir de données à grande échelle et fournir des descriptions des fonctionnalités clés des sujets d'événements. Il convient également à l'analyse de points chauds de textes longs et de textes courts tels que les messages texte et Weibo.

　6. Filtrage de classification : sur la base de règles et d'exemples prédéfinis, le système filtre automatiquement les échantillons qui répondent aux besoins à partir d'un grand nombre de documents.

　7. Analyse positive et négative : pour les objets d'analyse et les échantillons d'échantillons prédéfinis, le système filtre automatiquement les scores positifs et négatifs et les échantillons de phrases à partir de documents massifs.

8. Résumé automatique : il peut extraire automatiquement l'essence du contenu d'un ou de plusieurs articles, ce qui permet aux utilisateurs de parcourir rapidement le contenu du texte.

9. Extraction de mots clés : à partir d'un seul article ou d'une collection d'articles, plusieurs mots ou expressions représentant l'idée centrale de l'article peuvent être extraits, qui peuvent être utilisés pour une lecture affinée, une requête sémantique et correspondance rapide.

　10. Déduplication de documents : elle peut déterminer rapidement et précisément s'il existe des enregistrements avec un contenu identique ou similaire dans une collection de fichiers ou une base de données, et trouver tous les enregistrements en double en même temps.

11. Extraction de texte HTML : supprimez automatiquement les pages Web de navigation, supprimez les balises HTML et le texte perturbateur tel que la navigation et les publicités dans les pages Web, et renvoyez du contenu textuel précieux. Convient au prétraitement et à l'analyse d'informations Internet à grande échelle.

12. Reconnaissance et conversion automatiques de l'encodage : identifiez automatiquement l'encodage du contenu et convertissez uniformément l'encodage en encodage GBK.

Dans la plupart des cas, les ensembles de données d'exploration de texte sont très volumineux et croissants, il est donc impossible de stocker ces données sur une seule machine pour les calculs. Par conséquent, il est nécessaire d’étudier un algorithme d’exploration de texte pouvant s’exécuter en parallèle pour effectuer des tâches d’exploration de texte en parallèle sur un cluster d’ordinateurs. Évidemment, cela combine les besoins du cloud computing et de l’informatique à forte intensité de données, qui est également un domaine en pleine croissance en soi.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!