Auteur | Sun Yue, unité : China Mobile (Hangzhou) Information Technology Co., Ltd. | China Mobile Hangzhou R&D Center
Avec la popularisation continue des réseaux 5G, un grand nombre d'utilisateurs ont commencé à entrer en contact et utiliser les réseaux 5G. Les réseaux 5G peuvent non seulement transmettre la voix, la vidéo, le texte et d'autres informations des réseaux traditionnels, mais peuvent également être utilisés dans des scénarios d'application plus pratiques avec une latence plus faible et des capacités de positionnement de haute précision, telles que : informations en direct sur le champ de bataille, positionnement par satellite, navigation, etc.
Les informations sur Internet sont souvent mélangées à de mauvaises informations, telles que des informations à caractère politique, des informations pornographiques, des informations sur les Noirs, des informations sur la fraude, des informations sur la publicité commerciale, etc., et la quantité de les mauvaises informations augmentent d'année en année, donnant aux utilisateurs un énorme harcèlement. Afin de purifier l'environnement réseau et de contrôler efficacement la propagation des mauvaises informations, la plateforme de gestion et de contrôle de la sécurité des mauvaises nouvelles 5G de China Mobile a vu le jour.
Source de données : China Mobile Group Information Security Center
2. Points techniques de la plateforme 5G existante de gestion et de contrôle des mauvaises informations
La plateforme intercepte principalement les mauvaises informations via les méthodes suivantes :
①Définir des mots-clés de premier niveau
: les mots-clés de premier niveau sont généralement définis sur des mots extrêmement sensibles. Si l'utilisateur envoie un message contenant un contenu de mot-clé de premier niveau, le message sera immédiatement intercepté et le contenu du message ne pourra pas être distribué. , et identifiez cet utilisateur.
②Définir des mots-clés communs
: les mots-clés communs sont définis sur des mots relativement sensibles. Si l'utilisateur envoie un message contenant un contenu de mot-clé commun, et dans un certain laps de temps, le nombre de fois où l'utilisateur envoie le message sensible dépasse. le numéro prédéterminé du système Si le seuil d'interception est défini, le système placera l'utilisateur dans la liste noire et, dans un certain laps de temps, l'utilisateur ne pourra pas utiliser l'intégralité du service réseau 5G.
③Définissez la surveillance des informations textuelles complexes
: si l'utilisateur envoie un fichier PDF contenant du texte et des images, le texte du fichier sera extrait et les mots-clés de premier niveau et les mots-clés courants seront filtrés, et le les images seront traitées Le filtrage du mécanisme Rich Media, basé sur les résultats de filtrage du texte et des images, adopte le principe d'un traitement intensif comme résultat du traitement du fichier.
3. Faiblesses techniques de la plateforme existante de contrôle des mauvaises nouvelles de la 5G
Le mécanisme de filtrage de la plateforme existante de contrôle de la sécurité des mauvaises nouvelles de la 5G ne peut filtrer que les phrases spécifiées et limitées et les phrases courtes. Avec la popularisation d'Internet, un nouveau vocabulaire apparaît chaque jour en grand nombre. Il n'est plus possible de mettre à jour la bibliothèque de vocabulaire en temps opportun et rapidement en ajoutant simplement du vocabulaire. De plus, lorsqu'un grand nombre d'utilisateurs envoient aujourd'hui des messages texte, même si l'intégralité du message texte ne contient pas de mots illégaux, les pensées et les émotions exprimées peuvent contenir un grand nombre de tendances émotionnelles négatives. Les mots et les phrases courtes ne peuvent à eux seuls intercepter avec succès le contenu émotionnel négatif. . Par conséquent, l'utilisation de l'analyse des sentiments textuels pour soumettre des phrases riches en tendances émotionnelles négatives pour examen et interception peut renforcer encore l'effet d'un mauvais contrôle de l'information et réduire l'érosion et l'empoisonnement des utilisateurs par les informations de spam. En établissant une bibliothèque d'émotions textuelles contenant des phrases courtes et des messages d'actualité populaires sur Internet, les émotions riches dans le texte sont divisées en trois catégories : les émotions positives, les émotions neutres et les émotions négatives, et chacune d'elles est classée en fonction de celles-ci. trois catégories. Ajoutez les étiquettes correspondantes au texte et utilisez le réseau d'apprentissage profond pour entraîner le texte dans la bibliothèque émotionnelle. Le modèle formé peut être utilisé dans la plateforme de gestion et de contrôle des mauvaises nouvelles 5G pour intercepter les mauvais messages émotionnels. 4. Détails techniques de mise en œuvre du système de gestion et de contrôle des mauvaises performances 5G basé sur l'apprentissage en profondeur Cette technologie contient trois corps principaux : le système de segmentation de mots Jieba, la vectorisation de phrases et Algorithme de reconnaissance d'émotion de texte, l'interaction entre chaque sujet est la suivante :Organigramme d'interaction de chaque module
Utilisez la technologie d'exploration pour explorer les mots Internet et les messages d'actualité en tant que texte original, et divisez le texte original en un ensemble d'entraînement et un ensemble de test dans un rapport de 8:2, étiquetez les informations textuelles dans l'ensemble d'entraînement, puis transmettez le texte informations contenues dans l'ensemble de tests via L'outil de segmentation de mots jieba effectue un traitement de segmentation de mots, par exemple : Il est venu au bâtiment Mobile Hangyan. Après la segmentation des mots via l'outil de segmentation des mots jieba, le résultat est : il/est venu/déplacé/Hangyan/bâtiment, et enfin les données après la segmentation des mots ont été organisées en un corpus. Étant donné que la quantité d'informations textuelles dans l'ensemble d'apprentissage et l'ensemble de test est très importante (généralement des millions de données), la quantité de données dans le corpus de segmentation post-mot sera également très importante (des dizaines de millions de données). Bien que ces corpus puissent être stockés sous une forme numérotée dans le corpus, en raison de l’énorme quantité de données, il est facile de souffrir du désastre de la dimensionnalité. Par conséquent, pour les particules modales qui apparaissent dans les informations textuelles, telles que : "le", "的", "我", etc., bien que ces mots apparaissent très fréquemment, ils ont peu de contribution à l'effet émotionnel, nous choisirons donc pour éliminer ces mots du corpus Phrases afin d'atteindre l'objectif de réduction des dimensions.
Nous envoyons les phrases vectorisées de l'ensemble de formation dans le réseau d'apprentissage profond pour l'apprentissage et la formation, et obtenons le modèle correspondant. Enfin, nous mettons les données de l'ensemble de test dans le modèle pour afficher les résultats de reconnaissance correspondants. le modèle peut obtenir un meilleur Lorsque le taux de précision est bon, le modèle est connecté à la mauvaise plate-forme de gestion et de contrôle 5G et l'utilisateur envoie des informations de bout en bout pour le filtrage. Au cours du processus de filtrage, si de mauvaises informations sont trouvées, elles seront interceptées à temps, ce qui rendra le système de gestion et de contrôle des mauvaises informations 5G plus systématique et complet dans l'interception des mauvaises informations.
Les étapes spécifiques sont les suivantes :
5. Avantages du système d'interception 5G intégré au deep learning
Par rapport au système d'interception 5G existant, le système d'interception 5G intégré au deep learning présente les avantages suivants :
Utilisez la technologie d'apprentissage profond pour fournir une identification efficace avec une fiabilité et une authenticité élevées ;
Écrit à la fin :
À l'heure actuelle, le champ d'application du deep learning est très large En s'appuyant sur ses méthodes de formation répétées et d'auto-apprentissage, il peut réduire considérablement la charge de travail manuelle et améliorer l'efficacité et la précision. Non seulement elle convient au mauvais système d'interception d'informations mentionné ci-dessus, mais je pense que dans un avenir proche, cette technologie brillera également dans d'autres domaines émergents. Bien entendu, l’apprentissage profond en lui-même n’est pas parfait et ne peut pas résoudre tous les problèmes épineux. Pour cette raison, nous devons continuer à investir dans la technologie du deep learning dans de nouveaux scénarios et de nouveaux domaines afin de réaliser de nouvelles avancées et de créer une vie intelligente future meilleure.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!