基于深度学习的文本情感识别技术在5G不良消息安全管控平台中的应用
作者 | 孙越,单位:中移(杭州)信息技术有限公司 | 中国移动杭州研发中心
Labs 导读
随着5G网络的不断普及,大量用户开始接触并使用5G网络。5G网络不仅可以传送传统网络的语音、视频、文本等信息,还可以凭借更加低时延及高精准的定位能力,被使用在更多具有实用价值的应用场景中,如:战地实况信息、卫星定位导航等等。
网络信息时常会夹杂不良信息,如涉政信息、涉黄信息、涉黑信息、涉诈信息、商业广告消息等,且不良信息数量呈现逐年上升趋势,给用户造成了巨大骚扰。为了净化网络环境,有效管控不良信息传播,中国移动5G不良消息安全管控平台应运而生。
数据来源:中国移动集团信息安全中心
1、5G不良信息管控平台的应用场景
该平台在面对繁杂的网络信息环境时,诸如文本消息、语音信息、视频信息、富媒体信息等,将信息归类为:涉政、涉黄、涉黑、涉诈、商业广告消息、正常消息等等,再通过对应策略进行及时拦截,并根据不良消息的严重程度进行后续惩处处理,从根源净化网络环境,营造良好的网络空间。
2、现有5G不良信息管控平台的技术要点
该平台主要通过以下几种方法对不良信息进行拦截:
①设定一级关键词:一级关键词通常设置为一些极度敏感词汇,若用户发送信息中包含一级关键词内容,即立即拦截该信息,信息内容无法下发,并对该用户进行标记。
②设定普通关键词: 普通关键词设置为一些较为敏感词汇,若用户发送信息中包含普通关键词内容,且在一定时间内,用户发送该敏感消息的次数超过系统预先设定的拦截阈值,则系统会将用户拉入黑名单,在一定时间内,该用户无法使用完整5G网络服务。
③设定复杂文本信息监控:如用户发送PDF文件,其中该文件中包含文字和图片,将文件中文字提取出来,过滤一级关键词和普通关键词机制,图片则进行富媒体机制过滤,分别根据文本和图片的过滤结果,采用从重处置的原则,作为该文件的处置结果。
3、现有5G不良管控平台的技术弱点
现有5G不良消息安全管控平台的过滤机制仅能过滤指定且有限的短语、短句,而随着网络普及,新鲜词汇每天都会大量涌现,仅靠人工手动添加词汇,已经无法做到及时、快速的更新词汇库。而且当今大量用户在发送文本信息时,虽然整个文本信息没有违规词汇,但表达的思想及情感却可能带有大量不良情感倾向,仅靠词汇及短句无法成功拦截不良情感内容。因此,利用文本情感分析,将富含不良情感倾向的句子进行送审拦截,可以进一步加强不良信息管控的效果,减少垃圾信息对用户的侵蚀与毒害。
通过建立包含网络流行短句及新闻消息的文本情感库,将文本中富含的情感分为三类:积极情感、中性情感、消极情感,并按照这三种分类对每一个文本加上相应标签,利用深度学习网络对情感库中文本进行训练,便可将训练好的模型用在5G不良消息管控平台中对不良情感消息进行拦截。
4、基于深度学习的5G不良管控系统技术实现细节
该技术中包含三大主体:jieba分词系统、词组向量化,文本情感识别算法,各个主体之间的交互如下图:
各模块交互流程图
通过爬虫技术爬取网络词语及新闻消息作为原始文本,并将原始文本按照8:2的比例分为训练集和测试集,对训练集中的文本信息进行标签化,然后将测试集中文本信息通过jieba分词工具进行分词处理,比如:他来到移动杭研大厦。通过jieba分词工具分词后,结果为:他/来到/移动/杭研/大厦,最后将分词后数据组建成语料库。由于训练集和测试集文本信息量很大(通常在百万级数据),所以会导致分词后语料库中的数据量也十分庞大(千万级数据量)。虽然可以将这些语料以编号的形式储存在语料库中,但由于数据量庞大,极易出现维度灾难。因此,针对文本信息中出现的语气助词,比如:“了”、“的”、“吗”等等,这些词虽然出现十分频繁,但对情感作用几乎没有贡献,我们会选择在语料库中剔除这些词组,达到减少维度的目的。
我们将训练集中已经向量化的词组送入深度学习网络中进行学习训练,获取相应模型,最后将测试集中的数据放入到模型中查看对应的识别结果,当该模型能够获得较好的正确率时,该模型联接到5G不良管控平台,用户发送端到端的信息进行过滤。在过滤过程中,若发现不良信息及时进行拦截,使5G不良信息管控系统对于不良信息的拦截更加系统、全面。
具体步骤如下:
- 从网上爬取原始文本语料,并将原始文本进行预处理,包括:去除语气词,删除文本中出现的标点符号、空白区域,删除文本中出现的终止词、稀疏词和特定词;使用jieba库进行分词,将文本句子按照词组精确地切开,分成一个一个单独的词组;
- 将爬取到的文本数据集按照一定比例划分成训练集和测试集,对训练集中文本句子进行人工标注,分为:积极情感、消极情感、中性情感。并分别使用jieba库对训练集和测试集内文本句子进行分词,将分词后的训练集构建成语料库;
- 将步骤1中词组进行向量化,让每一个分词映射为一个多维的连续值向量,得到整个数据集的词向量矩阵。
- 通过先抽取情感词所在的子句,减少句子的复杂度,再在子句中根据各种特征预测情感对象的位置,然后再从相应位置进行情感抽取。情感抽取是为了获取文本中有价值的情感信息,判断一个单词或词组在情感表达中扮演的角色,包括情感表达者识别、评价对象识别、情感观点词识别等任务。
- 通过将上述操作获得的情感向量送入到深度学习网络获得文本情感识别模型,再将测试集中情感向量送入该模型中,查看测试结果,并将检测结果正常的数据继续进行常规策略过滤,如:文本匹配、富媒体识别等。
5、融入深度学习的5G拦截系统的优点
与现有5G拦截系统相比,融入深度学习的5G拦截系统具有以下优点:
- 利用深度学习技术提供高可靠性、高真实性的有效鉴别;
- 利用深度学习技术进行情感识别,人工介入少,工作效率高;
- 利用文本情感识别,可有效补充关键词拦截的不足;
- 利用文本情感识别,可将在策略中及时自动更新补充新的词条信息,提高效率。
写在最后:
目前,深度学习应用领域十分广阔,依靠其重复训练、自我学习的方式,可以大大降低人工的工作量,提升效率及准确度。不仅适用于上述不良信息拦截系统,相信在不久的将来,该技术在其他新兴领域也会大放异彩。当然,深度学习本身也不尽完美,并不能解决所有棘手问题。正因为如此,我们应该继续将深度学习技术投入到新场景、新领域以期获得新突破,共创美好的未来智能生活。
以上是基于深度学习的文本情感识别技术在5G不良消息安全管控平台中的应用的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

BERT是由Google在2018年提出的一种预训练的深度学习语言模型。全称为BidirectionalEncoderRepresentationsfromTransformers,它基于Transformer架构,具有双向编码的特点。相比于传统的单向编码模型,BERT在处理文本时能够同时考虑上下文的信息,因此在自然语言处理任务中表现出色。它的双向性使得BERT能够更好地理解句子中的语义关系,从而提高了模型的表达能力。通过预训练和微调的方法,BERT可以用于各种自然语言处理任务,如情感分析、命名

激活函数在深度学习中扮演着至关重要的角色,它们能够为神经网络引入非线性特性,使得网络能够更好地学习和模拟复杂的输入输出关系。正确选择和使用激活函数对于神经网络的性能和训练效果有着重要的影响本文将介绍四种常用的激活函数:Sigmoid、Tanh、ReLU和Softmax,从简介、使用场景、优点、缺点和优化方案五个维度进行探讨,为您提供关于激活函数的全面理解。1、Sigmoid函数SIgmoid函数公式简介:Sigmoid函数是一种常用的非线性函数,可以将任何实数映射到0到1之间。它通常用于将不归一

写在前面今天我们探讨下深度学习技术如何改善在复杂环境中基于视觉的SLAM(同时定位与地图构建)性能。通过将深度特征提取和深度匹配方法相结合,这里介绍了一种多功能的混合视觉SLAM系统,旨在提高在诸如低光条件、动态光照、弱纹理区域和严重抖动等挑战性场景中的适应性。我们的系统支持多种模式,包括拓展单目、立体、单目-惯性以及立体-惯性配置。除此之外,还分析了如何将视觉SLAM与深度学习方法相结合,以启发其他研究。通过在公共数据集和自采样数据上的广泛实验,展示了SL-SLAM在定位精度和跟踪鲁棒性方面优

潜在空间嵌入(LatentSpaceEmbedding)是将高维数据映射到低维空间的过程。在机器学习和深度学习领域中,潜在空间嵌入通常是通过神经网络模型将高维输入数据映射为一组低维向量表示,这组向量通常被称为“潜在向量”或“潜在编码”。潜在空间嵌入的目的是捕捉数据中的重要特征,并将其表示为更简洁和可理解的形式。通过潜在空间嵌入,我们可以在低维空间中对数据进行可视化、分类、聚类等操作,从而更好地理解和利用数据。潜在空间嵌入在许多领域中都有广泛的应用,如图像生成、特征提取、降维等。潜在空间嵌入的主要

在当今科技日新月异的浪潮中,人工智能(ArtificialIntelligence,AI)、机器学习(MachineLearning,ML)与深度学习(DeepLearning,DL)如同璀璨星辰,引领着信息技术的新浪潮。这三个词汇频繁出现在各种前沿讨论和实际应用中,但对于许多初涉此领域的探索者来说,它们的具体含义及相互之间的内在联系可能仍笼罩着一层神秘面纱。那让我们先来看看这张图。可以看出,深度学习、机器学习和人工智能之间存在着紧密的关联和递进关系。深度学习是机器学习的一个特定领域,而机器学习

自2006年深度学习概念被提出以来,20年快过去了,深度学习作为人工智能领域的一场革命,已经催生了许多具有影响力的算法。那么,你所认为深度学习的top10算法有哪些呢?以下是我心目中深度学习的顶尖算法,它们在创新性、应用价值和影响力方面都占据重要地位。1、深度神经网络(DNN)背景:深度神经网络(DNN)也叫多层感知机,是最普遍的深度学习算法,发明之初由于算力瓶颈而饱受质疑,直到近些年算力、数据的爆发才迎来突破。DNN是一种神经网络模型,它包含多个隐藏层。在该模型中,每一层将输入传递给下一层,并

卷积神经网络(CNN)和Transformer是两种不同的深度学习模型,它们在不同的任务上都展现出了出色的表现。CNN主要用于计算机视觉任务,如图像分类、目标检测和图像分割等。它通过卷积操作在图像上提取局部特征,并通过池化操作进行特征降维和空间不变性。相比之下,Transformer主要用于自然语言处理(NLP)任务,如机器翻译、文本分类和语音识别等。它使用自注意力机制来建模序列中的依赖关系,避免了传统的循环神经网络中的顺序计算。尽管这两种模型用于不同的任务,但它们在序列建模方面有相似之处,因此

RMSprop是一种广泛使用的优化器,用于更新神经网络的权重。它是由GeoffreyHinton等人在2012年提出的,并且是Adam优化器的前身。RMSprop优化器的出现主要是为了解决SGD梯度下降算法中遇到的一些问题,例如梯度消失和梯度爆炸。通过使用RMSprop优化器,可以有效地调整学习速率,并且自适应地更新权重,从而提高深度学习模型的训练效果。RMSprop优化器的核心思想是对梯度进行加权平均,以使不同时间步的梯度对权重的更新产生不同的影响。具体而言,RMSprop会计算每个参数的平方
