在线学习和被动攻击算法指南-人工智能-PHP中文网

培训方法：批次学习算法一次在固定数据集上训练。经过培训后，该模型将用于预测，直到使用新数据对其进行重新训练。
示例：神经网络，支持向量机（SVM），K-Nearest邻居（KNN）。
挑战：再培训需要从头开始处理整个数据集，这可能很耗时且计算昂贵。对于大型且增长的数据集，这尤其具有挑战性，因为即使使用强大的GPU，再培训也可能需要数小时。

在线学习：

培训方法：在线学习算法使用每个新数据点逐步更新模型。该模型不断学习并实时适应新数据。
优点：此方法对于处理大型数据集和动态数据流更有效。该模型以最少的计算资源进行更新，并且可以快速处理新的数据点，而无需从头开始重新培训。
应用程序：在线学习对需要实时决策的应用程序有益，例如股票市场分析，社交媒体流和推荐系统。

实时应用程序在线学习的优势

持续适应：在线学习模型适应新数据的到来，使其非常适合随着时间的推移（例如在欺诈检测系统中）发展的环境。这样可以确保模型保持相关性和有效性，而无需从头开始重新审查。
效率：在线学习算法不需要与整个数据集进行完整的重新培训，从而节省了大量的计算时间和资源。这对于具有有限的计算功率（例如移动设备）的应用程序特别有用。
资源管理：通过逐步处理数据，在线学习模型减少了对广泛存储空间的需求。处理后可以丢弃旧数据，这有助于有效地管理存储并保持系统轻巧。
实时决策：在线学习可以实现实时更新，这对于依赖最新信息的应用程序至关重要，例如推荐系统或实时股票交易。

被动攻击算法简介

被动攻击算法首先由Crammer等人引入。 2006年，他们的论文名为“在线被动攻击算法”。这些算法属于在线学习类别，主要用于分类任务。这些是有效的，因为它们可以逐步从每个数据点学习，调整其参数，然后从内存中丢弃数据。这使得在处理庞大的数据集和实时应用程序时，被动攻击算法特别有用。此外，它的适应能力可以快速使其在数据分布可能会随着时间变化而变化的动态环境中表现良好。

您可能想知道这个不寻常的名字。这是有原因的。该算法的被动部分意味着，如果正确地对当前数据点进行了分类，则模型保持不变，并保留从先前的数据点获得的知识。另一方面，侵略性部分表明，如果发生错误分类，该模型将大大调整其权重以纠正误差。

为了更好地了解PA算法的工作原理，让我们在二进制分类的背景下可视化其行为。想象一下，您有一组数据点，每个数据点属于两个类之一。 PA算法旨在找到一个分离的超平面，将数据点分为各自的类别。该算法从对超平面的初始猜测开始。当新的数据点被错误分类时，该算法会积极地更新当前的超平面，以确保正确对新数据点进行分类。另一方面，当数据点正确分类时，则无需更新超平面。

铰链损失在被动攻击学习中的作用

被动攻击算法使用铰链损失作为其损耗函数，是该算法的关键构件之一。这就是为什么在我们深入研究算法背后的数学直觉之前，要了解铰链损失的运作至关重要。

铰链损失广泛用于机器学习，特别是用于培训分类器，例如支持向量机（SVM）。

铰链损失的定义

它被定义为：

在线学习和被动攻击算法指南

W是模型的重量向量
xi是第i-th数据点的特征向量
yi是第i -th数据点的真实标签，如果进行二进制分类，则可以是1或-1。

在线学习和被动攻击算法指南

让我们以二进制分类问题为例，其中目标是区分两个数据类。 PA算法隐含地旨在最大化决策边界和数据点之间的边距。边缘是数据点和分离线/超平面之间的距离。这与SVM分类器的工作非常相似，SVM分类器也将铰链损失用作其损耗函数。较大的边距表明分类器对其预测更有信心，并且可以准确区分这两个类别。因此，目标是尽可能频繁地达到至少1个边缘。

理解等式

让我们进一步分解，看看方程如何有助于达到最大利润：

w·xi：这是权重矢量W和数据点XI的点产物。它代表了对分类器预测的信心程度。
yi *（w·xi）：这是分类器的签名分数或边距，其中符号由真实标签yi确定。正值表示分类器预测正确的标签，而负值表示它预测了错误的标签。
1 - yi *（w·xi）：这测量了所需的边距（1）和实际边缘之间的差异。
max（0，1 - yi *（w·xi））：当边缘至少1时，损耗等于零。否则，损失随着边缘赤字而线性增加。

简而言之，铰链损失会惩罚不正确的分类以及不够自信的正确分类。当数据点至少用单位边缘正确分类时，损失为零。否则，如果数据点在边缘或错误分类之内，则损失随距离边缘的距离线性增加。

被动攻击算法的数学表述

被动攻击性分类器的数学基础围绕着维护根据传入数据点的分类误差进行更新的权重向量W。这是算法的详细概述：

给定一个数据集：

在线学习和被动攻击算法指南

步骤1：初始化重量向量w

步骤2：对于每个新数据点（xi，yi），xiis特征向量和yi是真正的标签，预测的标签ŷ_iis计算为：

在线学习和被动攻击算法指南

步骤3：计算铰链损失

在线学习和被动攻击算法指南

如果预测的标签ŷ_i是正确的，边距至少为1，则损失为0。
否则，损失是1和边缘之间的差异。

步骤4：使用以下更新规则调整重量向量W

对于每个数据点x_i，如果l（w;（x_i，y_i））> 0（错误分类或不足）：

更新的重量向量w_t 1的给出为：

在线学习和被动攻击算法指南

如果l（w;（x_i，y_i））= 0（用足够的边距正确分类）：

然后，重量矢量保持不变：

在线学习和被动攻击算法指南

请注意，这些方程在求解约束优化问题后出现，目的是在类之间获得最大边缘超平面。这些取自原始研究论文，这些论文的推导超出了本文的范围。

这两个更新方程是被动攻击算法的核心。这些意义可以简单地理解。一方面，更新需要新的权重值（W_T 1）才能正确地用足够大的边距对当前示例进行分类，从而取得了进展。另一方面，它必须保持尽可能靠近较旧的重量（W_T），以保留在上一轮中学习的信息。

了解侵略性参数（C）

侵略性参数C是被动攻击算法中最重要的超参数。它控制算法在发生错误分类时如何更新其权重。

高C值会导致更积极的更新，从而可能导致更快的学习，但也增加了过度拟合的风险。该算法可能对数据中的噪声和波动过于敏感。另一方面，C值的低值会导致较不积极的更新，从而使算法对噪声和异常值的强大更强。但是，在这种情况下，适应新信息，减慢学习过程的速度很慢。

我们希望该算法能够从每个新实例中逐步学习，同时避免过度适合嘈杂的样本。结果，我们必须努力在两者之间取得平衡，从而使我们能够在保持模型稳定性和防止过度拟合的同时进行重大更新。在大多数情况下，C的最佳值取决于特定数据集以及学习速度和稳健性之间所需的权衡。在实际情况下，诸如交叉验证之类的技术用于获得C的最佳值。

正则化在被动攻击算法中的影响

现实世界中的数据集几乎总是包含一定程度的噪音或不规则性。标签错误的数据点可能导致PA算法在错误的方向上大大改变其权重向量。这个单一标记的示例可能会导致随后的回合中的几个预测错误，从而影响模型的可靠性。

为了解决这个问题，还有一个更重要的超参数有助于使算法对数据中的噪声和异常值更强大。在错误分类的情况下，它倾向于使用更温和的重量更新。这类似于正规化。基于正则化参数，称为PA-I和PA-II，该算法分为两个变体。

这些主要在步长变量τ （也称为归一化损耗）的定义上有所不同。对于pa-i，损失被上限为侵略性参数C的值。

这样的公式以：

在线学习和被动攻击算法指南

对于PA-II，步长或归一化损失可以写为：

在线学习和被动攻击算法指南

在被动攻击性分类器的Sklearlen实施中，该正则化参数被视为损失。可以根据我们要使用的两个PA-I和PA-II中的哪一个设置为两个值之一。如果您想使用PA-I变体，则应将损失设置为“铰链”，否则为PA-II，损失设置为“平方 - 铰链”。

差异可以简单地说明：

PA-I是一种更具侵略性的变体，它放松边缘约束（边缘可能小于一个），但在预测不正确的情况下，损失损失。这会导致学习速度更快，但比其对应者更容易出现离群值。
PA-II是一种更强大的变体，可以四处惩罚损失，使其对嘈杂的数据和异常值更具弹性。同时，这使其更加保守，以适应数据的差异，从而导致学习速度较慢。

同样，这两个之间的选择取决于数据集的特定特征。实际上，通常建议在选择任何一个变体之前尝试具有不同C值的两个变体。

被动攻击算法的实时应用

从实时数据处理到自适应系统，在线学习和被动攻击算法具有广泛的应用程序。下面，我们研究了在线学习的一些最有影响力的应用。

垃圾邮件过滤

垃圾邮件过滤是文本分类的重要应用，其目标是区分垃圾邮件和合法电子邮件。 PA算法的逐步学习能力在这里特别有益，因为它可以根据新的垃圾邮件趋势不断更新模型。

情感分析

情感分析涉及确定在文本中表达的情感，例如推文或产品评论。 PA算法可用于构建实时分析情感的模型，适应新的语，表达和情感趋势。这在社交媒体监控和客户反馈分析中特别有用，及时见解至关重要。

仇恨言论检测

仇恨言语检测是PA算法可能非常有用的另一个关键应用。通过从仇恨言论的新实例中逐步学习，该模型可以适应不断发展的语言模式和上下文。这对于在Twitter，Facebook和Reddit等平台上保持自动审核工具的有效性至关重要，以确保更安全，更具包容性的在线环境。

欺诈检测

金融机构和在线服务不断监视交易和用户行为，以检测欺诈活动。 PA算法通过每项新交易更新其模型的能力有助于确定欺诈模式出现的模式，从而为不断发展的欺诈策略提供了强有力的防御。

股市分析

金融市场的股票价格高度动态，要求模型快速响应新信息。在线学习算法可以通过从新的市场数据中逐步学习来预测和分析股票价格，从而及时，准确地预测贸易商和投资者。

局限性和挑战

尽管在线学习和被动攻击算法在处理流数据并适应快速变化方面具有优势，但它们也有缺点。一些关键局限性是：

被动攻击算法顺序处理数据，使它们更容易受到嘈杂或错误的数据点的影响。单个离群值可能会对模型的学习产生不成比例的影响，从而导致预测或有偏见的模型。
这些算法一次仅看到一个数据实例，这限制了他们对不同数据点之间的总体数据分布和关系的理解。这使得很难识别复杂的模式并做出准确的预测。
由于PA算法实时从数据流中学习，因此它们可能会与最新数据过高，并可能忽略或忘记早期数据中观察到的模式。当数据分布随时间变化时，这可能导致概括性能差。
选择侵略性参数C的最佳值可能具有挑战性，并且通常需要实验。高价值提高了攻击性导致过度拟合，而低价值会导致学习缓慢。
评估这些算法的性能非常复杂。由于数据分布可以随时间变化，因此在固定测试集上评估模型的性能可能不一致。

建立仇恨言论检测模型

Twitter和Reddit等社交媒体平台每天都会产生大量数据，使其非常适合测试我们对在线学习算法的理论理解。

在本节中，我将通过使用Reddit的实时数据从头开始构建仇恨语音检测应用程序来演示实际的用例。 Reddit是一个以其多元化社区而闻名的平台。但是，这也面临着有毒评论的挑战，这些评论可能会受到伤害和虐待。我们将构建一个可以使用REDDIT API实时识别这些有毒评论的系统。

在这种情况下，由于数据量的庞大，培训一个模型将不可能一次。此外，数据分布和模式会随着时间而变化。因此，我们需要无源攻击算法的帮助，能够在不存储内存中将数据从数据中学习。

为实时数据处理设置环境

在开始实施代码之前，您必须首先设置系统。要使用REDDIT API，如果您还没有，则必须在Reddit上创建一个帐户。然后，创建一个REDDIT应用程序，并获取您的API密钥和其他凭据进行身份验证。完成这些先决条件后，我们准备开始创建仇恨言论检测模型。

代码的工作流程看起来像这样：

使用“ praw”库连接到Reddit API。
流传输实时数据并将其输入模型。
使用BERT模型对数据进行标记，以进行仇恨语音检测任务。
使用被动攻击性分类器逐步训练模型。
在看不见的测试数据集上测试我们的模型并测量性能。

安装所需的库

第一步是安装所需的库。

 PIP安装PRAW SCIKIT-LEARN NLTK变形金刚火炬Matplotlib Seaborn opendatasets

登录后复制

要与Reddit合作，我们需要“ praw”库，即Reddit API包装器。我们还需要“ nltk”进行文本处理，``scikit-learn“用于机器学习，``matplotlib''和`seaborn''和`seaborn'用于可视化，``transformers''和`transformers''和`torch'用于创建单词嵌入并加载微调的bert bert bert bert模型，并从kaggle加载数据。

导入库并设置Reddit API

在下一步中，我们使用“ praw”导入所有必要的库，并设置与Reddit API的连接。它将帮助我们从Subreddits流式评论。

导入
进口praw
导入火炬
导入NLTK
导入numpy作为NP
导入大熊猫作为pd
导入matplotlib.pyplot作为PLT
进口海洋作为SNS
导入OpEndataset作为OD
来自nltk.corpus导入停止词
来自sklearn.feature_extraction.text导入tfidfvectorizer
来自sklearn.linear_model导入passiveaggressiveclalsifier
来自sklearn.metrics导入精度，confusion_matrix，classification_report
来自sklearn.model_selection导入train_test_split
从变形金刚导入汽车，AutoModeForSequenceCecrification，AutoTokenizer
从变形金刚导入bertforeSequencecrification，berttokenizer，textClassification pipeline

＃Reddit API凭据
reddit_client_id = {your_client_id}
reddit_client_secret = {your_client_secret}
reddit_user_agent = {your_user_agent}

＃设置Reddit API连接
reddit = praw.reddit（client_id = reddit_client_id，
                     client_secret = reddit_client_secret，
                     user_agent = reddit_user_agent）

登录后复制

要成功设置REDDIT实例，只需用您的凭据替换上述占位符，就可以使用。

清洁和预处理文本

在处理原始文本数据时，通常有包含符号，主题标签，land词等的示例。由于这些对我们的模型没有实际用途，因此我们必须首先清洁文本才能删除它们。

 ＃下载停止字
nltk.download（'stopwords'）
stop_words = set（stopwords.words（'英语'））

＃清洁文本并删除停止词
def clean_text（文本）：
    text = re.sub（r'http \ s | www \ s | https \ s'，''，text，flags = re.multiline）
    text = re.sub（r'\@\ w | \＃'，''，text）
    text = re.sub（r'\ w'，'，text）
    text = re.sub（r'\ d'，'，text）
    text = re.sub（r'\ s'，''，文本）
    text = text.strip（）
    text =''。
    返回文字

登录后复制

上面的代码定义了辅助功能，该功能通过删除不必要的单词，特殊字符和URL来预处理评论。

设置预贴BERT模型以标记

当我们从Reddit流媒体评论时，我们不知道该评论是否有毒，因为它没有标记。要使用监督分类，我们首先需要标记数据。我们必须实施一个可靠且精确的系统，以标记传入的原始注释。为此，我们将使用一个微调的BERT模型进行仇恨言论检测。该模型将将评论准确地分类为两个类别。

 model_path =“ junglelee/bert-toxic-comment-classification”
tokenizer = berttokenizer.from_pretaining（model_path）
model = bertforsequencececrification.from_pretrated（model_path，num_labels = 2）

pipeline = textClassification pipeline（model = model，tokenizer = tokenizer）

＃为文本标记的助手功能
def precadive_hate_speech（文本）：
    预测= pipeline（text）[0] ['label']
    返回1如果预测=='有毒'其他0＃1对有毒，0抗毒

登录后复制

在这里，我们使用变形金刚库来设置模型管道。然后，我们定义一个辅助函数，以预测给定文本使用BERT模型是有毒还是无毒。现在，我们已经标记了示例以进食我们的模型。

使用bert嵌入将文本转换为向量

由于我们的分类器将不使用文本输入，因此需要首先将其转换为合适的向量表示。为了做到这一点，我们将使用验证的BERT嵌入，这将使我们的文本转换为可以将其馈送到模型进行训练的向量。

 ＃加载验证的BERT模型和嵌入的令牌
model_name =“基于bert-base-uncund”
tokenizer = autotokenizer.from_pretaining（model_name）
bert_model = automodel.from_pretrataining（model_name）
bert_model.eval（）  

＃为获得bert嵌入的助手功能
def get_bert_embedding（文本）：
    inputs = tokenizer（text，return_tensors ='pt'，截断= true，padding = true）
    使用Torch.no_grad（）：
        输出= bert_model（**输入）
    
    返回outputs.last_hidden_state [：，0，：]。squeeze（）。numpy（）

登录后复制

上面的代码采用一段文本，使用bert令牌化来将其施加，然后将其通过BERT模型将其传递以提取句子嵌入。文本现在已转换为向量。

流式传输实时reddit数据并训练被动攻击分类器

现在，我们准备实时流式传输评论，并培训分类器以检测仇恨言论。

 ＃为subreddit的助手功能流式传输评论
def stream_comments（subreddit_name，batch_size = 100）：
    subreddit = reddit.subreddit（subreddit_name）
    remand_stream = subreddit.stream.comments（）
    
    批次= []
    在comment_stream中进行评论：
        尝试：
            ＃清洁传入的文字 
            remand_text = clean_text（comment.body）
            ＃使用验证的BERT模型标记评论
            label = predition_hate_speech（comment_text） 
            ＃将文本和标签添加到当前批次
            batch.append（（comment_text，label））
            
            如果len（batch）> = batch_size：
                产量批次
                批次= []
                
        除例外为E：
            打印（f'Error：{e}'）
 

＃指定训练回合的数量
回合= 10

＃指定subreddit
subreddit_name ='fitness'

＃初始化被动攻击分类器
clf = passiveaggressiveclalsifier（c = 0.1，损失='Hinge'，max_iter = 1，Random_state = 37）


＃流评论并执行增量培训
对于num_rounds，在枚举中批处理（stream_comments（subreddit_name，batch_size = 100））：
    ＃训练分类器进行所需数量的回合
    如果num_rounds ==圆形：
        休息
  
    ＃分开文字和标签
    batch_texts = [at批次中的项目]
    batch_labels = [批次中的项目[1]]
    
    ＃将一批文本转换为bert嵌入
    x_train_batch = np.Array（[[get_bert_embedding（text）for batch_texts中的文本]）
    y_train_batch = np.array（batch_labels）
    
    ＃在当前批次上训练模型
    clf.partial_fit（x_train_batch，y_train_batch，class = [0，1]）
    打印（在一批{len（batch_texts）}样品中进行打印。'）
    
印刷（“训练完成”）

登录后复制

在线学习和被动攻击算法指南

在上面的代码中，我们首先指定我们要从中进行评论，然后通过10个训练回合初始化PA分类器的子列数。然后，我们实时流式传输评论。对于其中的每个新评论，首先会清理删除不必要的单词。然后使用验证的BERT模型标记并添加到当前批处理中。

我们初始化的被动攻击分类器将C = 0.1且损耗='铰链'，该分类器与算法的PA-I版本相对应。对于每个批次，我们都使用'partial_fit（）`方法训练分类器。这使该模型可以从每个训练样本中逐步学习，而不是在处理之前将整个批次存储在内存中。因此，使模型能够不断适应新信息，从而使其非常适合实时应用程序。

评估模型性能

我将使用Kaggle有毒推文数据集评估我们的模型。该数据集包含几条被分类为有毒或无毒的推文。

 ＃从Kaggle下载数据
od.download（“ https://www.kaggle.com/datasets/ashwiniyer176/toxic-tweets-dataset”）
＃加载数据
data = pd.read_csv（“ decitic-teweets-dataset/finalbalanceddataset.csv”，usecols = [1,2]）[[[“ Tweet”，“ witedicities”]]

＃分开文字和标签
test_data = data.sample（n = 100）
texts = test_data ['tweet']。应用（clean_text）
标签= test_data ['毒性']

＃将文本转换为向量
x_test = np.array（[get_bert_embedding（文本）文本中的文本]）
y_test = np.array（标签）

＃做出预测
y_pred = clf.predict（x_test）

＃评估模型的性能
精度=准确_score（y_test，y_pred）
conf_matrix = Confusion_matrix（y_test，y_pred）

打印（“分类报告：”）
print（classification_report（y_test，y_pred））

＃绘制混乱矩阵
plt.figure（无花果=（7，5））
sns.heatmap（conc_matrix， 
            annot = true， 
            fmt ='d'， 
            cmap ='布鲁斯'， 
            cbar = false， 
            Xticklabels = [“无毒”，“有毒”]， 
            yticklabels = [“无毒”，“有毒”]）
            
plt.xlabel（“预测标签”）
plt.ylabel（'true标签'）
plt.title（'混淆矩阵'）
plt.show（）

登录后复制

在线学习和被动攻击算法指南

首先，我们加载了测试集并使用前面定义的`clean_text`方法清洁了它。然后使用bert嵌入将文本转换为向量。最后，我们使用分类报告和混乱矩阵对测试集进行预测，并评估模型在不同指标上的性能。

结论

我们探讨了在线学习算法的力量，重点是被动攻击算法有效处理大型数据集并适应实时数据而无需完整的重新培训的能力。还讨论了铰链损失，侵略性超参数（C）的作用，以及正则化如何帮助管理噪声和离群值。在实施使用被动攻击分类器的仇恨语音检测模型之前，我们还审查了现实世界中的应用程序和局限性。感谢您的阅读，我期待着我们的下一个AI教程！