与现代伯特一起增强情感分析-人工智能-PHP中文网

>这是一种开发的新算法，旨在在时间和记忆使用方面加快变压器模型的注意力机理。可以通过重新安排操作以及使用平铺和重新计算来加强注意力的计算。平铺有助于将大数据分解为可管理的块，并通过根据需要重新计算中间结果来减少记忆使用情况。这将二次记忆的使用量减少到线性，从而使长序列更有效。计算间接费用减少。它比传统的注意机制快2-4倍。闪光注意用于加快变压器模型的训练和推断。

旋转位置嵌入（绳索）

>步骤3：tokenization

>步骤4：初始化现代伯特基本模型的情感分类

>步骤5：准备数据集

步骤6：定义计算指标

>步骤7：设置培训参数

在测试数据集上评估训练的模型。

>保存微调模型和代币器以进行进一步的重复使用。

首页

科技周边

人工智能

与现代伯特一起增强情感分析

Joseph Gordon-Levitt

Mar 09, 2025 am 09:46 AM

自2018年推出以来，伯特（Bert）改变了自然语言处理。它在情感分析，问题回答和语言推论等任务中表现良好。伯特使用双向训练和基于变压器的自我发挥，引入了一种新的方式来理解文本中的单词之间的关系。但是，尽管取得了成功，但伯特还是有局限性。它在计算效率，处理更长的文本并提供可解释性方面挣扎。这导致了Modernbert的发展，这是一个旨在应对这些挑战的模型。 ModernBert提高了处理速度，更好地处理更长的文本，并为开发人员提供了更大的透明度。在本文中，我们将探讨如何使用Modernbert进行情感分析，强调其特征和对Bert的改进。

学习目标

>
>
的局限性

>本文是> > data Science Blogathon的一部分。 >目录

>什么是bert？问题

自2018年Google介绍以来，它代表Transformers的双向编码器表示，它一直是游戏规则改变的 Bert。Bert介绍了双向培训的概念，该概念使该模型可以通过在各个方向上查看周围的单词来理解上下文。这导致了许多NLP任务的模型的表现明显更好，包括问答，情感分析和语言推论。伯特的架构基于仅编码变压器，这些变压器使用自我注意的机制来权衡句子中不同单词的影响，并且只有编码器。这意味着他们只能理解和编码输入，并且不重建或生成输出。因此，伯特（Bert）擅长捕获文本中的上下文关系，使其成为近年来最强大和广泛采用的NLP模型之一。
尽管伯特取得了突破性的成功，但它仍存在一定的局限性。其中一些是：

>计算资源：Bertis是一种计算昂贵的，内存密集型的模型，用于实时应用程序或设置的构成，该设置没有易于访问，功能强大的计算基础结构。
。

> Modernbert通过结合更有效的算法（例如>> flash注意力 > > > > local-local-lobal inter-local-lobal Entercting注意）来解决这些局限性，从而优化了内存使用量并提高了处理速度。此外，ModernBert引入了增强功能，以通过集成诸如 旋转位置嵌入（ROPE）>的技术来更有效地处理更长的上下文长度。 >它通过目标更透明和用户友好来增强可解释性，从而使开发人员更容易调试和使模型适应特定任务。此外，Modernbert将常识推理的进步结合在一起，使其能够更好地理解上下文，细微差别和逻辑关系，而不是提供的明确信息。它适用于NVIDIA T4，A100和RTX 4090等常见的GPU。 Modernbert接受了来自各种英语来源的数据，包括Web文档，代码和科学文章的培训。它经过了2万亿个独特令牌的训练，与以前的编码器中流行的标准20-40重复不同。

>现代伯特基碱有22层和1.49亿个参数

现代伯特·塔尔格（Modernbert-Large）有28层和3.95亿个参数

>这是一种开发的新算法，旨在在时间和记忆使用方面加快变压器模型的注意力机理。可以通过重新安排操作以及使用平铺和重新计算来加强注意力的计算。平铺有助于将大数据分解为可管理的块，并通过根据需要重新计算中间结果来减少记忆使用情况。这将二次记忆的使用量减少到线性，从而使长序列更有效。计算间接费用减少。它比传统的注意机制快2-4倍。闪光注意用于加快变压器模型的训练和推断。

局部 - 全球交替注意

> Modernbert最新颖的特征之一是交替关注，而不是全球关注。

>仅在每三层之后才能参加完整的输入。这是全球关注。

>

旋转位置嵌入（绳索）

旋转位置嵌入（绳索）是一种变压器模型技术，它使用旋转矩阵在序列中编码令牌的位置。它包含了绝对和相对位置信息，调整了注意机制以了解令牌之间的顺序和距离。绳索使用旋转矩阵编码令牌的绝对位置，还记下了相对位置信息或令牌之间的顺序和距离。

>通常用于找到最长的令牌，添加毫无意义的填充令牌以填充其余的较短序列以等于其长度。这增加了对无意义令牌的计算。毫无用处可以从序列中删除不必要的填充令牌，减少浪费的计算。

>序列包装将文本的批处理重新组织为紧凑的形式，将较短的序列分组在一起以最大化硬件利用率。

的情感分析

让我们实际上使用Modernbert实施情感分析。我们将使用ModernBert执行情感分析任务。情感分析是一种特定类型的文本分类任务，旨在将文本（例如，评论）分类为正或负面。

我们正在使用的数据集是IMDB电影评论数据集将评论分类为正情绪或负面情感。

>注意：

>我已经使用了A100 GPU在Google Colab上更快地处理。有关更多信息，请参阅：。

培训过程将需要WANDB API密钥。您可以通过以下方式创建一个：>重量和偏见。> 步骤1：安装必要的库
安装与拥抱脸部变压器一起使用的库。>

>步骤2：使用load_dataset函数加载IMDB数据集

命令imdb [“ test”] [0]将在IMDB电影评论数据集的测试拆分中打印第一个示例，即第一个测试审查以及其关联的标签。

#install libraries
!pip install  git+https://github.com/huggingface/transformers.git datasets accelerate scikit-learn -Uqq
!pip install -U transformers>=4.48.0

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer,AutoModelForMaskedLM,AutoConfig
from datasets import load_dataset

登录后复制

与现代伯特一起增强情感分析

>步骤3：tokenization

使用预先训练的现代基准词架令牌化数据集。此过程将文本转换为适合模型的数值输入。命令“ Tokenized_test_dataset [0]”将打印标记测试数据集的第一个示例，包括标记输入，例如输入ID和标签。

#Load the dataset
from datasets import load_dataset
imdb = load_dataset("imdb")
#print the first test sample
imdb["test"][0]

登录后复制

>步骤4：初始化现代伯特基本模型的情感分类

#install libraries
!pip install  git+https://github.com/huggingface/transformers.git datasets accelerate scikit-learn -Uqq
!pip install -U transformers>=4.48.0

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer,AutoModelForMaskedLM,AutoConfig
from datasets import load_dataset

登录后复制

>步骤5：准备数据集

>通过将情感标签列（标签）重命名为“标签”并删除不必要的列来准备数据集。

#Load the dataset
from datasets import load_dataset
imdb = load_dataset("imdb")
#print the first test sample
imdb["test"][0]

登录后复制

步骤6：定义计算指标

>让我们使用f1_score作为度量来评估我们的模型。我们将定义一个函数来处理评估预测并计算其F1分数。这是我们将模型的预测与真实标签进行比较。

#initialize the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained("answerdotai/ModernBERT-base")
model = AutoModelForMaskedLM.from_pretrained("answerdotai/ModernBERT-base")

#define the tokenizer function
def tokenizer_function(example):
    return tokenizer(
        example["text"],
        padding="max_length",  
        truncation=True,       
        max_length=512,      ## max length can be modified
        return_tensors="pt"
    )

#tokenize training and testing data set based on above defined tokenizer function
tokenized_train_dataset = imdb["train"].map(tokenizer_function, batched=True)
tokenized_test_dataset = imdb["test"].map(tokenizer_function, batched=True)

#print the tokenized output of first test sample
print(tokenized_test_dataset[0])

登录后复制

>步骤7：设置培训参数

>定义超参数和其他配置，用于使用拥抱脸的训练记录来微调模型。让我们理解一些论点：

> train_bsz，val_bsz ：指示培训和验证的批次大小。批量大小确定在更新模型内部参数之前处理的样品数量。
> lr：学习率控制模型权重相对于损耗梯度的调整。
betas ：这些是Adam Optimizer的beta参数。
> n_epochs ：时代的数量，指示完整的通过整个培训数据集。
eps ：在分母中添加了一个小常数，以提高亚当优化器中的数值稳定性。
> wd ：代表体重衰减，这是一种正规化技术，可以防止过度适应大量的重量。

#initialize the model
config = AutoConfig.from_pretrained("answerdotai/ModernBERT-base")

model = AutoModelForSequenceClassification.from_config(config)

登录后复制

步骤8：模型培训

>使用培训师类执行模型培训和评估过程。

#data preparation step - 
train_dataset = tokenized_train_dataset.remove_columns(['text']).rename_column('label', 'labels')
test_dataset = tokenized_test_dataset.remove_columns(['text']).rename_column('label', 'labels')

登录后复制

与现代伯特一起增强情感分析 >步骤9：评估

在测试数据集上评估训练的模型。

import numpy as np
from sklearn.metrics import f1_score
 
# Metric helper method
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    score = f1_score(
            labels, predictions, labels=labels, pos_label=1, average="weighted"
        )
    return {"f1": float(score) if score == 1 else score}

登录后复制

与现代伯特一起增强情感分析

与现代伯特一起增强情感分析步骤10：保存微调模型

>保存微调模型和代币器以进行进一步的重复使用。

步骤11：预测评论的情感

#define training arguments 
train_bsz, val_bsz = 32, 32 
lr = 8e-5
betas = (0.9, 0.98)
n_epochs = 2
eps = 1e-6
wd = 8e-6

training_args = TrainingArguments(
    output_dir=f"fine_tuned_modern_bert",
    learning_rate=lr,
    per_device_train_batch_size=train_bsz,
    per_device_eval_batch_size=val_bsz,
    num_train_epochs=n_epochs,
    lr_scheduler_type="linear",
    optim="adamw_torch",
    adam_beta1=betas[0],
    adam_beta2=betas[1],
    adam_epsilon=eps,
    logging_strategy="epoch",
    eval_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    bf16=True,
    bf16_full_eval=True,
    push_to_hub=False,
)

登录后复制

>这里：0表示负面审查，1表示积极的审查。在我的新示例中，输出应为[0,1]，因为无聊表示负面评论（0），而壮观的意见则表示为1，因此将以输出为1。>

。

#Create a Trainer instance
trainer = Trainer(
    model=model,                         # The pre-trained model
    args=training_args,                  # Training arguments
    train_dataset=train_dataset,         # Tokenized training dataset
    eval_dataset=test_dataset,           # Tokenized test dataset
    compute_metrics=compute_metrics,     # Personally, I missed this step, my output won't show F1 score  
)

登录后复制

与现代伯特一起增强情感分析现代伯特