機械学習を使用して感情を分析する方法-AI-php.cn

現在、私たちはペースの速い社会に住んでおり、あらゆる商品がオンラインで購入でき、誰もがオンラインで自分のコメントを投稿できます。また、一部の製品に対するオンラインでの否定的なレビューは会社の評判を傷つけ、それによって会社の売上に影響を与える可能性があります。したがって、企業が製品レビューを使用して顧客が本当に望んでいることを理解することが非常に重要になります。しかし、コメントデータが多すぎて、手動ですべてのコメントを一つ一つ見ることは不可能です。こうして感情分析が誕生しました。

次に、機械学習を使用して基本的な感情分析を実行するモデルを開発する方法を見てみましょう。

今すぐ始めましょう!

データの取得

最初のステップは、データセットを選択することです。ツイートや映画レビューなど、公開されているレビューから選択できます。データセットには、ラベルと実際のテキストセグメントという少なくとも 2 つの列が含まれている必要があります。

下の図は、選択したデータセットの一部を示しています。

Figure 1: Data sample

図 1: データサンプル

次に、必要なライブラリをインポートします。上記のコードでわかるように、データを処理するために

NumPy

および Pandas ライブラリをインポートしました。その他のライブラリについては、使用する際に説明します。データセットの準備ができ、必要なライブラリがインポートされました。次に、

Pandas

ライブラリを使用して、データセットをプロジェクトに読み取る必要があります。次のコードを使用して、データセットを Pandas データフレームに読み込みます。 DataFrame<div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:php;toolbar:false;'>import pandas as pd import numpy as np from nltk.stem.porter import PorterStemmer import re import string</pre><div class="contentsignin">ログイン後にコピー</div></div>データ処理

これで、データセットがプロジェクトにインポートされました。次に、アルゴリズムがデータセットの特性をよりよく理解できるようにデータを処理します。まず、データセット内の列に名前を付けます。これは次のコードで行います:

sentiment_dataframe = pd.read_csv(“/content/drive/MyDrive/Data/sentiments - sentiments.tsv”,sep = ‘t’)

ログイン後にコピー

次に、

label

列を数値化します: negative コメントは 1 に置き換えられ、 肯定的な コメントは 0 に置き換えられます。下の画像は、基本的な変更後の sentiment_dataframe の値を示しています。

Figure 2: Data frame with basic modifications

図 2: 基本的な変更を加えたデータフレーム

特性値と目標値の準備

次のステップデータの前処理です。機械学習アルゴリズムは数値データのみを理解/処理でき、テキストは理解できないため、これは非常に重要なステップです。そのため、この時点で文字列/テキストを数値データに変換するために特徴抽出が必要です。さらに、冗長で役に立たないデータは、トレーニングされたモデルを汚染する可能性があるため、削除する必要があります。このステップでは、ノイズの多いデータ、欠損値データ、矛盾したデータを削除します。

对于情感分析，我们在数据帧中添加特征文本的长度和标点符号计数。我们还要进行词干提取，即将所有相似词（如 “give”、“giving” 等）转换为单一形式。完成后，我们将数据集分为两部分：特征值 X 和目标值 Y。

上述内容是使用以下代码完成的。下图显示了执行这些步骤后的数据帧。

Figure 3: Data frame after the division of the data set

Figure 3: Data frame after the division of the data set

def count_punct(text):
 count = sum([1 for char in text if char in string.punctuation])
 return round(count/(len(text) - text.count(“ “)),3)*100
 
tokenized_tweet = sentiment_dataframe[‘body_text’].apply(lambda x: x.split())
stemmer = PorterStemmer()
tokenized_tweet = tokenized_tweet.apply(lambda x: [stemmer.stem(i) for i in x])
for i in range(len(tokenized_tweet)):
 tokenized_tweet[i] = ‘ ‘.join(tokenized_tweet[i])
sentiment_dataframe[‘body_text’] = tokenized_tweet
sentiment_dataframe[‘body_len’] = sentiment_dataframe[‘body_text’].apply(lambda x:len(x) - x.count(“ “))
sentiment_dataframe[‘punct%’] = sentiment_dataframe[‘body_text’].apply(lambda x:count_punct(x))
X = sentiment_dataframe[‘body_text’]
y = sentiment_dataframe[‘label’]

ログイン後にコピー

特征工程：文本特征处理

我们接下来进行文本特征抽取，对文本特征进行数值化。为此，我们使用计数向量器CountVectorizer，它返回词频矩阵。

在此之后，计算数据帧 X 中的文本长度和标点符号计数等特征。X 的示例如下图所示。

Figure 4: Sample of final features

Figure 4: Sample of final features

使用的机器学习算法

现在数据已经可以训练了。下一步是确定使用哪些算法来训练模型。如前所述，我们将尝试多种机器学习算法，并确定最适合情感分析的算法。由于我们打算对文本进行二元分类，因此我们使用以下算法：

K-近邻算法（KNN）
逻辑回归算法
支持向量机（SVMs）
随机梯度下降（SGD）
朴素贝叶斯算法
决策树算法
随机森林算法

划分数据集

首先，将数据集划分为训练集和测试集。使用 sklearn 库，详见以下代码：

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.20, random_state = 99)

ログイン後にコピー

我们使用 20% 的数据进行测试，80% 的数据用于训练。划分数据的意义在于对一组新数据（即测试集）评估我们训练的模型是否有效。

K-近邻算法

现在，让我们开始训练第一个模型。首先，我们使用 KNN 算法。先训练模型，然后再评估模型的准确率（具体的代码都可以使用 Python 的 sklearn 库来完成）。详见以下代码，KNN 训练模型的准确率大约为 50%。

from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)
model.score (X_test,y_test)
0.5056689342403629

ログイン後にコピー

逻辑回归算法

逻辑回归模型的代码十分类似——首先从库中导入函数，拟合模型，然后对模型进行评估。下面的代码使用逻辑回归算法，准确率大约为 66%。

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit (X_train,y_train)
model.score (X_test,y_test)
0.6621315192743764

ログイン後にコピー

支持向量机算法

以下代码使用 SVM，准确率大约为 67%。

from sklearn import svm
model = svm.SVC(kernel=’linear’)
model.fit(X_train, y_train)
model.score(X_test,y_test)
0.6780045351473923

ログイン後にコピー

随机森林算法

以下的代码使用了随机森林算法，随机森林训练模型的准确率大约为 69%。

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)
model.score(X_test,y_test)
0.6938775510204082

ログイン後にコピー

决策树算法

接下来，我们使用决策树算法，其准确率约为 61%。

from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()
model = model.fit(X_train,y_train)
model.score(X_test,y_test)
0.6190476190476191

ログイン後にコピー

随机梯度下降算法

以下的代码使用随机梯度下降算法，其准确率大约为 49%。

from sklearn.linear_model import SGDClassifier
model = SGDClassifier()
model = model.fit(X_train,y_train)
model.score(X_test,y_test)
0.49206349206349204

ログイン後にコピー

朴素贝叶斯算法

以下的代码使用朴素贝叶斯算法，朴素贝叶斯训练模型的准确率大约为 60%。

from sklearn.naive_bayes import GaussianNB
model = GaussianNB()
model.fit(X_train, y_train)
model.score(X_test,y_test)
0.6009070294784581

ログイン後にコピー

情感分析的最佳算法

接下来，我们绘制所有算法的准确率图。如下图所示。

Figure 5: Accuracy performance of the different algorithms

Figure 5: Accuracy performance of the different algorithms

可以看到，对于情感分析这一问题，随机森林算法有最佳的准确率。由此，我们可以得出结论，随机森林算法是所有机器算法中最适合情感分析的算法。我们可以通过处理得到更好的特征、尝试其他矢量化技术、或者使用更好的数据集或更好的分类算法，来进一步提高准确率。

既然，随机森林算法是解决情感分析问题的最佳算法，我将向你展示一个预处理数据的样本。在下图中，你可以看到模型会做出正确的预测！试试这个来改进你的项目吧！

Figure 6: Sample predictions made

図 6: 作成された予測のサンプル

以上が機械学習を使用して感情を分析する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットツール Tags

コード&IT

オーディオ

仕事

マーケティング

AI検出器

チャットボット

デザイン&アート

ホットな記事タグ

ホットトピック

Gmailメールのログイン入り口はどこですか？

7296

Java チュートリアル

1622

CakePHP チュートリアル

1342

Laravel チュートリアル

1259

PHP チュートリアル

1206

Related knowledge

オープンソースの無料画像注釈ツールおすすめ 15 選 Mar 28, 2024 pm 01:21 PM

オープンソースの無料画像注釈ツールおすすめ 15 選

この記事では、SHAP: 機械学習のモデルの説明について説明します。 Jun 01, 2024 am 10:58 AM

この記事では、SHAP: 機械学習のモデルの説明について説明します。

学習曲線を通じて過学習と過小学習を特定する Apr 29, 2024 pm 06:50 PM

学習曲線を通じて過学習と過小学習を特定する

透明！主要な機械学習モデルの原理を徹底的に分析！ Apr 12, 2024 pm 05:55 PM

透明！主要な機械学習モデルの原理を徹底的に分析！

宇宙探査と人類居住工学における人工知能の進化 Apr 29, 2024 pm 03:25 PM

宇宙探査と人類居住工学における人工知能の進化

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策

説明可能な AI: 複雑な AI/ML モデルの説明 Jun 03, 2024 pm 10:08 PM

説明可能な AI: 複雑な AI/ML モデルの説明

機械学習における Golang テクノロジーの今後の動向の展望 May 08, 2024 am 10:15 AM

機械学習における Golang テクノロジーの今後の動向の展望

See all articles

機械学習を使用して感情を分析する方法

今すぐ始めましょう!

データの取得

特征工程：文本特征处理

使用的机器学习算法

划分数据集

K-近邻算法

逻辑回归算法

支持向量机算法

随机森林算法

决策树算法

随机梯度下降算法

朴素贝叶斯算法

情感分析的最佳算法

人気の記事

ホットツール Tags

人気の記事

ホットな記事タグ

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック