思路总结-----对微博情感分析的的挖掘
一朋友由于工作需要,准备对新浪微博进行相关的抓取挖掘。特别是情感分析这一块,便于他后期的实验实践。实际上,文本挖掘及分析在未来都会产生较大的效果。举一个简单的例子,现在地铁里的每个人每天都会去刷新自己的人人好友圈,微信好友消息。而这些消息
一朋友由于工作需要,准备对新浪微博进行相关的抓取挖掘。特别是情感分析这一块,便于他后期的实验实践。实际上,文本挖掘及分析在未来都会产生较大的效果。举一个简单的例子,现在地铁里的每个人每天都会去刷新自己的人人好友圈,微信好友消息。而这些消息大部分是基于文本的。如何对这些原始的消息进行挖掘。进而为相应的精准营销做准备。在以后的营销中将会产生重大效果。
原始数据
这一部分的内容,我们可以通过爬虫技术来抓取。通过聚类算法,找到相同话题的所有微博。然后拿来做为原始数据。还有就是用户好友圈内的评价消息,还有用户产生的连接消息,等等。这些都可以作为原始数据来归入我们的数据库。
确订目标(商业理解)
这一步也同时与业务理解要很好的关联起来,首先,我们是要用这些原始数据来作什么?比如,我们用情感分析,所有不同用户对同一事件的理解。我们要将他们的微博信息里的关键词找出来。然而进行相应的查找算法,进而确定所有用户对这一事件的评价。然后,我们要通过用户的评价,找到有二次商业利用值的客户。然后确订为目标客户。
数据理解
所抓取到的微博内容是什么,里边带几个链接?是用什么符号与之相连?文字,图片的分类,另外还有评论信息是否也有参考价值。里边的特殊符号代表什么?等等。这些信息,那些是对我们的来说是有用的,如何去用?比如说要从文本中挖掘出关建字,进行相关的营销活动。从而确定博主的情感动向。进而可以做些什么?理解我们的数据,才能更好的抓取到我们所要使用的数据。
模型建立
有人说,搞数据挖掘的人就是要来做这一部分的内容。你要建立一个好的模型,那以后的数据通过你的这个模型,那么你所需要的内容自动地就会呈现出来。而这一部分也是整个数据挖掘里最难的部分。
比如说我们的微博数据,我们可以通过决策树算法建立模型。最后输出那些关健字的客户就是我们的目标客户。又或者,我们可以通过神经网络的算法建立模型,找到相关的所的决策项。实际上,数据挖掘所用到的方法很多,也很复杂,我也是到现在还是没有弄清楚一些算法的核心思想。但这样并不影响我们来使用相关的算法来进行挖掘。再者说,现在的挖掘对象,真正上PB内容的资料也不是很多的。很多企业还停留在小型机的阶段。所以,有的时候,我会开玩笑的说:数据量太小的话,EXECL会更好一些,然后是ACCESS数据库。再然后就是ORCALE数据库.....
模型建立是一个比较幸苦的工作,可是如果建立完成后,一般3-5年不会发生变化。比如我们现在的信用卡的信用评分系统。
模型评估
这一部分内容,是进行相关优化。也就是说模型建立好了,开始要跑业务了。要测试一下看它到底能跑到什么样的程度。有的时候,你挖掘了半年,也找到的目标客户,结果被其他人先用其他方法吸引走了,怎么办?所以才要有模型评估这件工作。
先将大数据里的一部分数据,一般是40%拿来先做训练,你也可以拿少量来试一试。然后看完成这些数据需要多长时间。换了其他的算法后,是否可以提高挖掘时间。一般这一步的数据分配要遵守一个4:3:3的原则,即40%拿来做训练,30%来做测试,另外的30%拿来做验证。综合来说,才能够评价这个模型的好坏,以及这个模型是否能产生它的相应价值。
发布模型
这是最后一步,让所有微博数据进行相应的算法优化。进而达到最好的挖掘效果。
在以上的这几个步骤中,模型评估与商业理解其实也是相辅相成的,因为这两个主要是与数据最为密切。而数据理解与商业理解又是相互制约的,很多时候,我们是有了大数据,但是我们找不到我们的所要挖掘的目标在那里,这时就需要不断的修订我们的商业理解与数据理解,然而,模型的相关内容,在整个闭环的过程中并不显的那么重要。有的时候,客户的一个很简单的需求,我们并不一定要用复杂的技术来实现,简单也许就意味着胜利。
再来说说在文本挖掘中的思路,少量的文本信息。我们可以放在在WORD里用复制粘贴来完成,多的话可以用EXCEL,再多的话可以用U1,要是还是多就用SAS与R,再多就用其他的了,具体什么软件,我也没用过。
好了,就先总结这么多吧。下周有空再写吧!

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









1. まずモバイル Web ブラウザを開き、Weibo Web バージョンを検索し、入力後に左上隅にあるアバター ボタンをクリックします。 2. 次に、右上隅の「設定」をクリックします。 3. 設定でバージョン切り替えオプションをクリックします。 4. 次に、バージョン スイッチでカラー バージョン オプションを選択します。 5. 「検索」をクリックして検索ページに入ります。 6. キーワードを入力した後、「Find People」をクリックします。 7. 検索完了インターフェイスが表示されたら、「フィルター」をクリックします。 8. 最後に、リリース時刻列に特定の日付を入力し、[フィルター] をクリックします。

1. Weibo を開き、「マイ」をクリックして、右上隅にある「設定」オプションをクリックします。 2.設定を開いた後、その中にあるプッシュ通知設定を見つけてクリックします。 3. プッシュ通知設定を入力した後、[特別な関心] を見つけて、[リアルタイム通知] をクリックします。

1. Weibo アプリの右下隅にある [My] をクリックして、個人のホームページに入ります。 2. 次に、右上隅にある歯車アイコンをクリックします。 3. この時点で、設定ページに入ります。ここで[ブロック設定]を選択して入ります。 4. ブロック設定では、ブロックした友達を確認してタップし、ポップアップ オプションで [ブロックを解除] をクリックします。 5. または、ユーザーは Weibo ユーザーを直接検索してブロックされたユーザーのホームページに入り、右上の [...] をクリックしてブラックリストを削除することもできます。

1. まず Weibo を開き、「My」をクリックして、下書きボックスをクリックします。 2. 次に、いずれかのドラフトを長押しし、クリックしてドラフト ボックスをクリアするか、ドラフトを削除します。 3. 最後に「OK」をクリックします。

1. まず Weibo を開き、「検索」をクリックし、「その他のホット検索」をクリックします。 2. 次に、ホット検索を選択して入力します。 3. 次に、ホット検索コメントライブモードに入り、右上隅にある標準バージョンを見つけてクリックします。 4. 最後に、ホット検索の標準コメント エリアに戻ります。引き続きライブ コメント エリアを表示したい場合は、右上隅のライブ バージョンをクリックします。注: リアルタイム コメントが多い場合にのみ、自動的にライブ モードに入ります。一部のホット検索では、自動的にライブ モードに入ります。通常、ホット検索は標準モードで行われます。

1. まず携帯電話で Weibo を開き、右下隅の [Me] をクリックします (図を参照)。 2. 次に、右上隅の [歯車] をクリックして設定を開きます (図を参照)。 3. 次に、[一般設定] を見つけて開きます (図を参照)。 4. 次に、[Video Follow] オプションを入力します (図を参照)。 5. 次に、[ビデオアップロード解像度]設定を開きます(図を参照)。 6. 最後に、圧縮を避けるために [オリジナルの画質] を選択します (図を参照)。

1. まず、Weibo を開き、「マイ」をクリックし、アバターをクリックして、個人のホームページに入ります。 2. 次に、背景画像をクリックします。 3. 次に、 をクリックしてビデオのカバーを変更します。 4. 最後に、アルバム内のビデオを選択し、「次へ」をクリックして、公開してアップロードします。

Weibo ユーザーが SVIP 機能を有効にすると、訪問者記録を管理でき、知らない人のホームページを訪問した場合、表示する前に削除することができるため、ホームページを閲覧していることを相手に知られることはありません。 Weibo svip で訪問者記録を削除した後、相手はそれを見ることができますか? Weibo svip で訪問者記録を削除した後、相手はそれを見ることができません。訪問者数は表示されますが、訪問者、ユーザーの ID とアバターは表示されません。 2. 一般ユーザーおよびVIPユーザーは、アクセス履歴の削除や閲覧はできず、閲覧者数の確認のみが可能です。 3. Weiboのアクセスデータは毎日8時に更新されますので、アクセス記録を削除したい場合は、
