異なるデータと異なるプログラマーが異なる協調フィルタリング推奨アルゴリズムを作成しますが、その核心は同じです。この記事では主に、Python で協調フィルタリング推奨アルゴリズムを実装する完全なコード例を紹介します。これは、必要な友人が参照できるものです。それ。 。皆さんのお役に立てれば幸いです。
テストデータ
http://grouplens.org/datasets/movielens/
協調フィルタリング推奨アルゴリズムは主に次のように分かれています。
1. ユーザーに基づいています。近隣のユーザーに基づいて、現在のユーザーが優先していない関与していないアイテムを予測し、アイテムに基づいて並べ替えられた推奨アイテムのリストを計算します
2.アイテム A を好むユーザーがアイテム C も好きであれば、アイテム A とアイテム C は非常に似ていることがわかり、ユーザー C がアイテム A を好きであれば、ユーザー C もアイテム C を好む可能性があると推測できます。
異なるデータと異なるプログラマーが異なる協調フィルタリング推奨アルゴリズムを作成しますが、その核心は同じです:
1. ユーザーの好みを収集する
1) 異なる行動をグループ化する
2) 異なるグループに対して重み付けされた計算を実行する
3) データのノイズ除去と正規化
2. 類似したユーザー (ユーザーに基づいて) またはアイテム (アイテムに基づいて) を検索します
3. 類似性を計算して並べ替えます。類似性に基づいてユーザーを推奨します
この例のプロセス:
1. データを初期化します
映画と評価を取得します
特定のユーザーのすべての映画の評価のセットを表すデータに変換し、評価を 5 で割ります
ItemUser は、特定の映画の評価に参加したすべてのユーザーのセットを表すデータに変換します
2. すべてのユーザーと userId の間の類似性を計算します
userId と交差する映画を視聴しているすべてのユーザーを見つけます
これらのユーザーをループしますuserIdとの類似度を計算します
user AとuserIdの和集合を取得します。形式は: {'映画 ID', [ユーザーの評価, ユーザー ID の評価]}、評価は 0 として記録されません
A ユーザーと userId の間のコサイン距離を計算し、大きいほど類似します
3.類似度リストに基づいて
4. 出力推奨リストと精度
#!/usr/bin/python3 # -*- coding: utf-8 -*- from numpy import * import time from texttable import Texttable class CF: def __init__(self, movies, ratings, k=5, n=10): self.movies = movies self.ratings = ratings # 邻居个数 self.k = k # 推荐个数 self.n = n # 用户对电影的评分 # 数据格式{'UserID:用户ID':[(MovieID:电影ID,Rating:用户对电影的评星)]} self.userDict = {} # 对某电影评分的用户 # 数据格式:{'MovieID:电影ID',[UserID:用户ID]} # {'1',[1,2,3..],...} self.ItemUser = {} # 邻居的信息 self.neighbors = [] # 推荐列表 self.recommandList = [] self.cost = 0.0 # 基于用户的推荐 # 根据对电影的评分计算用户之间的相似度 def recommendByUser(self, userId): self.formatRate() # 推荐个数 等于 本身评分电影个数,用户计算准确率 self.n = len(self.userDict[userId]) self.getNearestNeighbor(userId) self.getrecommandList(userId) self.getPrecision(userId) # 获取推荐列表 def getrecommandList(self, userId): self.recommandList = [] # 建立推荐字典 recommandDict = {} for neighbor in self.neighbors: movies = self.userDict[neighbor[1]] for movie in movies: if(movie[0] in recommandDict): recommandDict[movie[0]] += neighbor[0] else: recommandDict[movie[0]] = neighbor[0] # 建立推荐列表 for key in recommandDict: self.recommandList.append([recommandDict[key], key]) self.recommandList.sort(reverse=True) self.recommandList = self.recommandList[:self.n] # 将ratings转换为userDict和ItemUser def formatRate(self): self.userDict = {} self.ItemUser = {} for i in self.ratings: # 评分最高为5 除以5 进行数据归一化 temp = (i[1], float(i[2]) / 5) # 计算userDict {'1':[(1,5),(2,5)...],'2':[...]...} if(i[0] in self.userDict): self.userDict[i[0]].append(temp) else: self.userDict[i[0]] = [temp] # 计算ItemUser {'1',[1,2,3..],...} if(i[1] in self.ItemUser): self.ItemUser[i[1]].append(i[0]) else: self.ItemUser[i[1]] = [i[0]] # 找到某用户的相邻用户 def getNearestNeighbor(self, userId): neighbors = [] self.neighbors = [] # 获取userId评分的电影都有那些用户也评过分 for i in self.userDict[userId]: for j in self.ItemUser[i[0]]: if(j != userId and j not in neighbors): neighbors.append(j) # 计算这些用户与userId的相似度并排序 for i in neighbors: dist = self.getCost(userId, i) self.neighbors.append([dist, i]) # 排序默认是升序,reverse=True表示降序 self.neighbors.sort(reverse=True) self.neighbors = self.neighbors[:self.k] # 格式化userDict数据 def formatuserDict(self, userId, l): user = {} for i in self.userDict[userId]: user[i[0]] = [i[1], 0] for j in self.userDict[l]: if(j[0] not in user): user[j[0]] = [0, j[1]] else: user[j[0]][1] = j[1] return user # 计算余弦距离 def getCost(self, userId, l): # 获取用户userId和l评分电影的并集 # {'电影ID':[userId的评分,l的评分]} 没有评分为0 user = self.formatuserDict(userId, l) x = 0.0 y = 0.0 z = 0.0 for k, v in user.items(): x += float(v[0]) * float(v[0]) y += float(v[1]) * float(v[1]) z += float(v[0]) * float(v[1]) if(z == 0.0): return 0 return z / sqrt(x * y) # 推荐的准确率 def getPrecision(self, userId): user = [i[0] for i in self.userDict[userId]] recommand = [i[1] for i in self.recommandList] count = 0.0 if(len(user) >= len(recommand)): for i in recommand: if(i in user): count += 1.0 self.cost = count / len(recommand) else: for i in user: if(i in recommand): count += 1.0 self.cost = count / len(user) # 显示推荐列表 def showTable(self): neighbors_id = [i[1] for i in self.neighbors] table = Texttable() table.set_deco(Texttable.HEADER) table.set_cols_dtype(["t", "t", "t", "t"]) table.set_cols_align(["l", "l", "l", "l"]) rows = [] rows.append([u"movie ID", u"Name", u"release", u"from userID"]) for item in self.recommandList: fromID = [] for i in self.movies: if i[0] == item[1]: movie = i break for i in self.ItemUser[item[1]]: if i in neighbors_id: fromID.append(i) movie.append(fromID) rows.append(movie) table.add_rows(rows) print(table.draw()) # 获取数据 def readFile(filename): files = open(filename, "r", encoding="utf-8") # 如果读取不成功试一下 # files = open(filename, "r", encoding="iso-8859-15") data = [] for line in files.readlines(): item = line.strip().split("::") data.append(item) return data # -------------------------开始------------------------------- start = time.clock() movies = readFile("/home/hadoop/Python/CF/movies.dat") ratings = readFile("/home/hadoop/Python/CF/ratings.dat") demo = CF(movies, ratings, k=20) demo.recommendByUser("100") print("推荐列表为:") demo.showTable() print("处理的数据为%d条" % (len(demo.ratings))) print("准确率: %.2f %%" % (demo.cost * 100)) end = time.clock() print("耗费时间: %f s" % (end - start))
概要
以上が、Python で実装された協調フィルタリング推奨アルゴリズムの完全なコード例に関するこの記事の内容全体です。みんなの役に立つように。
関連する推奨事項:
Python での協調フィルタリングの実装に関するチュートリアル
以上がPythonで実装された協調フィルタリング推奨アルゴリズムの詳細説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。