Mahout学习资料整理
Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序 Mahout相关资源 Mahout主页:http://mahout.apache.org/ Mahout 最新版本0.8下
Mahout简介
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序
Mahout相关资源
- Mahout主页:http://mahout.apache.org/
- Mahout 最新版本0.8下载:?http://mirrors.hust.edu.cn/apache/mahout/0.8/?使用mahout-distribution-0.8.tar.gz可试跑,源码在mahout-distribution-0.8-src.tar.gz中
- Mahout 简要安装步骤:
如无需修改源代码,只是试用试跑,请无需安装maven(网上许多教程会有这个弯路,请跳过),具体可以参考以下教程
http://www.hadoopor.com/thread-983-1-1.html
如果需要能修改源代码并重新编译打包,需要安装maven,请参考如下图文教程:http://wenku.baidu.com/view/dbd15bd276a20029bd642d55.html
- Mahout 专业教程 : Mahout in action?http://yunpan.taobao.com/share/link/R56BdLH5O
注: 出版时间2012年, 对应mahout版本0.5, 是目前mahout最新的书籍读物。目前只有英文版,但是翻了一下,里面词汇基本都是计算机基础词汇,且配图和源代码,是适合阅读的。
- IBM mahout简介:?http://www.ibm.com/developerworks/cn/java/j-mahout/
注:中文版, 更新是时间为09年,但是里面对于mahout阐述较全面,推荐阅读,特别是最后的书籍清单,适合深入了解
Mahout模块详解
- Mahout模块详解
Mahout目前专注于推荐(RECOMMENDATIONS)、聚类(CLUSTERING)、分类(CLASSIFICATION)三大部分,具体事例可见Mahout In Action
推荐(RECOMMENDATIONS)
推荐算法介绍
http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html
Item Based Algothrim
https://cwiki.apache.org/confluence/display/MAHOUT/Itembased+Collaborative+Filtering
Collaborative Filtering using a parallel matrix factorization
https://cwiki.apache.org/confluence/display/MAHOUT/Collaborative+Filtering+with+ALS-WR
注:基于矩阵因子分解的方法,由于需要不断迭代,所以在mapreduce框架下效率会受影响
Non-distributed recommenders
https://cwiki.apache.org/confluence/display/MAHOUT/Recommender+Documentatio
注:mahout中也提供了推荐算法的非分布式的实现,其中有代号为”taste”的开源推荐引擎
分类(CLUSTERING)
Bayesian 贝叶斯分类
http://blog.echen.me/2011/08/22/introduction-to-latent-dirichlet-allocation/
注:其中同时实现了Naive Bayes和Complementary Naive
BayesRandom Forests 随机森林
https://cwiki.apache.org/confluence/display/MAHOUT/Random+Forests
注:在公司内部,GBDT(内部称treelink)有着广泛的引用,附介绍文章
http://www.searchtb.com/2010/12/an-introduction-to-treelink.html?(tbsearch博客)
http://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/random-forest-and-gbdt.html?(介绍随机森林与GBDT的博客)
Logistic Regression(逻辑回归)
https://cwiki.apache.org/confluence/display/MAHOUT/Logistic+Regression
注:是用SGD(Stochastic Gradient Descent,随机梯度下降)的方法实现的
也可用liblinear:?http://www.csie.ntu.edu.tw/~cjlin/liblinear/?(其中支持L1&L2 regularized logistic regression)
SVM(支持向量机)
目前mahout这个模块还在开发,尚未集成入发布包,如有需要,建议使用台大的libSVM包
libSVM:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/
聚类(CLASSIFICATION)
聚类方法简述
http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/
Canopy Clustering模块分析
http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html?(中文博客)
https://cwiki.apache.org/confluence/display/MAHOUT/Canopy+Clustering?(英文文档)
Kmeans模块分析
http://www.cnblogs.com/vivounicorn/archive/2011/10/08/2201986.html?(中文博客)
https://cwiki.apache.org/confluence/display/MAHOUT/K-Means+Clustering?(英文文档)
Fuzz Kmeans
https://cwiki.apache.org/confluence/display/MAHOUT/Fuzzy+K-Means
Mean Shift Clustering
https://cwiki.apache.org/confluence/display/MAHOUT/Mean+Shift+Clustering
注:目前主要用于图像分割和跟踪等计算机视觉领域
Latent Dirichlet Allocation(LDA)
https://cwiki.apache.org/confluence/display/MAHOUT/Latent+Dirichlet+Allocation
注:经典方法,附论文英文原著论文?http://machinelearning.wustl.edu/mlpapers/paper_files/BleiNJ03.pdf?(引用数:6829)
http://www.docin.com/p-413125834.html?(基于LDA话题演化研究方法综述)
http://leyew.blog.51cto.com/5043877/860255?(中文博客学习笔记)
http://blog.echen.me/2011/08/22/introduction-to-latent-dirichlet-allocation/?(英文入门博客)
Pattern Mining 模式挖掘
Parallel Frequent Pattern Mining 并行频繁模式挖掘
https://cwiki.apache.org/confluence/display/MAHOUT/Parallel+Frequent+Pattern+Mining
论文http://wenku.baidu.com/view/9cce67ed172ded630b1cb615.html(在Query推荐中的应用)
Dimension reduction 降维
Singular Value Decomposition(SVD) 奇异值分解
https://cwiki.apache.org/confluence/display/MAHOUT/Dimensional+Reduction
SVD介绍:?http://wenku.baidu.com/view/7f483a6b561252d380eb6ea6.html
Evolutionary Algorithms 进化算法
进化算法框架
进化算法介绍:
http://www.geatbx.com/docu/algindex.html
框架使用方法:
https://cwiki.apache.org/confluence/display/MAHOUT/Mahout.GA.Tutorial
注:目前mahout只是提供一套进化算法的并行化实现框架,但具体的进化算法,如遗传算法、模拟退火算法、蚁群算法等,还未集成到开发包中。
相关工具书
- 统计学习书籍
1. 统计学习基础 — 数据挖掘、推理与预测(中文版)
http://yunpan.taobao.com/share/link/R56BeLI6O
注:此书英文版每年都在更新,但是中文版只有2004年一版,而且网上纸质书早就脱销了,由于是统计学习基础,所以大多数经典内容还是可读的;
2. 统计学习基础 — 数据挖掘、推理与预测(英文版)(The Elements of Statistical Learning)
http://yunpan.taobao.com/share/link/D56BeLKYE
目前的最新版,第二版(09年)的的第10次印刷版本(13年)
可与中文版对照看
- 概率论与数理统计基础书籍
1. 浙大概率论与数理统计第三版
http://yunpan.taobao.com/share/link/U56BeLWBT
经典的教科书
2. 统计学完全教程(中文版)
http://yunpan.taobao.com/share/link/756BeLYAa
统计学的百科全书
- 数据挖掘概述书籍
1. 数据挖掘导论(中文版)
http://yunpan.taobao.com/share/link/O56BeLoPx
2. Data Mining.Concepts and Techniques.3Ed(英文版)
http://yunpan.taobao.com/share/link/256BeLopX
注:中文版还是2000年的老版,起不到参考作用,所以放了最新的英文版
- 统计学习在自然语言处理方面应用的书籍
1.统计自然语言处理基础(中文版)
http://yunpan.taobao.com/share/link/25VBpL7X
其它
更多更新可见wiki:?http://searchwiki.taobao.ali.com/index.php/PbaseLearning/mahout

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

物件關聯映射(ORM)框架在python開發中扮演著至關重要的角色,它們透過在物件和關聯式資料庫之間建立橋樑,簡化了資料存取和管理。為了評估不同ORM框架的效能,本文將針對以下流行框架進行基準測試:sqlAlchemyPeeweeDjangoORMPonyORMTortoiseORM測試方法基準測試使用了一個包含100萬筆記錄的SQLite資料庫。測試對資料庫執行了以下操作:插入:向表中插入10,000條新記錄讀取:讀取表中的所有記錄更新:更新表中所有記錄的單一欄位刪除:刪除表中的所有記錄每個操作

Yii框架是一個高效能、高擴充性、高可維護性的PHP開發框架,在開發Web應用程式時具有很高的效率和可靠性。 Yii框架的主要優點在於其獨特的特性和開發方法,同時也整合了許多實用的工具和功能。 Yii框架的核心概念MVC模式Yii採用了MVC(Model-View-Controller)模式,是一種將應用程式分為三個獨立部分的模式,即業務邏輯處理模型、使用者介面呈

物件關係映射(ORM)是一種程式設計技術,允許開發人員使用物件程式語言來操作資料庫,而無需直接編寫sql查詢。 python中的ORM工具(例如SQLAlchemy、Peewee和DjangoORM)簡化了大數據專案的資料庫互動。優點程式碼簡潔性:ORM消除了編寫冗長的SQL查詢的需要,這提高了程式碼簡潔性和可讀性。資料抽象化:ORM提供了一個抽象層,將應用程式程式碼與資料庫實作細節隔離開來,提高了靈活性。效能最佳化:ORM通常會使用快取和批次操作來優化資料庫查詢,從而提高效能。可移植性:ORM允許開發人員在不

了解Java設計模式:常用的7種設計模式簡介,需要具體程式碼範例Java設計模式是一種解決軟體設計問題的通用解決方案,它提供了一套被廣泛接受的設計想法與行為準則。設計模式幫助我們更好地組織和規劃程式碼結構,使得程式碼具有更好的可維護性、可讀性和可擴展性。在本文中,我們將介紹Java中常用的7種設計模式,並提供對應的程式碼範例。單例模式(SingletonPatte

使用電腦的小夥伴都希望自己的桌面排列乾淨看起來整整齊齊但是不知道怎麼在win10系統中操作,今天就給你們帶來了整理桌面圖標win10方法,一起看看吧。整理桌面圖示win10怎麼整齊:1、右鍵點選桌面空白處,點選最上方的「檢視」。 2.在右側的視窗中可以看到「自動排列圖示」等功能。 3.不要勾選「自動排列圖示」這樣就能夠依照自己的需求來擺放圖示了。 4.而且這些選項是都可以全部選擇的,但是這樣就沒辦法擺出自己的個性了。

对象关系映射(ORM)是一种技术,它允许在面向对象编程语言和关系数据库之间建立桥梁。使用pythonORM可以显著简化数据持久性操作,从而提高应用程序的开发效率和可维护性。优势使用PythonORM具有以下优势:减少样板代码:ORM自动生成sql查询,从而避免编写大量的样板代码。简化数据库交互:ORM提供了一个统一的接口,用于与数据库交互,简化了数据操作。提高安全性:ORM使用参数化查询,可以防止SQL注入等安全漏洞。促进数据一致性:ORM确保对象与数据库之间的同步,维护数据一致性。选择ORM有

git是一個分散式版本控制系統,可協助團隊協作開發軟體。對於Java開發人員來說,了解Git至關重要,因為它提供了一個管理程式碼變更、追蹤程式碼歷史記錄和與他人合作的平台。新手(了解基礎)安裝Git:安裝Git軟體並設定環境變數。建立儲存庫:使用gitinit建立本機儲存庫。新增檔案:使用gitadd將檔案新增到暫存區。提交變更:使用gitcommit將暫存區中的變更提交到本機儲存庫。中級(協作和版本控制)克隆儲存庫:使用gitclone從遠端儲存庫克隆本機副本。分支和合併:使用分支來建立程式碼的隔離副本

Tkinter是python中用來建立圖形使用者介面(GUI)的一個強大函式庫。它以其簡單性、跨平台相容性和與Python生態系統的無縫整合而聞名。透過使用Tkinter,您可以為您的專案添加用戶友好的介面,從而提高用戶體驗並簡化與應用程式的互動。建立TkinterGUI應用程式要使用Tkinter建立GUI應用程序,請執行下列步驟:匯入Tkinter庫:importtkinterastk建立Tkinter主視窗:root=tk.Tk()設定主視窗:設定視窗標題、大小、位置等新增GUI元素:使用Tki
