漫谈数据挖掘从入门到进阶-mysql教程-PHP中文网

首页

数据库

mysql教程

漫谈数据挖掘从入门到进阶

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 05:56 PM

入门数据挖掘进阶

做数据挖掘也有些年头了，写这篇文一方面是写篇文，给有个朋友作为数据挖掘方面的参考，另一方面也是有抛砖引玉之意，希望能够和一些大牛交流，相互促进，让大家见笑了。入门：数据挖掘入门的书籍，中文的大体有这些： JiaweiHan的《数据挖掘概念与技术》

做数据挖掘也有些年头了，写这篇文一方面是写篇文，给有个朋友作为数据挖掘方面的参考，另一方面也是有抛砖引玉之意，希望能够和一些大牛交流，相互促进，让大家见笑了。

入门：

数据挖掘入门的书籍，中文的大体有这些：

Jiawei Han的《数据挖掘概念与技术》

Ian H. Witten / Eibe Frank的《数据挖掘实用机器学习技术》

Tom Mitchell的《机器学习》

TOBY SEGARAN的《集体智慧编程》

Anand Rajaraman的《大数据》

Pang-Ning Tan的《数据挖掘导论》

Matthew A. Russell的《社交网站的数据挖掘与分析》

很多人的第一本数据挖掘书都是Jiawei Han的《数据挖掘概念与技术》，这本书也是我们组老板推荐的入门书（我个人觉得他之所以推荐是因为Han是他的老师）。其实我个人来说并不是很推荐把这本书。这本书什么都讲了，甚至很多书少有涉及的一些点比如OLAP的方面都有涉猎。但是其实这本书对于初学者不是那么友好的，给人一种教科书的感觉，如果你有大毅力读完这本书，也只能获得一些零碎的概念的认识，很难上手实际的项目。

我个人推荐的入门书是这两本：TOBY SEGARAN的《集体智慧编程》和Ian H. Witten / Eibe Frank的《数据挖掘实用机器学习技术》

《集体智慧编程》很适合希望了解数据挖掘技术的程序员，这本书讲述了数据挖掘里面的很多实用的算法，而且最重要的是其讲述的方式不是像Han那种大牛掉书袋的讲法，而是从实际的例子入手，辅以python的代码，让你很快的就能理解到这种算法能够应用在哪个实际问题上，并且还能自己上手写写代码。唯一的缺点是不够深入，基本没有数学推导，而且不够全面，内容不够翔实。不过作为一本入门书这些缺点反而是帮助理解和入门的优点。

推荐的另一本《数据挖掘实用机器学习技术》则相对上一本书要稍微难一点，不过在容易理解的程度上依然甩Han老师的书几条街，其作者就是著名的Weka的编写者。整本书的思想脉络也是尽可能的由易到难，从简单的模型入手扩展到现实生活中实际的算法问题，最难能可贵的是书的最后还稍微讲了下如何使用weka，这样大家就能在学习算法之余能够用weka做做小的实验，有直观的认识。

看完上述两本书后，我觉得大体数据挖掘就算有个初步的了解了。往后再怎么继续入门，就看个人需求了。

如果是只是想要稍微了解下相关的技术，或者作为业余爱好，则可随便再看看Anand Rajaraman的《大数据》以及Matthew A. Russell的《社交网站的数据挖掘与分析》。前者是斯坦福的"Web挖掘"这门课程的材料基础上总结而成。选取了很多数据挖掘里的小点作为展开的，不够系统，但讲的挺好，所以适合有个初步的了解后再看。后者则亦是如此，要注意的是里面很多api因为GFS的缘故不能直接实验，也是个遗憾

如果是继续相关的研究学习，我认为则还需要先过一遍Tom Mitchell的《机器学习》。这本书可以看做是对于十多年前的机器学习的一个综述，作者简单明了的讲述了很多流行的算法（十年前的），并且对于各个算法的适用点和特点都有详细的解说，轻快地在一本薄薄的小书里给了大家一个机器学习之旅。

进阶：

进阶这个话题就难说了，毕竟大家对于进阶的理解各有不同，是个仁者见仁的问题。就我个人来说，则建议如下展开：

视频学习方面：

可以看看斯坦福的《机器学习》这门课程的视频，最近听说网易公开课已经全部翻译了，而且给出了双语字幕，更加容易学习了^_^

书籍学习方面：

我个人推荐的是这样：可以先看看李航的《统计学习方法》，这本书着重于数学推导，网站空间，能让我们很快的对于一些算法的理解更加深入。

有了上面这本书的基础，就可以开始啃一些经典名著了。这些名著看的顺序可以不分先后，也可以同时学习：

Richard O. Duda的《模式分类》这本书是力荐，很多高校的数据挖掘导论课程的教科书便是这本（也是我的数据挖掘入门书，很有感情的）。如果你不通读这本书，你会发现在你研究很多问题的时候，甚至一些相对简单的问题（比如贝叶斯在高斯假设下为什么退化成线性分类器）都要再重新回头读这本书。

Christopher M. Bishop的《Pattern Recognition And Machine Learning》这本书也是经典巨著，整本书写的非常清爽。

《The Elements of Statistical Learning》这本书有句很好的吐槽“机器学习 -- 从入门到精通”可以作为这本书的副标题。可以看出这本书对于机器学习进阶的重要性。值得一说的是这本书虽然有中文版，但是翻译之烂也甚是有名，听说是学体育的翻译的。

Hoppner, Frank的《Guide to Intelligent Data Analysis》这本书相对于上面基本经典巨著并不出名，但是写的甚好，是knime官网上推荐的，标榜的是解决实际生活中的数据挖掘问题，讲述了CRISP-DM标准化流程，每章后面给出了R和knime的应用例子。

以前写过的读书笔记

项目方面：

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1662

CakePHP 教程

1419

Laravel 教程

1311

PHP教程

1261

C# 教程

1234

显示更多

Related knowledge

值得你花时间看的扩散模型教程，来自普渡大学 Apr 07, 2024 am 09:01 AM

Diffusion不仅可以更好地模仿，而且可以进行「创作」。扩散模型（DiffusionModel）是一种图像生成模型。与此前AI领域大名鼎鼎的GAN、VAE等算法，扩散模型另辟蹊径，其主要思想是一种先对图像增加噪声，再逐步去噪的过程。其中如何去噪还原原图像是算法的核心部分。最终算法能够从一张随机的噪声图像中生成图像。近年来，生成式AI的惊人增长将文本转换为图像生成、视频生成等领域的许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念，这是一种特殊的采样机制，克服了以前的方法中被

一键生成PPT！Kimi ：让「PPT民工」先浪起来 Aug 01, 2024 pm 03:28 PM

Kimi：一句话，十几秒钟，一份PPT就新鲜出炉了。PPT这玩意儿，可太招人烦了！开个碰头会，要有PPT；写个周报，要做PPT；拉个投资，要展示PPT；就连控诉出轨，都得发个PPT。大学更像是学了个PPT专业，上课看PPT，下课做PPT。或许，37年前丹尼斯・奥斯汀发明PPT时也没想到，有一天PPT竟如此泛滥成灾。吗喽们做PPT的苦逼经历，说起来都是泪。「一份二十多页的PPT花了三个月，改了几十遍，看到PPT都想吐」；「最巅峰的时候，一天做了五个PPT，连呼吸都是PPT」；「临时开个会，都要做个

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖 Jun 20, 2024 pm 05:43 PM

北京时间6月20日凌晨，在西雅图举办的国际计算机视觉顶会CVPR2024正式公布了最佳论文等奖项。今年共有10篇论文获奖，其中2篇最佳论文，2篇最佳学生论文，另外还有2篇最佳论文提名和4篇最佳学生论文提名。计算机视觉（CV）领域的顶级会议是CVPR，每年都会吸引大量研究机构和高校参会。据统计，今年共提交了11532份论文，2719篇被接收，录用率为23.6%。根据佐治亚理工学院对CVPR2024的数据统计分析，从研究主题来看，论文数量最多的是图像和视频合成与生成（Imageandvideosyn

从裸机到700亿参数大模型，这里有份教程，还有现成可用的脚本 Jul 24, 2024 pm 08:13 PM

我们知道LLM是在大规模计算机集群上使用海量数据训练得到的，本站曾介绍过不少用于辅助和改进LLM训练流程的方法和技术。而今天，我们要分享的是一篇深入技术底层的文章，介绍如何将一堆连操作系统也没有的「裸机」变成用于训练LLM的计算机集群。这篇文章来自于AI初创公司Imbue，该公司致力于通过理解机器的思维方式来实现通用智能。当然，将一堆连操作系统也没有的「裸机」变成用于训练LLM的计算机集群并不是一个轻松的过程，充满了探索和试错，但Imbue最终成功训练了一个700亿参数的LLM，并在此过程中积累

AI在用 | AI制作独居女孩生活Vlog，3天狂揽上万点赞量 Aug 07, 2024 pm 10:53 PM

机器之能报道编辑：杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。视频链接：https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ最近，独居女孩的生活Vlog在小红书上走红。一个插画风格的动画，再配上几句治愈系文案，短短几天就能轻松狂揽上

技术入门者必看：C语言和Python难易程度解析 Mar 22, 2024 am 10:21 AM

标题：技术入门者必看：C语言和Python难易程度解析，需要具体代码示例在当今数字化时代，编程技术已成为一项越来越重要的能力。无论是想要从事软件开发、数据分析、人工智能等领域，还是仅仅出于兴趣学习编程，选择一门合适的编程语言是第一步。而在众多编程语言中，C语言和Python作为两种广泛应用的编程语言，各有其特点。本文将对C语言和Python的难易程度进行解析

入门学习C语言的五款编程软件 Feb 19, 2024 pm 04:51 PM

C语言作为一门广泛应用的编程语言，对于想从事计算机编程的人来说是必学的基础语言之一。然而，对于初学者来说，学习一门新的编程语言可能会有些困难，尤其是缺乏相关的学习工具和教材。在本文中，我将介绍五款帮助初学者入门C语言的编程软件，帮助你快速上手。第一款编程软件是Code::Blocks。Code::Blocks是一个免费的开源集成开发环境（IDE），适用于

细数RAG的12个痛点，英伟达高级架构师亲授解决方案 Jul 11, 2024 pm 01:53 PM

检索增强式生成（RAG）是一种使用检索提升语言模型的技术。具体来说，就是在语言模型生成答案之前，先从广泛的文档数据库中检索相关信息，然后利用这些信息来引导生成过程。这种技术能极大提升内容的准确性和相关性，并能有效缓解幻觉问题，提高知识更新的速度，并增强内容生成的可追溯性。RAG无疑是最激动人心的人工智能研究领域之一。有关RAG的更多详情请参阅本站专栏文章《专补大模型短板的RAG有哪些新进展？这篇综述讲明白了》。但RAG也并非完美，用户在使用时也常会遭遇一些「痛点」。近日，英伟达生成式AI高级解决

See all articles

漫谈数据挖掘从入门到进阶

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题