首页 数据库 mysql教程 程序员怎能不知道什么是数据挖掘

程序员怎能不知道什么是数据挖掘

Jun 07, 2016 pm 04:10 PM
什么 数据挖掘 程序员

视乎已经听到或看到无数遍数据挖掘了,那么,你知道那是什么吗?关于什么是数据挖掘,很多学者和专家给出了不同的定义,以下我们列出几种常见的说法: 简单地说,数据挖掘是从大量数据中提取或挖掘知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名

视乎已经听到或看到无数遍数据挖掘了,那么,你知道那是什么吗?关于什么是数据挖掘,很多学者和专家给出了不同的定义,以下我们列出几种常见的说法:

 

“简单地说,数据挖掘是从大量数据中提取或‘挖掘’知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名为‘从数据中挖掘知识’,不幸的是它有点长。许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。” ——《数据挖掘:概念与技术》(FreeEIM J. Han and M. Kamber)

 

“数据挖掘就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。”——《数据挖掘原理》(David Hand, et al)

 

“运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫做数据挖掘。”——《数据挖掘--概念、模型、方法和算法》(Mehmed Kantardzic openeim)

 

“数据挖掘,简单地说,就是从一个数据库中自动地发现相关模式。”——《构建面向CRM的数据挖掘应用》(Alex Berson, et al)

 

“数据挖掘(DM)是从大型数据库中将隐藏的预测信息抽取出来的过程。”——《数据挖掘:机遇与挑战》(John Wang)

 

而作为数据挖掘领域的华人第一人,韩家炜教授在《数据挖掘:概念与技术》的教学幻灯片中,给出一个更清晰的定义:“数据挖掘,就是从大型数据库中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式的过程。”

 

这里我们可以看到数据挖掘具有以下几个特点:

 

l 基于大量数据:并非说小数据量上就不可以进行挖掘,实际上大多数数据挖掘的算法都可以在小数据量上运行并得到结果。但是,一方面过小的数据量完全可以通过人工分析来总结规律,另一方面来说,小数据量常常无法反映出真实世界中的普遍特性。

 

l 非平凡性:所谓非平凡,指的是挖掘出来的知识应该是不简单的,绝不能是类似某著名体育评论员所说的“经过我的计算,我发现了一个有趣的现象,到本场比赛结束为止,这届世界杯的进球数和失球数是一样的。非常的巧合!”那种知识。这点看起来勿庸赘言,但是很多不懂业务知识的数据挖掘新手却常常犯这种错误。

 

l 隐含性:数据挖掘是要发现深藏在数据内部的知识,而不是那些直接浮现在数据表面的信息。常用的BI工具,例如报表和OLAP,完全可以让用户找出这些信息。

 

l 新奇性:挖掘出来的知识应该是以前未知的,否则只不过是验证了业务专家的经验而已。只有全新的知识,才可以帮助企业获得进一步的洞察力。

 

l 价值性:挖掘的结果必须能给企业带来直接的或间接的效益。有人说数据挖掘只是“屠龙之技”,看起来神乎其神,却什么用处也没有。这只是一种误解,不可否认的是在一些数据挖掘项目中,或者因为缺乏明确的业务目标,或者因为数据质量的不足,或者因为人们对改变业务流程的抵制,或者因为挖掘人员的经验不足,都会导致效果不佳甚至完全没有效果。但大量的成功案例也在证明,数据挖掘的确可以变成提升效益的利器。

 

“数据挖掘”这个术语是在什么时候被大家普遍接受的,已经难以考证,大约在上世纪90年代开始兴起。其中还有一段趣话。在科研界,最初一直沿用“数据库中的知识发现”(即KDD,Knowledge Discovery in Database 5z20)。在第一届KDD国际会议中,委员会曾经展开讨论,是继续沿用KDD,还是改名为Data Mining(数据挖掘)?最后大家决定投票表决,采纳票数多的一方的选择。投票结果颇有戏剧性,一共14名委员,其中7位投票赞成KDD,另7位赞成Data Mining。最后一位元老提出“数据挖掘这个术语过于含糊,做科研应该要有知识”,于是在科研界便继续沿用KDD这个术语。而在商用领域,因为“数据库中的知识发现”显得过于冗长,就普遍采用了更加通俗简单的术语——“数据挖掘”。

 

严格地说,数据挖掘并不是一个全新的领域,它颇有点“新瓶装旧酒”的意味。组成数据挖掘的三大支柱包括统计学、机器学习和数据库等领域内的研究成果,其它还包含了可视化、信息科学等内容。数据挖掘纳入了统计学中的回归分析、判别分析、聚类分析以及置信区间等技术,机器学习中的决策树、神经网络等技术,数据库中的关联分析、序列分析等技术。

 

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

如何在技嘉主板上设置键盘启动功能 (技嘉主板启用键盘开机方式) 如何在技嘉主板上设置键盘启动功能 (技嘉主板启用键盘开机方式) Dec 31, 2023 pm 05:15 PM

技嘉的主板怎么设置键盘开机首先,要支持键盘开机,一定是PS2键盘!!设置步骤如下:第一步:开机按Del或者F2进入bios,到bios的Advanced(高级)模式普通主板默认进入主板的EZ(简易)模式,需要按F7切换到高级模式,ROG系列主板默认进入bios的高级模式(我们用简体中文来示范)第二步:选择到——【高级】——【高级电源管理(APM)】第三步:找到选项【由PS2键盘唤醒】第四步:这个选项默认是Disabled(关闭)的,下拉之后可以看到三种不同的设置选择,分别是按【空格键】开机、按组

i7 3770的最佳搭配显卡是什么? i7 3770的最佳搭配显卡是什么? Dec 29, 2023 am 09:12 AM

酷睿i73770配什么显卡好啊RTX3070是一款非常强大的显卡,它具有出色的性能和先进的技术。无论是玩游戏、渲染图形还是进行机器学习,RTX3070都能轻松应对。它采用了NVIDIA的Ampere架构,拥有5888个CUDA核心和8GB的GDDR6内存,能够提供流畅的游戏体验和高品质的图形效果。RTX3070还支持光线追踪技术,能够呈现逼真的光影效果。总之,RTX3070是一款强大而先进的显卡,适合那些追求高性能和高品质的用户使用。RTX3070是一款NVIDIA系列的显卡。采用第2代NVID

AI程序员哪家强?探索Devin、通义灵码和SWE-agent的潜力 AI程序员哪家强?探索Devin、通义灵码和SWE-agent的潜力 Apr 07, 2024 am 09:10 AM

2022年3月3日,距世界首个AI程序员Devin诞生不足一个月,普林斯顿大学的NLP团队开发了一个开源AI程序员SWE-agent。它利用GPT-4模型在GitHub存储库中自动解决问题。SWE-agent在SWE-bench测试集上的表现与Devin相似,平均耗时93秒,解决了12.29%的问题。SWE-agent通过与专用终端交互,可以打开、搜索文件内容,使用自动语法检查、编辑特定行,以及编写和执行测试。(注:以上内容为原内容微调,但保留了原文中的关键信息,未超过指定字数限制。)SWE-A

揭秘C语言的吸引力: 发掘程序员的潜质 揭秘C语言的吸引力: 发掘程序员的潜质 Feb 24, 2024 pm 11:21 PM

学习C语言的魅力:解锁程序员的潜力随着科技的不断发展,计算机编程已经成为了一个备受关注的领域。在众多编程语言中,C语言一直以来都备受程序员的喜爱。它的简单、高效以及广泛应用的特点,使得学习C语言成为了许多人进入编程领域的第一步。本文将讨论学习C语言的魅力,以及如何通过学习C语言来解锁程序员的潜力。首先,学习C语言的魅力在于其简洁性。相比其他编程语言而言,C语

选择适合音乐生的平板电脑 选择适合音乐生的平板电脑 Jan 10, 2024 pm 10:09 PM

音乐生用什么平板合适华为的ipad中的12.9寸音响是一款非常好的产品。它配备了四个扬声器,音效非常出色。而且,它属于pro系列,相比其他款式稍微更好一些。总体来说,ipadpro是一款非常优秀的产品。这款mini4手机的喇叭声音较小,效果一般般。不能用来外放音乐,还是需要依靠耳机来享受音乐。耳机音质好的会有稍微好一些的效果,而便宜的三四十元的耳机就无法满足要求了。钢琴电子谱用什么平板如果您想购买一台10寸以上的iPad,我推荐使用两款应用程序,分别是Henle和Piascore。Henle提供

cortana的功能是什么? cortana的功能是什么? Jan 15, 2024 pm 10:15 PM

在使用微软公司开发的Windows10操作系统过程中,不少使用者对于其中名为Cortana的全新技术感到好奇和疑惑,Cortana在中文语境中的正式称呼为“小娜”,实际上是Windows10系统内置的一款人工智能(AIassistant)服务程序cortana小娜常见问题及解决方法怎么开启小娜没反应解决步骤不支持中国解决方法搜索框放到cortana里的方法cortana是什么软件答:"Cortana小娜"是由微软公司精心打造的一款云端平台个人智能助手,具备登陆与非登陆两种使用模式。当您处于登录状

选择适合您的RX580的驱动版本 选择适合您的RX580的驱动版本 Dec 29, 2023 pm 05:34 PM

rx5808g安装什么驱动好20.5.1和20.4.2WHQL是指软件或驱动程序的版本号。这些版本号通常用于标识软件或驱动程序的更新或修复。在计算机领域中,WHQL代表Windows硬件质量实验室,它是微软公司用来测试和验证硬件和驱动程序的合规性和稳定性的机构。因此,20.5.1和20.4.2WHQL表示这些软件或驱动程序已经通过了微软的测试和验证,可以安全地使用在Windows操作系统中。AMDrx580显卡相对稳定驱动20.5.1和20.4.2WHQL是指软件或驱动程序的版本号。这些版本号通

i34150搭配1G独显适合玩哪些游戏(i34150适用于哪些游戏) i34150搭配1G独显适合玩哪些游戏(i34150适用于哪些游戏) Jan 05, 2024 pm 08:24 PM

i34150搭配1G独显能玩哪些游戏能玩lol等小游戏。GTX750和GTX750TI是非常合适的显卡选择。如果只是玩一些小游戏或者不玩游戏,建议使用i34150的集成显卡就可以了。一般来说,显卡和处理器的搭配差价并不是很大,所以选择合理的搭配是很重要的。如果需要2G显存,推荐选择GTX750TI;如果只需要1G显存,直接选择GTX750即可。GTX750TI可以看作是GTX750的增强版本,具有超频功能。i34150可以搭配什么显卡根据需求,如果你打算玩单机游戏,建议你考虑更换显卡。你可以选择

See all articles