数据挖掘是什么?
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现在大量数据中搜索隐藏信息的目标。
数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。
知识发现过程由以下三个阶段组成:①数据准备;②数据挖掘;③结果表达和解释。数据挖掘可以与用户或知识库交互。
数据挖掘对象
数据的类型可以是结构化的、半结构化的,甚至是异构型的。发现知识的方法可以是数学的、非数学的,也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。 [4]
数据挖掘的对象可以是任何类型的数据源。可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,此类包含半结构化数据甚至异构性数据的数据源。 [4]
发现知识的方法可以是数字的、非数字的,也可以是归纳的。最终被发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。
数据挖掘步骤
在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊地实施并取得成功。很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型,来指导他们的用户一步步地进行数据挖掘工作。比如,SPSS公司的5A和SAS公司的SEMMA。
数据挖掘过程模型步骤主要包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施。下面让我们来具体看一下每个步骤的具体内容:
(1)定义问题。在开始知识发现之前最先的也是最重要的要求就是了解数据和业务问题。必须要对目标有一个清晰明确的定义,即决定到底想干什么。比如,想提高电子信箱的利用率时,想做的可能是“提高用户使用率”,也可能是“提高一次用户使用的价值”,要解决这两个问题而建立的模型几乎是完全不同的,必须做出决定。
(2)建立数据挖掘库。建立数据挖掘库包括以下几个步骤:数据收集,数据描述,选择,数据质量评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,维护数据挖掘库。
(3)分析数据。分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。如果数据集包含成百上千的字段,那么浏览分析这些数据将是一件非常耗时和累人的事情,这时需要选择一个具有好的界面和功能强大的工具软件来协助你完成这些事情。
(4)准备数据。这是建立模型之前的最后一步数据准备工作。可以把此步骤分为四个部分:选择变量,选择记录,创建新变量,转换变量。
(5)建立模型。建立模型是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立的数据集来验证模型的准确性。训练和测试数据挖掘模型需要把数据至少分成两个部分,一个用于模型训练,另一个用于模型测试。
(6)评价模型。模型建立好之后,必须评价得到的结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,需要进一步了解错误的类型和由此带来的相关费用的多少。经验证明,有效的模型并不一定是正确的模型。造成这一点的直接原因就是模型建立中隐含的各种假定,因此,直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意之后再向大范围推广。
(7)实施。模型建立并经验证之后,可以有两种主要的使用方法。第一种是提供给分析人员做参考;另一种是把此模型应用到不同的数据集上。
更多相关知识,请访问:PHP中文网!
Atas ialah kandungan terperinci 数据挖掘是什么?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Dengan kebangkitan data besar dan perlombongan data, semakin banyak bahasa pengaturcaraan telah mula menyokong fungsi perlombongan data. Sebagai bahasa pengaturcaraan yang pantas, selamat dan cekap, bahasa Go juga boleh digunakan untuk perlombongan data. Jadi, bagaimana untuk menggunakan bahasa Go untuk perlombongan data? Berikut adalah beberapa langkah dan teknik penting. Pemerolehan Data Pertama, anda perlu mendapatkan data. Ini boleh dicapai melalui pelbagai cara, seperti merangkak maklumat pada halaman web, menggunakan API untuk mendapatkan data, membaca data daripada pangkalan data, dsb. Bahasa Go disertakan dengan HTTP yang kaya

MySql ialah sistem pengurusan pangkalan data hubungan popular yang digunakan secara meluas dalam penyimpanan dan pengurusan data perusahaan dan peribadi. Selain menyimpan dan menanyakan data, MySql juga menyediakan fungsi seperti analisis data, perlombongan data dan statistik yang boleh membantu pengguna memahami dan menggunakan data dengan lebih baik. Data ialah aset berharga dalam mana-mana perniagaan atau organisasi, dan analisis data boleh membantu syarikat membuat keputusan perniagaan yang betul. MySql boleh melakukan analisis data dan perlombongan data dalam pelbagai cara Berikut ialah beberapa teknik dan alatan praktikal: Gunakan

区别:1、“数据分析”得出的结论是人的智力活动结果,而“数据挖掘”得出的结论是机器从学习集【或训练集、样本集】发现的知识规则;2、“数据分析”不能建立数学模型,需要人工建模,而“数据挖掘”直接完成了数学建模。

Apabila menggunakan alat BI, soalan yang sering dihadapi ialah: "Bagaimana kita boleh menghasilkan dan memproses data tanpa SQL? Bolehkah kita melakukan analisis perlombongan tanpa algoritma Apabila pasukan algoritma profesional melakukan perlombongan data, analisis data dan visualisasi juga akan dibentangkan?" fenomena berpecah-belah. Menyelesaikan kerja pemodelan algoritma dan analisis data dengan cara yang diperkemas juga merupakan cara yang baik untuk meningkatkan kecekapan. Pada masa yang sama, untuk pasukan gudang data profesional, kandungan data pada tema yang sama menghadapi masalah "pembinaan berulang, penggunaan dan pengurusan yang agak berselerak" - adakah terdapat cara untuk menghasilkan set data dengan tema yang sama dan kandungan berbeza pada masa yang sama masa dalam satu tugasan? Bolehkah set data yang dihasilkan digunakan sebagai input untuk mengambil bahagian semula dalam pembinaan data? 1. Keupayaan pemodelan visual DataWind disertakan dengan platform BI Da yang dilancarkan oleh Volcano Engine

Dengan kemunculan era data, semakin banyak data dikumpul dan digunakan untuk analisis dan ramalan. Data siri masa ialah jenis data biasa yang mengandungi siri data berdasarkan masa. Kaedah yang digunakan untuk meramal jenis data ini dipanggil teknik ramalan siri masa. Python ialah bahasa pengaturcaraan yang sangat popular dengan sains data yang kukuh dan sokongan pembelajaran mesin, jadi ia juga merupakan alat yang sangat sesuai untuk ramalan siri masa. Artikel ini akan memperkenalkan beberapa teknik ramalan siri masa yang biasa digunakan dalam Python dan menyediakan beberapa aplikasi praktikal

Dengan peningkatan kecerdasan buatan dan teknologi data besar, semakin banyak syarikat dan perniagaan memberi perhatian kepada cara menyimpan dan memproses data dengan cekap. Sebagai pangkalan data memori teragih berprestasi tinggi, Redis telah menarik lebih banyak perhatian dalam bidang kecerdasan buatan dan perlombongan data. Artikel ini akan memberikan pengenalan ringkas kepada ciri-ciri Redis dan amalannya dalam aplikasi kecerdasan buatan dan perlombongan data. Redis ialah pangkalan data NoSQL sumber terbuka, berprestasi tinggi, berskala. Ia menyokong pelbagai struktur data dan menyediakan caching, baris gilir mesej, pembilang, dsb.

PHP ialah bahasa skrip bahagian pelayan yang sangat baik yang digunakan secara meluas dalam bidang seperti pembangunan laman web dan pemprosesan data. Dengan perkembangan pesat Internet dan peningkatan jumlah data, cara cekap melaksanakan pengelasan teks automatik dan perlombongan data telah menjadi isu penting. Artikel ini akan memperkenalkan kaedah dan teknik untuk pengelasan teks automatik dan perlombongan data dalam PHP. 1. Apakah klasifikasi teks automatik dan perlombongan data? Pengelasan teks automatik merujuk kepada proses mengklasifikasikan teks secara automatik mengikut kandungannya, yang biasanya dilaksanakan menggunakan algoritma pembelajaran mesin. Perlombongan data merujuk kepada

Python ialah bahasa pengaturcaraan yang berkuasa yang boleh digunakan untuk pelbagai tugas perlombongan data. Peraturan persatuan ialah salah satu teknik perlombongan data biasa, yang bertujuan untuk menemui perkaitan antara titik data yang berbeza untuk memahami set data dengan lebih baik. Dalam artikel ini, kita akan membincangkan cara menggunakan peraturan persatuan dalam Python untuk perlombongan data. Apakah peraturan persatuan? Peraturan persatuan ialah teknik perlombongan data yang digunakan untuk menemui perkaitan antara titik data yang berbeza. Ia sering digunakan untuk analisis bakul beli-belah, di mana kita boleh menemui item yang sering dibeli bersama