数据挖掘的过程是什么?通俗易懂

作者:大数据DT
来源:大数据DT

导读:数据挖掘过程包含数据清洗、特征提取、算法设计等多个阶段,本文将讨论这些阶段。

01 数据挖掘过程

典型数据挖掘应用的过程包含以下几个阶段。

1. 数据采集

数据采集工作可能是使用像传感器网络这样的专门硬件、手工录入的用户调查,或者如Web爬虫那样的软件工具来收集文档。虽然这个阶段与具体应用息息相关,但常常落在数据挖掘分析师们所考虑的范围之外,而这个阶段对数据挖掘过程也是至关重要的,因为这一阶段所做的选择会明显地影响整个数据挖掘过程

采集阶段产生的数据通常会先存入数据库,广义上称为数据仓库,然后进行处理。

2. 特征提取和数据清洗

上述采集阶段得到的数据,其格式往往不适合直接进行处理。例如,采集来的数据可能是使用复杂编码的日志或自由格式的文档,并在许多情况下,各种类型的数据又任意地混合在一起,形成自由格式的文档。

要使这样的数据适合进一步加工,有必要把它们转化为对数据挖掘算法较为合适的格式,比如多维数据时序数据或者半结构化数据等。

多维数据是最常见的格式,其不同的字段对应于可以称为特征、属性或维度的各种测量属性。抽取这些特征是数据挖掘的一个至关重要的阶段,而特征提取阶段通常与数据清洗阶段并行进行,以便估计或校正丢失的数据以及错误的数据。

另外,在许多情况下,数据可能从多个来源聚集而成,进行处理时需要把它们转换为统一的格式。上述过程的最终结果是一个有较好结构的数据集,可以由计算机程序有效地使用。在特征提取阶段之后,数据可以存回到数据库中用于进一步的处理。

3. 分析处理和算法

数据挖掘过程的最后一步是为处理过的数据设计有效的分析方法。在许多情况下,不太可能将手头的应用直接转化成一个标准的数据挖掘问题,比如转化成关联模式挖掘聚类分类以及异常检测这四个“超级问题”中的某一个。

但这四个超级问题具有很广泛的覆盖性,可以构成数据挖掘任务的基本模块,而大多数应用都能由这些作为基本模块的组件拼搭起来实现。

整个数据挖掘过程可由图1-1表示。请注意,图中的分析处理模块显示了对特定应用设计的、由多个基本模块组合而成的解决方案,这一部分依赖于分析师的技能。通常的做法是使用四个主要问题中的一个或多个作为基本模块来搭建。
在这里插入图片描述
▲图1-1 数据处理流水线

需要承认的是,并非所有的数据挖掘应用都能用这四个主要问题来搭建解决方案,但许多应用可以这样解决,因此有必要给予这四个主要问题一个特殊的地位。下面我们使用一个有关推荐的应用实例来解释数据挖掘的整个过程。

  • 考虑这样一个网上零售商的场景,此零售商保存了客户访问其网站的访问日志,还收集了客户的基本情况信息。假设网站的每个网页对应一个商品,客户访问一个网页可能表明对相应的商品感兴趣。零售商希望通过对客户的个人资料及其购买行为的分析,有针对性地给客户推荐商品。

解决问题的流程示例:分析师的第一步工作是收集两种不同来源的数据,其一是从该网站的日志系统中抽取的日志,其二是从零售商的数据库中抽取的客户个人资料。这里的一个难题就是这两种数据使用了非常不同的数据格式,放到一起处理很不容易。例如,一条日志可以以下面这种形式出现。
在这里插入图片描述
日志中可能包含成千上万个这种条目,上面这一条目显示IP地址为98.206.207.157的客户访问了productA.htm这一网页。要确认使用一个IP地址的客户是谁,可以通过之前的登录信息,或者通过网页的cookie记录,甚至直接通过IP地址本身,但这个确认过程可能充满噪声,不可能总是产生准确的结果。

作为数据清洗和提取过程的一部分,分析师还需要设计算法对不同的日志条目进行有效的过滤,以便只使用那些提供准确结果的数据段,因为原始日志中包含很多对零售商可能没有任何用处的额外信息。

在特征提取阶段,零售商决定从网页访问日志中提取特征,为每个客户创建一条记录,其中将每个商品设置为一个属性,记录此客户对相应商品网页的访问次数。

因此,这个特征抽取需要对每条原始日志进行处理,并将多条日志中抽取的特征进行聚合。之后在数据集成时,再将这些属性数据添加到零售商的客户数据库中去。这个客户数据库包含客户个人资料,倘若个人资料记录中缺少某些条目,则需要为其进行进一步的数据清洗。

最终,我们得到一个数据集,将客户个人资料的属性及客户对商品访问次数的属性整合在一起

此时,分析师需要决定如何使用此清洗过的数据集,为客户提供推荐。分析师可以将类似的客户分成几类群体,并根据每类群体的购买行为提出推荐意见。

聚类分析在这里可以作为一个基本模块,用于确定类似客户的群体。对每一个客户,可以为其推荐该客户所在群体作为一个整体访问最多次的商品(这里指的是商品网页)。这个案例包含了一个完整的数据挖掘流程。

有许多优美的提供推荐的方法,它们在不同的情况下各有优劣,因此,整个数据挖掘过程是一门艺术,很大程度由分析师的技能所决定,而不完全由特定的技术或基本模块所左右,这种技能只能通过在不同应用需求下处理各类不同数据的实践中获得

02 数据预处理阶段

数据预处理阶段也许是数据挖掘过程中最关键的一个阶段,然而,这个阶段很少得到应有的探讨,因为大部分数据挖掘讨论的重点放在了数据分析方面。这一阶段在数据采集后就开始,包括以下步骤。

1. 特征提取

分析师可能面临大量的原始文件、系统日志、商业交易,但几乎没有任何指导性的快速入门方法将这些原始数据转化为有意义的数据。这一步骤高度依赖于分析师的抽象能力,以找出与手头应用最相关的特征。

例如,在信用卡欺诈检测应用中,收费金额、重复频率以及位置信息往往是找出欺诈的有效指标,而许多其他特征信息也许就用处不大。因此,提取正确的特征往往是个技术活,需要对手头应用相关的领域有充分的了解

2. 数据清洗

上述特征提取得到的数据中可能含有错误,也有些条目可能在采集及提取时丢失。因此,我们可能要丢弃一些含有错误的数据记录,或者对缺失的条目进行估计填充,并剔除数据中的不一致性。

3. 特征选择与转换

当数据维度很高时,很多数据挖掘算法就会失效。而且当数据维度很高时,数据噪声会增加,可能带来数据挖掘的错误。因此,需要使用一些方法,移除与应用无关的特征,或者将数据变换到一个新的维度空间中,使数据分析更容易进行

另一个相关的问题是数据转换,将一些属性转换为另一种相同或类似数据类型的属性。比如将年龄数值转化成年龄段,可能对分析更有效也更便利。

数据清洗过程中通常需要使用对缺失数据进行估计的统计方法,此外,为确保挖掘结果的准确性,通常需要剔除错误的数据条目。

由于特征选择和数据转换高度依赖于具体的分析问题,不应视为数据预处理的一部分,甚至在某些情况下,特征选择可能与具体算法或方法紧密结合,以一种包装模型或嵌入模型的形式出现。但在一般情况下,会在应用具体挖掘算法之前执行特征选择阶段。

03 分析阶段

一个主要的挑战是每个数据挖掘应用都是独特的,很难为很多类应用打造出一个灵活的、可复用的挖掘技术。然而,我们发现有些数据挖掘方法在各类应用中反复出现,即所谓的“超级问题”或数据挖掘的基本模块。

怎样在特定的数据挖掘应用中使用这些基本方法很大程度上取决于分析师的技能和经验,所以虽然可以对这些基本模块进行很好的描述,但怎样在实际应用中使用它们,只能通过实践来学习。

数据挖掘竞赛-优胜解决方案实战
06-11
数据挖掘竞赛-优胜解决方案实战,课程全部章节内容皆为项目实战,每章带领大家从零开始完成一套解决方案分析与实际建模流程。选择当下非常主流的Python语言及其工具包当做核心工具,整体风格通俗易懂,旨在用最接地...
数据挖掘的基本步骤是什么
G171104的博客
07-02 372
建立模型是一个反复的过程。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立的数据集来验证模型的准确性。比如,想提高电子信箱的利用率时,想做的可能是“提高用户使用率”,也可能是“提高一次用户使用的价值”,要解决这两个问题而建立的模型几乎是完全不同的,必须做出决定。建立数据挖掘包括以下几个步骤:数据收集,数据描述,选择,数据质量评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,维护数据挖掘库。
数据挖掘的步骤有哪些?
weixin_51689029的博客
12-15 1万+
所谓数据挖掘就是从海量的数据中,找到隐藏在数据里有价值的信息。因为这个数据是隐式的,因此想要挖掘出来并不简单。那么,如何进行数据挖掘呢?数据挖掘的步骤有哪些呢?一般来讲,数据挖掘需要经历数据收集、数据可视化、数据预处理、准备模型输入以及训练模型五大步骤,下面让我们来详细分析一下吧!通俗来讲,我们把数据挖掘可以看作是想要炒一盘可口的菜肴。那么,首先第一步就是去菜市场买菜。同样的,我们要从数据中找到需要的信息,第一步就是收集数据。就好比你去买菜的时候,肯定要好好挑选一下,争取买到比较新鲜的蔬菜。
快速解析数据挖掘,最短时间明白什么是数据挖掘------上
最新发布
yuanbenshidiaos的博客
08-12 1098
样本数量:共150个样本。特征数量:每个样本有4个特征,分别是花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。类别:数据集包含3个不同的鸢尾花品种,分别是山鸢尾(Iris setosa)、变色鸢尾(Iris versicolor)和维吉尼亚鸢尾(Iris virginica)。目标变量类型:线性回归适用于连续的数值型目标变量,而逻辑回归适用于离散的类别型目标变量。损失函数。
通俗易懂数据挖掘过程是什么?
程序员小麦的博客
07-07 2282
导读:数据挖掘过程包含数据清洗、特征提取、算法设计等多个阶段,本文将讨论这些阶段。
数据挖掘的基本流程
12-21 1万+
一、数据挖掘过程可以分成以下 6 个步骤。 1. 商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们 要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。 2. 数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证 等。这有助于你对收集的数据有个初步的认知。 3. 数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据...
数据挖掘过程有哪些
中琛魔方大数据
11-29 5446
  随着大数据时代的到来,各行各业都无法避免数据洪流的洗礼,一场无声的数据变革在悄然发生。谁能更好地将隐藏在数据背后有价值的信息挖掘出来,就意味着谁能在这种变化中获得主动权,能更快更好地发展。在这背景下,加强对大数据挖掘已成为许多企业迫切需要进行的任务。   以下将从数据挖掘的概念、数据挖掘分类和数据挖掘过程三个方面进行分析,帮助您更好地理解数据挖掘。   一、数据挖掘的概念   数据挖掘是指从数据库的大量数据中揭示隐含和潜在信息的非凡过程。从数据中获取有用的信息和知识,协助事务运作,改进商品,协助企
高校资产数据挖掘的研究与实现.pdf
07-14
第四阶段是分析研究,分析挖掘出的知识和结果,确定其可信度、支持度和在领域中的重要性,并以通俗易懂的方式呈现。 第五阶段是应用,即将挖掘出的知识应用于实际的研究和信息系统中。 3. 数据挖掘在资产管理中的...
贝叶斯公式在数据挖掘中的应用.pdf
07-14
这些工作往往占据了整个数据挖掘过程中的大部分时间和精力。例如,在收集有关发烧的疾病数据时,需要整理和分析可能引起发烧的各种疾病的发病率和与发烧相关的概率,然后根据贝叶斯公式对某种疾病的可能性进行推断。...
粗糙集理论下的海量数据挖掘算法.pdf
07-14
在现代信息处理领域,数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含的、未知的、潜在的有用信息和知识的过程。粗糙集理论提供了一种处理不完整和不确定信息的数学工具,尤其适用...
数据挖掘的一个完整过程
04-01
数据挖掘的一个完整过程 数据挖掘的一个完整过程
从海量数据大数据-数据挖掘算法、过程及应用案例
04-14
从海量数据大数据-数据挖掘算法、过程及应用案例,
数据挖掘竞赛-优胜解决方案实战视频教程
06-16
数据挖掘竞赛-优胜解决方案实战视频教程,课程全部章节内容皆为项目实战,每章带领大家从零开始完成一套解决方案分析与实际建模流程。选择当下非常主流的Python语言及其工具包当做核心工具,整体风格通俗易懂,旨在...
数据挖掘基本流程
厚积薄发
05-12 7137
数据挖掘基本流程 数据挖掘基本流程: 商业理解:从商业的角度理解项目需求,通过数据挖掘来帮助业务。 数据理解:尝试手机部分数据,对其进行探索,从而对数据有个初步认知。 数据准备:收集数据并对其清洗、集成等操作,完成数据挖掘前的准备。 模型建立:选择和应用各种算法模型,并进行优化,以得到更好分类结果。 模型评估:对模型进行评价,并检查模型的每个步骤,确认模型是否实现商业目标。 上线发布:通过数据挖...
数据清洗:数据挖掘的前期准备工作
weixin_42108731的博客
09-14 2126
数据科学家80%时间都花费在了这些清洗任务上?
数据挖掘过程
lvweishuai001的博客
04-12 1487
数据挖掘过程基本分为以下6个步骤: 1. 商业理解:数据挖掘不是我们的目的,我们的目的是更好的帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,在对数据挖掘的目标进行定义 2.数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于对收集的数据有个初步的认知。 3.数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。 ...
数据挖掘的一般过程
热门推荐
evillist的博客
06-15 6万+
数据挖掘的一般过程本文主要参考了一篇文章(最后附),那篇文章不太全面,因此加入了自己一点理解。由于实践经验太少,水平有限,希望大神指正。 1. 数据集选取或构造根据任务的目的,选择数据集。或者从实际中构造自己需要的数据。2. 数据预处理确定数据集后,就开始对数据进行预处理使得数据能够为我们所用了。数据预处理提高数据质量:准确性、完整性和一致性,包括数据清理、数据集成、数据规约和数据变换方法。 (
数据挖掘的一般步骤
机器之我心的博客
06-24 1万+
     从数据本身来考虑,通常数据挖掘需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示等 8 个步骤。    (1)信息收集:根据确定的数据分析对象抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。    (2)数据集成:把不同来源、格式、特点性质...
写文章

分类专栏

  • 【理论科普】大数据 | 云原生 | 机器学习 | 人工智能 89篇
  • 话题达人 4篇
  • 技术之外的江湖 12篇
  • CS-408
  • 八股文 19篇
  • 数据结构 13篇
  • 计算机网络 17篇
  • LeetCode 44篇
  • 大数据
  • Hadoop 17篇
  • Zookeeper 4篇
  • Hive 27篇
  • Flume 7篇
  • Kafka 7篇
  • HBase 9篇
  • Spark 19篇
  • Flink 15篇
  • Python Language 22篇
  • 深入理解Java虚拟机 46篇
  • BUG生产户 1篇
  • 随记 25篇

最新评论

  • Flink SQL Upsert 出现乱序问题如何解决?分析、优化建议

    qq_29496541: 这里没太明白 具体思路是,将一些维表数据先生成视图,再以 upsert key shuffle 到主链路上,这样,乱序就只会发生在生成视图的逻辑里面

  • Flink SQL Upsert 出现乱序问题如何解决?分析、优化建议

    qq_29496541: 具体思路是,将一些维表数据先生成视图,再以 upsert key shuffle 到主链路上,这样,乱序就只会发生在生成视图的逻辑里面

  • 五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?

    shuiyibuduo: 现在AI可以调用脚本计算数学题了,正确率大大提高

  • CDH6.3.2 在线安装 hadoop Lzo压缩

    KEVIN_WANG333: 这样 操作之后 flink 起不起来了

  • 如何理解元数据、数据元、元模型、数据字典、数据模型这五个的关系?如何进行数据治理呢?数据治理该从哪方面入手呢?

    zhangliangorc: 写的很棒!

大家在看

  • 【二等奖论文】2024年华为杯研赛D题成品论文(后续会更新)
  • 2--SpringBoot项目中员工管理 详解(一) 687
  • (算法)岛屿数量————<BFS>
  • 哔哩哔哩自动批量删除抽奖动态——使用篇 455
  • 网络安全自学入门:(超详细)从入门到精通学习路线&规划,学完即可就业 768

最新文章

  • 模型、算法、数据模型、模型结构是什么?它们之间有什么关联和区别?
  • TEAM标签管理体系是什么?如何进行数据权益的保护?
  • 数据指标是什么?为什么要建立指标体系?什么阶段建设?路径是什么?
2024年4篇
2023年91篇
2022年96篇
2021年149篇
2020年59篇

目录

目录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家普陀区通用玻璃钢雕塑推荐福建玻璃钢雕塑售价玻璃钢浮雕喷泉不锈钢雕塑公司上海古代玻璃钢人物雕塑南京定制玻璃钢雕塑品牌企业宣城酒店装饰玻璃钢雕塑邵阳小区玻璃钢雕塑价格郸城玻璃钢雕塑厂家广场玻璃钢雕塑报价汕头玻璃钢仿真雕塑北京展会玻璃钢雕塑工厂山西玻璃钢动物雕塑商场美陈dp海南玻璃钢气球雕塑北京商场美陈代理公司六安景观玻璃钢雕塑多少钱商场美陈一般都是在哪里做的不锈钢人物玻璃钢卡通雕塑定做郑州太湖石玻璃钢彩绘雕塑小品莆田玻璃钢广场雕塑定制玻璃钢雕塑和石雕雕塑的优点越秀区历史玻璃钢人物雕塑绥化玻璃钢雕塑厂家商场dp点美陈摆件中山玻璃钢花盆成都秋季商场美陈武威玻璃钢景观雕塑价格湖北潜江玻璃钢动物雕塑龙井道路玻璃钢花盆滨海玻璃钢花盆花器香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化