KDD(数据库中的知识发现)是计算机科学的一个领域,它包括帮助人类从大量数字化数据中提取有用和以前未知的信息(即知识)的工具和理论。 KDD 由几个步骤组成,数据挖掘就是其中之一。数据挖掘是应用特定算法从数据中提取模式的应用。尽管如此,KDD 和数据挖掘可以互换使用。

KDD是什么?

KDD 是一个计算机科学领域,专门从原始数据中提取以前未知和有趣的信息。 KDD 是通过开发适当的方法或技术来尝试理解数据的整个过程。此过程将低级映射数据处理为更紧凑、更抽象和更有用的其他形式。这是通过创建简短的报告、对生成数据的过程进行建模以及开发可以预测未来案例的预测模型来实现的。
由于数据的指数级增长,尤其是在业务等领域,KDD 已成为将大量数据转化为商业智能的一个非常重要的过程,因为在过去的几十年中,手动提取模式似乎变得不可能。
例如,目前用于社交网络分析、欺诈检测、科学、投资、制造、电信、数据清理、体育、信息检索和营销等各种应用。 KDD通常用于回答诸如哪些主要产品可能有助于明年在V-Mart获得高利润的问题。

KDD流程步骤

数据库过程中的知识发现包括以下步骤,例如:

KDD

  • 目标识别:开发和理解应用领域和相关的先验知识,并从客户的角度识别 KDD 过程的目标。
  • 创建目标数据集:选择数据集或关注进行发现的一组变量或数据样本。
  • 数据清理和预处理:基本操作包括在适当的情况下去除噪声、收集建模或解释噪声所需的信息、决定处理缺失数据字段的策略以及考虑时间序列信息和已知变化。
  • 数据缩减和投影:根据任务的目的寻找有用的特征来表示数据。可以通过降维方法或转换来减少所考虑的变量的有效数量,或者可以找到数据的不变表示。
  • 匹配过程目标:KDD 与步骤 1 挖掘特定的方法。例如,总结、分类、回归、聚类等。
  • 建模和探索性分析和假设选择:选择算法或数据挖掘并选择一种或多种方法来搜索数据模式。这个过程包括决定哪些模型和参数可能是合适的(例如,确定的数据模型是真实向量上的不同模型)和数据挖掘方法的匹配,特别是与 KDD 过程的一般方法(例如,最终用户可能对理解模型的预测能力更感兴趣)。
  • 数据挖掘:以特定表示形式或一组这些表示形式搜索感兴趣的模式,包括分类规则或树、回归和聚类。用户可以极大地帮助数据挖掘方法正确地执行前面的步骤。
  • 演示和评估:解释挖掘的模式,可能返回到步骤 1 和 7 之间的某些步骤以进行额外的迭代。该步骤还可能涉及提取的模式和模型的可视化或给定绘制的模型的数据的可视化。
  • 对发现的知识采取行动:直接使用知识,将知识合并到另一个系统中以采取进一步行动,或简单地记录并报告给利益相关者。此过程还包括检查和解决与先前相信的(或提取的)知识的潜在冲突。

数据挖掘是什么?

数据挖掘,也称为数据库中的知识发现,是指从存储在数据库中的数据中提取隐含的、以前未知的和潜在有用的信息。
数据挖掘只是整个 KDD 过程中的一个步骤。应用程序的目标定义了两个主要的数据挖掘目标:发现验证。验证验证用户对数据的假设,而发现自动发现有趣的模式。
有四种主要的数据挖掘任务:聚类、分类、回归和关联(汇总)。聚类是从非结构化数据中识别相似的组。分类是可以应用于新数据的学习规则。回归是寻找对数据建模误差最小的函数。并且该关联寻找变量之间的关系。然后,需要选择具体的数据挖掘算法。可以根据目标选择不同的算法,如线性回归、逻辑回归、决策树和朴素贝叶斯。然后搜索一种或多种符号形式的感兴趣模式。最后,使用预测准确性或可理解性评估模型。

为什么需要数据挖掘?

我们可以处理的来自商业交易、科学数据、传感器数据、图片、视频等的信息量每天都在增加。因此,我们需要一个能够提取可用信息本质并自动生成的系统报告、视图或数据摘要,以便做出更好的决策。

为什么要在业务中使用数据挖掘?

数据挖掘在业务中用于通过以下方式做出更好的管理决策:

  • 自动汇总数据。
  • 发现原始数据中的模式。
  • 提取存储信息的本质。

为什么选择KDD和数据挖掘?

在一个日益由数据驱动的世界中,永远不会有太多数据这样的事情。 但是,只有当您可以解析、排序和筛选数据以推断实际值时,数据才有价值。
大多数行业都收集海量数据,但没有图形、图表和趋势数据模型的过滤机制,纯数据本身几乎没有用处。

然而,庞大的数据量和收集速度使得筛选数据具有挑战性。 因此,扩大分析能力以处理我们现在获得的大量数据已成为经济和科学上的必要条件。
由于计算机允许人类收集比我们处理能力更多的数据,我们自然而然地求助于计算技术来帮助我们从大量数据中提取有意义的模式和结构。

KDD和数据挖掘的区别

尽管 KDD 和数据挖掘这两个术语经常互换使用,但它们指的是两个相关但略有不同的概念。
KDD 是从数据中提取知识的整个过程,而数据挖掘是 KDD 过程中的一个步骤,它处理识别数据中的模式。
而数据挖掘只是基于KDD过程总体目标的特定算法的应用。
KDD是一个迭代过程,可以增强评估措施,提炼挖掘,整合和转换新数据以获得不同的和更合适的结果。

欢迎任何形式的转载,但请务必注明出处,尊重他人劳动成果。
转载请注明:文章转载自 有区别网 [http://www.vsdiffer.com]
本文标题:KDD和数据挖掘
本文链接:https://www.vsdiffer.com/vs/kdd-vs-data-mining.html
免责声明:以上内容仅是站长个人看法、理解、学习笔记、总结和研究收藏。不保证其正确性,因使用而带来的风险与本站无关!如本网站内容冒犯了您的权益,请联系站长,邮箱: ,我们核实并会尽快处理。