在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.3节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。1.3 数据挖掘数据挖掘就是在数据中发现一个模型,它也称为探索性数据分析,即从数据中发现有用的、有效的、意想不到的且可以理解的知识。有些目标与其他科学,如统计学、人工智能、机器学习和模式识别是相同的。在大多数情况下,数据挖掘通常被视为一个算法问题。聚类、分类、关联规则学习、异常检测、回归和总结都属于数据挖掘任务的一部分。 1.3.1 特征提取这是为了提取数据最突出的特征并忽略其他的特征。下面是一些例子: 1.3.2 总结目标是简明且近似地对数据集进行总结(或者说摘要),比如聚类,它是这样一个过程:检查数据的集合并根据某些度量将数据点分类到相应的类中。目标就是使相同类中的点彼此之间的距离较小,而不同类中的点彼此之间的距离较大。 1.3.3 数据挖掘过程从不同的角度定义数据挖掘过程有两种比较流行的过程,其中更广泛采用的一种是CRISP-DM: 1.3.3.1 CRISP-DM这个过程共分6个阶段,如下图所示。它不是一成不变的,但通常会有大量的回溯。 让我们详细地看一看每个阶段: 数据理解(data understanding):这项任务评估数据需求,包括原始数据收集、数据描述、数据探索和数据质量的验证。 数据准备(data preparation):一旦获得数据,在上一步中确定数据源。然后需要对数据进行选择、清洗,并形成期望的形式和格式。 建模(modeling):可视化和聚类分析对于初步分析是有用的。可以应用像广义规则归纳(generalized rule induction)这样的工具开发初始关联规则。这是一个发现规则的数据挖掘技术,从条件因素与给定的决策或者结果之间的因果关系来对数据进行说明。也可以应用其他适用于数据的模型。 评估(evaluation):结果应该在第一阶段中的业务目标指定的环境下对模型结果进行评估。在大多数情况下,这会导致新需求的确定,转而返回到前一个阶段。 部署(deployment):可以使用数据挖掘来验证之前的假设或者知识。 1.3.3.2 SEMMA下图是SEMMA过程的概览。 让我们详细地看一看这些过程: 探索(explore):为了更好地理解数据集,在此步中搜索未预料的趋势和异常。 修正(modify):创建、选择和转换变量,以便专注于模型构建过程。 建模(model):搜索多种模型的组合,以便预测一个满意的结果。 评估(assess):根据实用性和可靠性对数据挖掘过程的结果进行评估。 |
请发表评论