在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第1章,第1.1节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 第1章使用R内置数据进行数据处理本书主要介绍在R语言平台上实现数据挖掘的方法和步骤。因为R是一种开源工具,所以对各层次的学习者而言,学习使用R语言进行数据挖掘都会很有意思。本书的设计宗旨是,读者可以从数据管理技术着手,从探索性数据分析、数据可视化和建模开始,直至建立高级预测模型,如推荐系统、神经网络模型等。本章将概述数据挖掘的原理及其与数据科学、分析学和统计建模的交叉。在本章,读者将初识R编程语言基础,并通过一个真实的案例,了解怎样读取和写入数据,熟悉编程符号和理解句法。本章还包含了R语言脚本,可供读者动手实践,以加深对原理和术语的理解,领会数据挖掘任务的来龙去脉。本章之所以这样设计,是为了让那些编程基础薄弱的读者也可以通过执行R语言命令来完成一些数据挖掘任务。 本章将简述数据挖掘的意义以及它与其他领域(如数据科学、分析学和统计建模)的关系,还会就使用R进行数据管理的话题展开讨论。通过学习本章的内容,读者应掌握以下知识点:
1.1 什么是数据挖掘数据挖掘可以定义为这样的过程:从现有数据库中“解读”出有意义的信息,然后加以分析,并将结果提供给业务人员。从不同数据源分析数据,进而归纳出有意义的信息和洞见——这属于统计知识的探索,不仅有助于业务人员,也有助于多个群体,如统计分析员、咨询师和数据科学家。通常,数据库中的知识探索过程是不可预知的,对探索结果也可以从多个角度进行解读。 硬件设备、平板、智能手机、计算机、传感器等电子设备的大规模增长促使数据以超前的速度产生与收集。随着现代计算机处理能力的提升,可以对增长的数据进行预处理和模型化,以解决与商业决策过程相关的各种问题。数据挖掘也可以定义为利用统计方法、机器学习技术、可视化和模式匹配技术从离散的数据库和信息资源库中进行知识密集型搜索。 零售商店内所有物品的条形码、制造业所有货物的射频识别标签、推特简讯、Facebook上的贴子、遍布城市用于监控天气变化的传感器、录像分析、基于观看信息统计的视频推荐……这些结构化和非结构化数据的增长创造了一个催生各种各样的工具、技术和方法的生态系统。前文提到应用于各种数据的数据挖掘技术,不仅提供了有用的数据结构信息,也就企业未来可采取的决策提出了建议。 数据挖掘包括以下几个步骤: 1)从数据库和数据仓库中抽取需要的数据。 在讨论了数据挖掘的流程和核心组成之后,我们也需注意到实施数据挖掘时可能遇到的挑战,比如运算效率、数据库的非结构化以及怎样将其与结构化数据结合、高维数据的可视化问题,等等。这些问题可以通过创新的方法来解决。本书在项目实践中会涉及一些解决方法。 它是怎么与数据科学、分析和统计建模关联的数据科学是个很宽泛的话题,其中也包含了一些数据挖掘的概念。根据之前对数据挖掘的定义,即它是从数据中发现隐藏模式,找出有意思的关联并能提供有用的决策支持的过程,可知数据挖掘是数据科学项目的子集,涉及模式识别、特征提取、聚类以及监督分类等技术。分析学和统计建模包含了很多预测模型——基于分类的模型,通过应用这些方法解决实际业务问题。数据科学、分析学和统计建模、数据挖掘这些术语之间明显是有重叠的,所以不应该把它们看作完全独立的术语。根据项目要求和特定的业务问题,它们重叠的部分可能有所不同。但总的来说,所有概念都是相关联的。数据挖掘过程也包括基于统计和机器学习方法来提取数据,提取自动化规则,也需要利用好的可视化方法来展示数据。 |
请发表评论