《R语言数据挖掘》读书笔记：一、预备知识

写在前面：此系列文章以《R语言数据挖掘》为主线，记录自己学习数据挖掘和算法的过程。

还引用了大量前辈的博客总结，先谢过。

第一章、预备知识

1.大数据

2.数据源

3.数据挖掘

数据挖掘算法与数据结构算法对比： https://www.cnblogs.com/Alear/p/10840230.html

数据挖掘领域十大经典算法 https://blog.csdn.net/fuqiuai/article/category/7488244

3.1特征提取

频繁项集：找出一堆项目中出现最为频繁、关系最为密切的一个子集。

相似项：一对数据集，他们拥有较大比例的共同元素。

3.2数据挖掘目标

使相同类中的点彼此之间距离较小，而不同的类中的点彼此之间距离较大。

3.3数据挖掘过程

CRISP-DM （Cross-industry Standard Process for Data Mining）跨行业数据挖掘标准过程

SEMMA（Sample,Explore,Modify,Model,Assess）采样、探索、修正、建模、评估

4.社交挖掘

5.文本挖掘

6.网络数据挖掘

7.R语言优缺点

8.统计学

8.1统计学与数据挖掘

统计模型用来总结数据集合，也可以用于验证数据挖掘结果

8.2统计学与机器学习

统计检验用来验证机器学习模型和评估机器学习算法，机器学习技术与标准统计技术可以有机结合。

8.3数据挖掘中统计学的局限性

在试图提取并不真正存在于数据中的信息时可能会犯错误。关键名词：Bonferroni原则

9.机器学习

9.1机器学习是什么

应用于机器学习算法的数据集称为训练集，它由一组成对的数据（x，y）构成，称为训练样本。

机器学习过程的目的就是发现一个函数y=f(x)，他能最好地预测与每一个x值相关联的y值。

9.2机器学习方法

决策树

感知器：一般是应用于向量x={x1,x2,...,xn}分量的阈值函数

神经网络：这些是有感知器的非循环网络，某些感知器的输出用作其他感知器的输入

基于实例的学习：此方法使用整个训练集来表示函数f

支持向量机：该类的结果是一个分类器，它对未知数更准确。

9.3机器学习架构

训练和测试、批处理与在线学习、特征选择、创建训练集

10.数据属性与描述

10.1数据描述

集中趋势的度量、数据的离散程度的度量（全距、四分位数、四分位数间距等）

11.数据清洗

数据清洗试图填补缺失值、发现异常值同时平滑噪声、修正数据中的不一致性。数据清洗通常是一个两步迭代的过程，由差异检测和数据变换构成。

12.数据集成

将多个数据源中的数据合并，形成一个一致的数据存储

13.数据降维

13.1特征值和特征向量

13.2主成分分析PCA

13.3奇异值分解SVD

13.4CUR分解

14.数据变化与离散化

把数据格式变成一些数据便于适合数据挖掘算法的格式，以便作为数据处理前特定数据挖掘算法的输入。

15.数据可视化

客服电话

电子邮件

请发表评论

全部评论

上一篇：

下一篇：

关于我们

产品与服务

解决方案

139-2527-9053