R语言数据挖掘
审校者简介
1 预备知识
1.1 大数据
1.2 数据源
1.3 数据挖掘
1.3.1 特征提取
1.3.2 总结
1.3.3 数据挖掘过程
1.4 社交网络挖掘
1.5 文本挖掘
1.5.1 信息检索和文本挖掘
1.5.2 文本挖掘预测
1.6 网络数据挖掘
1.7 为什么选择R
1.8 统计学
1.8.1 统计学与数据挖掘
1.8.2 统计学与机器学习
1.8.3 统计学与R语言
1.8.4 数据挖掘中统计学的局限性
1.9 机器学习
1.9.1 机器学习方法
1.9.2 机器学习架构
1.10 数据属性与描述
1.10.1 数值属性
1.10.2 分类属性
1.10.3 数据描述
1.10.4 数据测量
1.11 数据清洗
1.11.1 缺失值
1.11.2 垃圾数据、噪声数据或异常值
1.12 数据集成
1.13 数据降维
1.13.1 特征值和特征向量
1.13.2 主成分分析
1.13.3 奇异值分解
1.13.4 CUR分解
1.14 数据变换与离散化
1.14.1 数据变换
1.14.2 标准化数据的变换方法
1.14.3 数据离散化
1.15 结果可视化
1.16 练习
1.17 总结
2 频繁模式、关联规则和相关规则挖掘
2.1 关联规则和关联模式概述
2.1.1 模式和模式发现
2.1.2 关系或规则发现
2.2 购物篮分析
2.2.1 购物篮模型
2.2.2 Apriori算法
2.2.3 Eclat算法
2.2.4 FP-growth算法
2.2.5 基于最大频繁项集的GenMax算法
2.2.6 基于频繁闭项集的Charm算法
2.2.7 关联规则生成算法
2.3 混合关联规则挖掘
2.3.1 多层次和多维度关联规则挖掘
2.3.2 基于约束的频繁模式挖掘
2.4 序列数据集挖掘
2.4.1 序列数据集
2.4.2 GSP算法
2.5 R语言实现
2.5.1 SPADE算法
2.5.2 从序列模式中生成规则
2.6 高性能算法
2.7 练习
2.8 总结
3 分类
3.1 分类
3.2 通用决策树归纳法
3.2.1 属性选择度量
3.2.2 决策树剪枝
3.2.3 决策树生成的一般算法
3.2.4 R语言实现
3.3 使用ID3算法对高额度信用卡用户分类
3.3.1 ID3算法
3.3.2 R语言实现
3.3.3 网络攻击检测
3.3.4 高额度信用卡用户分类
3.4 使用C4.5算法进行网络垃圾页面检测
3.4.1 C4.5算法
3.4.2 R语言实现
3.4.3 基于MapReduce的并行版本
3.4.4 网络垃圾页面检测
3.5 使用CART算法判断网络关键资源页面
3.5.1 CART算法
3.5.2 R语言实现
3.5.3 网络关键资源页面判断
3.6 木马程序流量识别方法和贝叶斯分类
3.6.1 估计
3.6.2 贝叶斯分类
3.6.3 R语言实现
3.6.4 木马流量识别方法
3.7 垃圾邮件识别和朴素贝叶斯分类
3.7.1 朴素贝叶斯分类
3.7.2 R语言实现
3.7.3 垃圾邮件识别
3.8 基于规则的计算机游戏玩家类型分类和基于规则的分类
3.8.1 从决策树变换为决策规则
3.8.2 基于规则的分类
3.8.3 序列覆盖算法
3.8.4 RIPPER算法
3.8.5 计算机游戏玩家类型的基于规则的分类
3.9 练习
3.10 总结
4 高级分类算法
4.1 集成方法
4.1.1 Bagging算法
4.1.2 Boosting和AdaBoost算法
4.1.3 随机森林算法
4.1.4 R语言实现
4.1.5 基于MapReduce的并行版本
4.2 生物学特征和贝叶斯信念网络
4.2.1 贝叶斯信念网络算法
4.2.2 R语言实现
4.2.3 生物学特征
4.3 蛋白质分类和k近邻算法
4.3.1 kNN算法
4.3.2 R语言实现
4.4 文档检索和支持向量机
4.4.1 支持向量机算法
4.4.2 R语言实现
4.4.3 基于MapReduce的并行版本
4.4.4 文档检索
4.5 基于频繁模式的分类
4.5.1 关联分类
4.5.2 基于判别频繁模式的分类
4.5.3 R语言实现
4.5.4 基于序列频繁项集的文本分类
4.6 基于反向传播算法的分类
4.6.1 BP算法
4.6.2 R语言实现
4.6.3 基于MapReduce的并行版本
4.7 练习
4.8 总结
5 聚类分析
5.1 搜索引擎和k均值算法
5.1.1 k均值聚类算法
5.1.2 核k均值聚类算法
5.1.3 k模式聚类算法
5.1.4 R语言实现
5.1.5 基于MapReduce的并行版本
5.1.6 搜索引擎和网页聚类
5.2 自动提取文档文本和k中心点算法
5.2.1 PAM算法
5.2.2 R语言实现
5.2.3 自动提取和总结文档文本
5.3 CLARA算法及实现
5.3.1 CLARA算法
5.3.2 R语言实现
5.4 CLARANS算法及实现
5.4.1 CLARANS算法
5.4.2 R语言实现
5.5 无监督的图像分类和仿射传播聚类
5.5.1 仿射传播聚类
5.5.2 R语言实现
5.5.3 无监督图像分类
5.5.4 谱聚类算法
5.5.5 R语言实现
5.6 新闻分类和层次聚类
5.6.1 凝聚层次聚类
5.6.2 BIRCH算法
5.6.3 变色龙算法
5.6.4 贝叶斯层次聚类算法
5.6.5 概率层次聚类算法
5.6.6 R语言实现
5.6.7 新闻分类
5.7 练习
5.8 总结
6 高级聚类分析
6.1 电子商务客户分类分析和DBSCAN算法
6.1.1 DBSCAN算法
6.1.2 电子商务客户分类分析
6.2 网页聚类和OPTICS算法
6.2.1 OPTICS算法
6.2.2 R语言实现
6.2.3 网页聚类
6.3 浏览器缓存中的访客分析和DENCLUE算法
6.3.1 DENCLUE算法
6.3.2 R语言实现
6.3.3 浏览器缓存中的访客分析
6.4 推荐系统和STING算法
6.4.1 STING算法
6.4.2 R语言实现
6.4.3 推荐系统
6.5 网络情感分析和CLIQUE算法
6.5.1 CLIQUE算法
6.5.2 R语言实现
6.5.3 网络情感分析
6.6 观点挖掘和WAVE聚类算法
6.6.1 WAVE聚类算法
6.6.2 R语言实现
6.6.3 观点挖掘
6.7 用户搜索意图和EM算法
6.7.1 EM算法
6.7.2 R语言实现
6.7.3 用户搜索意图
6.8 客户购买数据分析和高维数据聚类
6.8.1 MAFIA算法
6.8.2 SURFING算法
6.8.3 R语言实现
6.8.4 客户购买数据分析
6.9 SNS和图与网络数据聚类
6.9.1 SCAN算法
6.9.2 R语言实现
6.9.3 社交网络服务
6.10 练习
6.11 总结
7 异常值检测
7.1 信用卡欺诈检测和统计方法
7.1.1 基于似然的异常值检测算法
7.1.2 R语言实现
7.1.3 信用卡欺诈检测
7.2 活动监控——涉及手机的欺诈检测和基于邻近度的方法
7.2.1 NL算法
7.2.2 FindAllOutsM算法
7.2.3 FindAllOutsD算法
7.2.4 基于距离的算法
7.2.5 Dolphin算法
7.2.6 R语言实现
7.2.7 活动监控与手机欺诈检测
7.3 入侵检测和基于密度的方法
7.3.1 OPTICS-OF算法
7.3.2 高对比度子空间算法
7.3.3 R语言实现
7.3.4 入侵检测
7.4 入侵检测和基于聚类的方法
7.4.1 层次聚类检测异常值
7.4.2 基于k均值的算法
7.4.3 ODIN算法
7.4.4 R语言实现
7.5 监控网络服务器的性能和基于分类的方法
7.5.1 OCSVM算法
7.5.2 一类最近邻算法
7.5.3 R语言实现
7.5.4 监控网络服务器的性能
7.6 文本的新奇性检测、话题检测与上下文异常值挖掘
7.6.1 条件异常值检测算法
7.6.2 R语言实现
7.6.3 文本的新奇性检测与话题检测
7.7 空间数据中的集体异常值
7.7.1 路径异常值检测算法
7.7.2 R语言实现
7.7.3 集体异常值的特征
7.8 高维数据中的异常值检测
7.8.1 Brute-Force算法
7.8.2 HilOut算法
7.8.3 R语言实现
7.9 练习
7.10 总结
8 流数据、时间序列数据和序列数据挖掘
8.1 信用卡交易数据流和STREAM算法
8.1.1 STREAM算法
8.1.2 单通道法聚类算法
8.1.3 R语言实现
8.1.4 信用卡交易数据流
8.2 预测未来价格和时间序列分析
8.2.1 ARIMA算法
8.2.2 预测未来价格
8.3 股票市场数据和时间序列聚类与分类
8.3.1 hError算法
8.3.2 基于1NN分类器的时间序列分类
8.3.3 R语言实现
8.3.4 股票市场数据
8.4 网络点击流和挖掘符号序列
8.4.1 TECNO-STREAMS算法
8.4.2 R语言实现
8.4.3 网络点击流
8.5 挖掘事务数据库中的序列模式
8.5.1 PrefixSpan算法
8.5.2 R语言实现
8.6 练习
8.7 总结
9 图挖掘与网络分析
9.1 图挖掘
9.1.1 图
9.1.2 图挖掘算法
9.2 频繁子图模式挖掘
9.2.1 gPLS算法
9.2.2 GraphSig算法
9.2.3 gSpan算法
9.2.4 最右路径扩展和它们的支持
9.2.5 子图同构枚举算法
9.2.6 典型的检测算法
9.2.7 R语言实现
9.3 社交网络挖掘
9.3.1 社区检测和Shingling算法
9.3.2 节点分类和迭代分类算法
9.3.3 R语言实现
9.4 练习
9.5 总结
10 文本与网络数据挖掘
10.1 文本挖掘与TM包
10.2 文本总结
10.2.1 主题表示
10.2.2 多文档总结算法
10.2.3 最大边缘相关算法
10.2.4 R语言实现
10.3 问答系统
10.4 网页分类
10.5 对报刊文章和新闻主题分类
10.5.1 基于N-gram的文本分类算法
10.5.2 R语言实现
10.6 使用网络日志的网络使用挖掘
10.6.1 基于形式概念分析的关联规则挖掘算法
10.6.2 R语言实现
10.7 练习
10.8 总结
附录 算法和数据结构
思维导图
防止博客图床图片失效,防止图片源站外链:
http://www.processon.com/chart_image/5e5b4826e4b02bc3ad6a2f1e.png)
思维导图在线编辑链接:
请发表评论