R语言之数据可视化 - 准备
1. 数据科学家需要具备的知识和技能
- Drew Conway: http://drewconway.com/the-lab/(substantive expertise:实质性的知识)
- O\'Reilly Strata Survey:http://radar.oreilly.com/
- http://radar.oreilly.com/2013/06/theres-more-than-one-kind-of-data-scientist.html
2. 完整的数据分析流程
2.1 第一模块
- 定义研究问题
- 定义理想的数据集
- 确定能够获得什么数据
- 获取数据
- 清理数据
2.2 第二模块
- 探索性分析(数据可视化)
- 统计分析/建模(机器学习)等
2.3 第三模块
- 解释/交流结果(数据可视化)
- 挑战结果(有没有其他可能)
- 书写报告(Reproducible原则)
3. 假设驱动(Hypothesis Driven) vs. 数据驱动(Data Driven)