在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
作者:NSS 翻译:杨金鸿 术语校对:韩海畴 全文校对:林亦霖 本文约3000字,建议阅读7分钟。 人们学习R语言时普遍存在缺乏系统学习方法的问题。学习者不知道从哪开始,如何进行,选择什么学习资源。虽然网络上有许多不错的免费学习资源,然而它们多过了头,反而会让人挑花了眼。 为了构建R语言学习方法,我们在Vidhya和DataCamp中选一组综合资源,帮您从头学习R语言。这套学习方法对于数据科学或R语言的初学者会很有用;如果读者是R语言的老用户,则会由本文了解这门语言的部分最新成果。 R语言学习方法会帮助您快速、高效学习R语言。 前言 在开始学习之前,第一个要回答的问题是:为什么要用R语言?或者R语言为何如此有用? R语言是一门快速发展的开源软件,是SAS、STATA和SPSS这类商业软件的竞争对手。就业市场对R语言的需求正在迅速上升,微软等公司也同时承诺将致力让R语言成为数据科学通用语言。 看看由Revolution Analytics制作的90秒视频(https://www.youtube.com/watch?v=VlJnNSeO1uQ),您就知道R语言的用处。顺便说下,微软刚刚收购了Revolution Analytics。 步骤一:配置计算机环境 建立R语言学习环境最简单方法是通过综合R语言归档网络(CRAN)下载(https://cran.r-project.org/)到您的本地计算机上。可以选择Linux、Mac和Windows对应二进制文件下载。 您可能会考虑使用R语言自带的控制台,但我们建议您安装R语言集成开发环境(IDE)。RStudio(https://www.rstudio.com/)是最有名的IDE,它能让R语言编码更容易、更快,还能让您输入多行代码、处理图形、安装和维护程序,有效引导您的编程环境。RStudio此外可以选用基于eclipse的Architect(http://www.openanalytics.eu/architect)。如果需要安装图形用户界面(GUI),请选择R-commander(http://www.rcommander.com/)或Deducer(http://www.deducer.org/pmwiki/index.php?n=Main.WindowsInstallation)。 课后作业
步骤二:R语言基础学习 您应该首先了解语言、库和数据结构基础知识。 如果您更倾向于在线交流方式学习R语法,DataCamp(https://www.datacamp.com/courses/free-introduction-to-r)提供的免费在线R教程是很好的资源。还可以选择后续课程:中级R编程(https://www.datacamp.com/courses/intermediate-r)。另一种学习方法是在线版本swirl(https://www.datacamp.com/swirl-r-tutorial),它能让您在类似RStudio环境中学习R语言。 在互动学习环境中,您可以选择参加Coursera(https://www.coursera.org/specializations/jhu-data-science)或Edx(https://www.edx.org/course/introduction-r-programming-microsoft-dat204x-0)上mooc课程。 除了上述在线资源,您还可以考虑以下优秀资源:
专门学习:阅读、数据帧、表、概述、描述、加载和安装包、使用绘图命令可视化数据。 课后作业
步骤三:了解R社 强大社区的存在是R语言发展迅速、大获成功的主要原因。社区中核心的是R语言的“包”生态系统。R语言程序包可以在CRAN、bioconductor、github和bitbucket中下载。在Rdocumentation(http://www.rdocumentation.org/)中,您可以轻松搜索来自CRAN、github和bioconductor中能满足您当前工作需要的程序包。与在R语言程序包生态系统同样重要的是,您可以在R endeavours上轻松获得帮助与反馈。首先,R内置帮助系统,您可以通过命令来访问。同时,在Analytics Vidhya Discussions,Stack OverflowR语言是增长最快语言。R-bloggers(http://www.r-bloggers.com/)汇集许多R语言爱好者写的博文。 课后作业:
步骤四:数据导入和操作 导入和操作数据是数据科学工作流程中重要步骤。R语言允许使用特定包导入不同数据格式,从而使您工作更轻松,如下:
一旦数据在工作环境中可用,您就可以使用下面程序包操作:
课后作业
步骤五:有效数据可视化 自己创建数据可视化作品是一件很自豪的事情。然而,数据可视化既是一项技能,也是一门艺术。许多学者阅读Edward Tufte 的“可视化定量数据”原理,或者StephenFew的 “pitfalls on dashboard design”。也可以阅读NathanYau在FlowingData 写的博文,来获得创建R语言可视化灵感。 1. 平面图无处不在 R语言提供了多种创建图形方法,使用原理图创建图形是标准的方法。然而,有一些好的工具(或包)使用更简单的方式来创建,查看图形。
2. 地图无处不在 您对分析空间可视化数据感兴趣吗?学习本教程:介绍R语言空间数据,您会轻松地使用这些包。
3. HTML插件 HTML插件是R语言可视化产品中非常有前景的插件,您可以用简单的方式创建交互式web可视化(参见RStudio教程),掌握这种可视化方法将会成为R语言学习中必备技能。其带来的视觉效果会给您朋友和同事留下深刻印象。
课后作业
步骤六:数据挖掘、机器学习 对于新的统计数据学习方法,我们推荐下列资源:
如果您想提高机器学习能力,可以考虑从以下教程开始学习:
确保在相关的CRAN任务视图中查看到R语言可用的机器学习资源。 课后作业
步骤七:报告结果 与数据科学爱好者交流成果,分享见解是一件很重要的事情。幸运的是,R语言针对这个问题有一些非常实用工具。 第一个工具是R Markdown,采用knitr和pandoc复制方式生成您的数据分析结果报告。使用R markdown工具,R语言最终生成文档,替换R语言代码。文档可以是html、word、pfd、ioslides等格式。您可以通过本教程学到更多知识并使用cheatsheet作为参考资料。 第二个工具是ReporteRs,它是个创建Microsoft(Worddocx和Powerpoint pptx)和html R语言文档程序包,并可以在Windows、Linux、Unix和Mac OS系统上运行。像R Markdown工具一样自动生成R语言报告,点击这里我们来看看如何操作。 第三个是Shiny,目前R语言中最令人兴奋的工具。使R语言构建交互式web应用程序变得非常容易。您可以把分析报告转换为交互式web应用程序,您不需要了解HTML、CSS或Javascript相关知识。如果您想要学习Shiny ,请点击RStudio learning portal。 课后作业
练习 只有通过大量练习才能成为优秀R语言程序员。因此,要定期解决数据科学中的问题。我们的建议是赶紧开始与Kaggle上的数据科学家交流。 在解决问题中测试自己的R语言水平--练习中的问题。 步骤八:时间序列分析 R语言有一个用于专属任务视图时间序列。如果你想在R语言中做一些时间序列分析,这将是您开始的地方。您很快会发现工具的强大。 想要从在线资源中掌握时间序列分析是件不容易的事情。好的切入点是一本关于时间序列的书或者选择《原理与实践》这本书。在程序包方面,您需要熟悉Zoo与xts程序包。Zoo为您提供了常用的保存时间序列对象格式,而xts供了操作时间序列的数据集工具。 辅助资源: 时间序列综合教程。 课后作业
文本挖掘一个重要工具 学习文本挖掘,您可以从edge课程中学习。虽然课程已经结束,但是您仍然可以访问这些课程。 练习
步骤九:成为R语言大师 现在您已经掌握了大部分R语言数据分析,是时候给出一些高级课程资源了。您很可能已经知道其中的一些内容,但不妨看看这些教程。
原文链接: https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/ 杨金鸿,北京护航科技有限公司员工,在业余时间喜欢翻译一些技术文档。喜欢阅读有关数据挖掘、数据库之类的书,学习java语言编程等,希望能在数据派平台上熟识更多爱好相同的伙伴,今后能在数据科学的道路上走的更远,飞的更远。
翻译组招募信息 工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。 你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。 其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。 点击文末“阅读原文”加入数据派团队~
转载须知 如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。 发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”拥抱组织 |
请发表评论