Cleaning Bad Data in R 中文字幕
R语言数据清理教程 中文字幕Cleaning Bad Data in R
数据完整性是数据科学革命的新焦点
既然每个人都充斥着数据在人们生活和事业中的作用,那么问“你能证明你的数据是准确的吗?”并不是一个不公平的问题
在本课程中,您将学习如何识别和解决现代数据科学家面临的许多数据完整性问题,使用R和tidyverse
了解如何处理缺失值和重复数据
了解如何在不同单元之间转换数据并处理格式不正确的文本
此外,学习如何检测异常值,解决结构问题,并识别指示潜在数据质量问题的红旗
在可能的情况下,讲师Mike Chapple展示了如何使用R来纠正问题,但同样的原则可以应用于任何统计编程语言
主题包括:
缺失数据
重复的行和值
转换数据
格式化数据
使用整洁的数据
整理数据集
处理可疑数据
- [Mike]正如任何数据科学家都会告诉你的那样,数据分析涉及的绝大部分工作都在于将数据转化为正确的形式。
这是一个称为数据争论的领域,这是我们将在本课程中介绍的内容。
“纽约时报”最近发表的一篇文章引用了一致认为数据科学家根据访谈和专家估计,他们花费了50%到80%的时间在这种收集和准备不守规矩的数字数据的平凡工作中度过。
而在此之前,可以探索有用的掘金。
在本课程中,我将解释如何使用R来使用从整洁数据领域中提取的概念来执行数据争论。
我们将使用一组称为tidyverse的工具,允许您从各种来源导入数据,将其转换为标准格式,并在执行分析之前对其进行清理 。
嗨,我是Mike Chapple,我想欢迎你参加这个关于R中清理不良数据的课程。
准备好了,这将是一个有趣的旅程,将帮助您提高数据争论技能。
本课程视频下载地址:R语言数据清理教程
|
请发表评论