Pandas使用高级技巧

原作者: [db:作者] 来自: [db:来源] 收藏邀请

这篇文章包括一些有用的Pandas技巧，这些技巧有助于在大型数据集上使用Pandas进行有效的预处理和特征工程。

Pandas ufuncs (Universal functions)以及为什么它们比apply命令好得多

Pandas 有一个apply函数，您几乎可以将任何函数应用(apply)于列中的所有值。注意apply只是比python for循环快一点！这就是为什么推荐使用Pandas内置的 ucfuns 在列上应用预处理任务。ucfuns，是用C语言实现的一些特定功能(基于numpy库)，因此非常高效。我们将提到的有用的功能包括：.diff，.shift，.cumsum，.cumcount，.str命令(用于字符串)，.dt命令(用于日期) ，等等。

数据集示例-暑期活动

我将在如下图说是的数据集上演示 Pandas 技巧。暑期活动数据集说明：一个人可以在不同的时间戳下进行多项活动。

图：夏季活动，随机生成的数据

假设我们的目标是根据给定的数据集预测谁是数据集中最有趣的人：)。

图：好玩好玩！

1.字符串命令

对于字符串操作，最推荐使用Pandas string 命令(属于ufuncs)。

例如，您可以使用以下方式将包含一个人的全名的列分为两列：.str.split, 参数expand = True。

图：拆分前的名称列

df[‘name’] = df.name.str.split(" ", expand=True)

图：拆分后的名称列

另外，您可以使用.str.replace和一个合适的正则表达式有效地清理任何字符串列。

2. group by和value_counts

group by是一个非常强大的 Pandas 方法。您可以使用以下方式对一列进行分组，并使用value_counts根据该列值计算另一列的值。使用group by和value_counts我们可以计算每个人进行的活动数量。

df.groupby('name')['activity'].value_counts()

图：按人员名称和活动值分组

这就是多索引情况，它是pandas DataFrame中的一个有价值的技巧，它使我们在DataFrame中具有几个级别的索引层次结构。在这种情况下，人员名称是索引的级别0，而活动是级别1。

3.Unstack

通过在上面的代码中应用unstack，我们还可以为每个人的夏季活动计数。unstack将行切换为列，以将活动计数作为特征值。通过做unstack将索引的最后一级转换为列。现在，所有活动值将成为DataFrame的列。其中当某人未执行某项活动时，此特征值为Nan。Fillna函数用0填充所有这些缺失值(人员未进行的活动)。

df.groupby('name')['activity'].value_counts().unstack().fillna(0)

图：列中的活动计数

3. groupby，diff，shift和loc +高效技巧

了解人的活动之间的时差对于预测谁是最有趣的人可能会很有用。一个人参加聚会多久了？他/她在海滩闲逛了多长时间？这可能对我们有用。

计算时间差的最直接方法是group by人员名称，然后使用diff()命令计算时间戳字段上的差异：

df = df.sort_values(by=['name','timestamp'])
df['time_diff'] = df.groupby('name')['timestamp'].diff()

图：计算人员活动之间的时间差，以获取每个活动的持续时间

如果您有大量数据，并且想节省一些时间(根据数据大小的不同，速度可能会快10倍左右)，则可以跳过groupby，在对数据进行排序之后做diff，然后删除每个不相关的人的第一行。

df = df.sort_values(by=['name','timestamp'])
df['time_diff'] = df['timestamp'].diff()
df.loc[df.name != df.name.shift(), 'time_diff'] = None

其中.shift命令将所有列向下移动一格，因此我们可以通过执行以下操作查看此列在哪一行上更改：

df.name!= df.name.shift()。

其中.loc是为特定索引设置列的值。

要将time_diff更改为以秒为单位：

df['time_diff'] = df.time_diff.dt.total_seconds()

要获得每行的持续时间：

df[‘row_duration’] = df.time_diff.shift(-1)

图：每行持续时间

4.Cumcount and Cumsum

这是两个非常酷的Ufunc，可以为您提供许多帮助。 Cumcount创建一个累积计数。例如，我们可以通过按人员名称分组然后对每个人员的第二项活动应用cumcount。这将仅按活动顺序对活动进行计数。然后我们可以对每个人的第二项活动仅仅进行== 1(或通过== 2)操作即可将索引应用于原始排序的DataFrame上。

df = df.sort_values(by=['name','timestamp'])
df2 = df[df.groupby(‘name’).cumcount()==1]

图：每个人的第二项活动

df = df.sort_values(by=[‘name’,’timestamp’])
df2 = df[df.groupby(‘name’).cumcount()==2]

图：每个人的第三项活动

Cumsum只是数字单元格的累积汇总。例如，您可以将人员在每个活动中花费的钱添加为一个附加单元格，然后使用以下方法汇总人员在一天中的每个时间所花费的钱：

df = df.sort_values(by=[‘name’,’timestamp’])
df['money_spent_so_far'] = df.groupby(‘name’)['money_spent'].cumsum()

图：到目前为止花的钱

5. groupby，max，min用于测量活动的持续时间

在第3节中，我们想知道每个人在每个活动中花费了多少时间。但是我们忽略了有时我们会得到多个关于活动的记录，实际上是同一活动的继续。因此，要获得实际的活动持续时间，我们应该测量连续活动从第一次出现到最后一次的时间。为此，我们需要标记活动的更改，并用活动编号标记每一行。我们将使用.shift命令和.cumsum。新的活动是在活动发生变化时或者人名变了。

df['activity_change'] = (df.activity!=df.activity.shift()) | (df.name!=df.name.shift())

然后，我们将通过按用户分组并应用强大的.cumsum来计算每行的活动编号。：

df['activity_num'] = df.groupby('name')['activity_change'].cumsum()

图：为在行之间继续的活动添加活动编号

现在，我们可以按照每个名称和活动编号进行分组，并计算每行活动持续时间的总和，如下：

activity_duration = df.groupby(['name','activity_num','activity'])['activity_duration'].sum()

图：活动时间

这将以某种timedelta类型返回活动持续时间。您可以使用.dt.total_seconds以秒为单位获取会话活动持续时间：

activity_duration = activity_duration.dt.total_seconds()

然后，您可以使用以下命令来确定每个人的最大/最小活动持续时间(或中位数或均值)：

activity_duration = activity_duration.reset_index().groupby('name').max()

图：每个用户的最大活动持续时间

总结

这是使用夏季活动数据集的 Pandas 之旅。希望您已经学会，祝您下一个 Pandas 项目好运！

鲜花

握手

雷人

路过

鸡蛋

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

javascript高效调试内存泄漏发布时间：2022-05-14

私有区块链与公共区块链：主要区别是什么？发布时间：2022-05-14

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19816|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：10154|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8423|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8785|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8740|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9810|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8727|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：8095|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8771|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7613|2022-11-06

客服电话

电子邮件

Pandas使用高级技巧

Pandas ufuncs (Universal functions)以及为什么它们比apply命令好得多

数据集示例-暑期活动

1.字符串命令

2. group by和value_counts

3.Unstack

3. groupby，diff，shift和loc +高效技巧

4.Cumcount and Cumsum

5. groupby，max，min用于测量活动的持续时间

总结

上一篇：

下一篇：

DelphiSocket常见错误代码与描述

bradtraversy/iweather: Ionic 3 mobile we

joaomh/curso-de-matlab

断牙刷新位置时间（断牙属性及刷新位置介绍

旗的笔顺,认识旗的笔画,概述旗的部首

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053