• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

pyspark卡方特征选择ChiSqSelector用法示例

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

类ChiSqSelector声明

class pyspark.mllib.feature.ChiSqSelector(numTopFeatures=50, selectorType='numTopFeatures', percentile=0.1, fpr=0.05)

类ChiSqSelector用于创建一个卡方(ChiSquared)特征选择器。选择器支持不同的选择方法:numTopFeatures,percentile,fpr。

  • numTopFeatures:根据卡方检验选择固定数量的topK(K=numTopFeatures)特征。
  • percentile:百分位数跟numTopFeatures类似,但按比例选择所有特征的一部分,而不是固定数量。
  • fpr:选择p-value值低于阈值的所有特征,从而控制选择的false positive率。
  • 默认情况下,选择方法是numTopFeatures,默认的topK特征数量设置为50。

示例代码

>>> data = sc.parallelize([
...     LabeledPoint(0.0, SparseVector(3, {0: 8.0, 1: 7.0})),
...     LabeledPoint(1.0, SparseVector(3, {1: 9.0, 2: 6.0})),
...     LabeledPoint(1.0, [0.0, 9.0, 8.0]),
...     LabeledPoint(2.0, [7.0, 9.0, 5.0]),
...     LabeledPoint(2.0, [8.0, 7.0, 3.0])
... ])
>>> model = ChiSqSelector(numTopFeatures=1).fit(data)
>>> model.transform(SparseVector(3, {1: 9.0, 2: 6.0}))
SparseVector(1, {})
>>> model.transform(DenseVector([7.0, 9.0, 5.0]))
DenseVector([7.0])
>>> model = ChiSqSelector(selectorType="fpr", fpr=0.2).fit(data)
>>> model.transform(SparseVector(3, {1: 9.0, 2: 6.0}))
SparseVector(1, {})
>>> model.transform(DenseVector([7.0, 9.0, 5.0]))
DenseVector([7.0])
>>> model = ChiSqSelector(selectorType="percentile", percentile=0.34).fit(data)
>>> model.transform(DenseVector([7.0, 9.0, 5.0]))
DenseVector([7.0])

ChiSqSelector的相关函数

fit(data)

返回:一个ChiSquared特征选择器。
参数:data – 包含带有类别特征的标记数据集的RDD [LabeledPoint]。实值特征将被视为每个不同值的类别。使用此功能之前先功做特征离散化(feature discretizer)。
New in version 1.4.0.

setFpr(fpr)

设置FPR [0.0,1.0]以进行特征选择。只适用于selectorType =“fpr”。
New in version 2.1.0.

setNumTopFeatures(numTopFeatures)

设置topK特征的数量。只适用于selectorType =“numTopFeatures”。
New in version 2.1.0.

setPercentile(percentile)

按百分位数设置特征选择比例,范围在[0.0,1.0]。只适用于selectorType =“percentile”。
New in version 2.1.0.

setSelectorType(selectorType)

设置ChisqSelector的选择器类型。支持的选项:“numTopFeatures”(默认),“percentile”,“fpr”。
New in version 2.1.0.

备注

ChiSqSelector卡方特征选择的最新信息参考:ChiSqSelector


鲜花

握手

雷人

路过

鸡蛋
专题导读
上一篇:
数据库事务Spring @Transactional注解失效原因分析发布时间:2022-05-14
下一篇:
Spark Streaming入门发布时间:2022-05-14
热门推荐
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap