Spark机器学习库指南[Spark 1.3.1版]——线性模型(Linear Models)

原作者: [db:作者] 来自: [db:来源] 收藏邀请

下面是章节线性模型的目录(其他内容参见全文目录)

数学公式
- 损失函数(Loss functions)
- 正则化(Regularizers)
- 优化(Optimization)
分类
- 线性支持向量机(Linear Support Vector Machines (SVMs))
- 逻辑回归(Logistic regression)
回归
- 线性最小二乘法，Lasso, 岭回归(Linear least squares, Lasso, and ridge regression)
- 流式线性回归(Streaming linear regression)
实现 (developer)

数学公式

很多标准的机器学习方法都可以归结为凸优化问题。例如，寻找凸函数f(w)极小值的任务（w[weights]为d维权值向量，它是函数f的自变量）。比较正式地，我们可以将之写作优化问题:min f(w), w∈R^d，其目标函数如下：

这里向量x_i∈R^d（1<=i<=n)是训练样本，y_i∈R是相应的标签，标签也是训练出模型之后需要预测的值。当用到的损失函数L(w; x, y)表示为w^Tx和y（w^T是w的转置,转置之后才能和x做矩阵乘法），机器学习方法就可以认为是线性的。MLlib中的几个分类和回归算法就是这个线性类型，是我们这里要讨论的。

目标函数f分为两部分：正则化部分控制模型的复杂度，损失函数部分评估模型在训练数据上的错误率。损失函数L(w;.)一般是w的凸函数。固定的正则化参数（λ>=0）用于调节最小化损失函数和最小化模型复杂段这两个目标之间的平衡(例如，避免过拟合)。

损失函数

下表汇总了MLlib支持的损失函数和对应的梯度或者次梯度[1](次梯度可用于不可微函数，没有梯度的限制严格)。

正则化

正则化是为了约束训练过程，使其向生成简单模型的方向收敛，从而避免过拟合。MLlib目前支持下面的正则化方法：Here sign(w) is the vector consisting of the signs (±1) of all the entries of w.

注：提到正则化，必须要说一下数学中范数(norm)的概念。范数是具有“长度”概念的函数。最常用的范数是p-范数，其定义为：若x = [x_¹, x₂, x₃, …, x_n]^T，那么||x||_p = (|x₁| ^p+ |x₂|^p + |x₃|^p + … + |x_n|p)^1/p 。当p取值为1和2时，就是我们的L1和L2【2-范数的平方除以2】正则化：

1-范数：||x||₁=|x_1|+|x_2|+…+|x_n|

2-范数：||x||₂=(|x₁|²+|x₂|²+…+|x_n|²)^½

由于平滑的特性，L2正则化问题比L1正则化更容易解决。但是，L1正则可以促进产生稀疏的权值，从而产生简单可解释的模型。并且，L1由于产生稀疏的权值（即大部分取值为0），相当于做了特征选择。不建议做没有正则化的模型训练，特别是训练样本特别少的时候。

优化

线性模型底层使用凸函数优化方法来优化目标函数。MLlib中使用了两种方法，SGD和L-BFGS，章节 optimization section会有具体介绍。当前，绝大多数MLlib的算法API支持随机梯度下降法(SGD)，部分支持L-BFGS。

分类

分类旨在将多个条目分到不同的类别。最常见的分类类型是二分类，两个类型通常被比较为正和负。如果多于两个类型的话，就是多分类。MLlib提供两种线性方法用于分类：线性支持向量机(SVM)和逻辑回归。SVM只支持二分类，而逻辑回归既支持二分类又支持多分类。这两种方法，都提供了L1和L2正则化。训练数据集用RDD[LabeledPoint]表示，其中label是分类类型的索引，从0开始，即0, 1, 2, …。注意在上文的数学公式部分，二分类标签y使用+1和-1标记，这个是为了方便公式化。实际再MLlib中，使用0代替了-1，从而更多分类保持一致。

线性支持向量机(SVMs)

线性SVM是用于大规模分类任务的一种标准方法。它用到的线性方法上文的等式（1）中已经有说明，使用的损失函数为hinge loss:

默认情况下，线性SVM使用L2正则化做训练。也可以替换为L1正则化，这样就成了线性优化问题。

线性SVM算法输出的是SVM模型。给定一个新的数据点（用x表示)，模型基于w^Tx的值做预测。默认情况下, 如果w^Tx>=0则结果为正例，否则为负例。

下面的代码片（Spark Pthon SVM）段说明了如何导入一个样本数据集，进行模型训练，并做出预测。(Python中的SVMModel目前还不支持load和save数据)

#!/usr/bin/python
from pyspark import SparkContext;
from pyspark.mllib.util import MLUtils;
from pyspark.mllib.classification import SVMWithSGD;

sc = SparkContext(appName="svmTesting");

# Load training data in LIBSVM format.
data = MLUtils.loadLibSVMFile(sc, 'data/mllib/sample_libsvm_data.txt');
print "FirstRecord:", data.take(1);

# Split data into training (70%) and test (30%).
splits = data.randomSplit([0.7, 0.3], seed = 11L);
training = splits[0].cache();
print "TrainingCount:[%d]"%training.count();
test = splits[1];
print "TestingCount:[%d]"%test.count();

# Run training algorithm to build the model
numIterations = 100;
model = SVMWithSGD.train(training, numIterations);

# Clear the default threshold.
model.clearThreshold();

# Compute raw scores on the test set.
scoreAndLabels = test.map(lambda point : (model.predict(point.features), point.label));

# output score and label.
for score, label in scoreAndLabels.collect():
	print score, label;

附SVMWithSGD.train(data, iterations=100, step=1.0, regParam=0.01, miniBatchFraction=1.0, initialWeights=None, regType=’l2′, intercept=False)的参数说明：

Parameters:

data – 训练集，RDD[LabeledPoint]
iterations – 迭代次数，默认100
step – SGD步长，默认为1.0
regParam – 正则化参数，默认0.01T
miniBatchFraction – 每一轮迭代，参入训练的样本比例，默认1.0（全部参入）.
initialWeights – 初始取值，默认是0向量
regType – 正则化类型，默认”l2″
Allowed values:
“l1” for using L1 regularization

“l2” for using L2 regularization

None for no regularization

(default: “l2”)
intercept – Boolean parameter which indicates the use or not of the augmented representation for training data (i.e. whether bias features are activated or not).

逻辑回归(Logistic regression)

逻辑回归广泛应用于二分类问题。它是线性分类方法（参见公式(1))，损失函数是logistic loss:

其中exp是以自然常数e为底的指数函数。对二分类问题来说，这个算法输出一个二分逻辑回归模型。给定一个新的数据点(x)，模型应用下面的逻辑函数给出预测：

其中 z = w T x ，f(z)也叫sigmoid函数，它将实数范围内的值映射到(0,1)区间 。 默认情况下, 如果f(w T x) > 0.5， 输出为正，否则为负。不过跟线性SVM不同的是，逻辑回归模型的原始输出(f(z))，可以解释为概率（例如， x 是正例的概率）。

二分逻辑回归可以泛化为多项式逻辑回归，用于训练和预测多分类问题。例如，对于K个可能的输出，其中一个输出可被选作“中心点”(pivot)，另外的K-1个输出可以分别跟中心点输出进行回归。在MLlib中，第一个类0被选作“中心点”类。可以参考《The Elements of Statistical Learning》的章节4.4了解详情。

对于多分类问题，算法会输出一个多项式回归模型，它包含K-1个跟第一类配对的二元回归模型。给定一个新的数据点，K-1个模型都会被执行，概率最大的类会被选作预测的类型。

我们实现了两种算法用于解决逻辑回归问题：min-batch梯度下降和L-BFGS。推荐使用L-BFGS，因为它收敛更快。

下面的例子说明了怎样导入样本数据集，建立逻辑回归模型，使用结果模型进行预测并计算训练的错误率。

from pyspark.mllib.classification import LogisticRegressionWithLBFGS
from pyspark.mllib.regression import LabeledPoint
from numpy import array

# Load and parse the data
def parsePoint(line):
    values = [float(x) for x in line.split(' ')]
    return LabeledPoint(values[0], values[1:])

data = sc.textFile("data/mllib/sample_svm_data.txt")
parsedData = data.map(parsePoint)

# Build the model
model = LogisticRegressionWithLBFGS.train(parsedData)

# Evaluating the model on training data
labelsAndPreds = parsedData.map(lambda p: (p.label, model.predict(p.features)))
trainErr = labelsAndPreds.filter(lambda (v, p): v != p).count() / float(parsedData.count())
print("Training Error = " + str(trainErr))

回归

线性最小二乘法，Lasso，岭回归（Linear least squares, Lasso, and ridge regression)

线性最小二乘法是回归问题中最常用的公式，如公式(1)所述它是一个线性方法，损失函数是squared loss：

通过使用不同的正则化方法，上面的回归公式派生出了各种各样相关的回归方法： 普通最小二乘法 或 线性最小二乘法 没有使用正则化方法； 岭回归 使用了L2正则化； Lasso 使用了 L1 正则化。对上述这些模型，平均的训练误差（见下面的表达式），叫做均方误差。

下面的例子说明了如何导入训练数据，解析为RDD[LabeledPoint]，然后使用LinearRegressionWithSGD建立简单的线性模型预测标签值。我们最后计算了均方误差来评估拟合度。

from pyspark.mllib.regression import LabeledPoint, LinearRegressionWithSGD from numpy import array # Load and parse the data def parsePoint(line): values = [float(x) for x in line.replace(',', ' ').split(' ')] return LabeledPoint(values[0], values[1:]) data = sc.textFile("data/mllib/ridge-data/lpsa.data") parsedData = data.map(parsePoint) # Build the model model = LinearRegressionWithSGD.train(parsedData) # Evaluate the model on training data valuesAndPreds = parsedData.map(lambda p: (p.label, model.predict(p.features))) MSE = valuesAndPreds.map(lambda (v, p): (v - p)**2).reduce(lambda x, y: x + y) / valuesAndPreds.count() print("Mean Squared Error = " + str(MSE))

流式线性回归（Streaming linear regression）

当数据以流的方式到达时，就很有必要使回归模型适应在线环境，每当有新的数据到来时就得更新模型参数。MLlib当前支持普通最小二乘法的流式线性回归。拟合过程跟离线情况类似，但是要实时拟合每一批数据，使得模型能够及时持续更新从而能够预测流式数据。（目前只有Scala支持流式线性回归）

实现 (developer)

幕后，MLlib实现了一个简单分布式版本的随机梯度下降算法，建立在底层的梯度下降优化原语上（参见 optimization ）。所有算法都会接受一个正则化参数(regParam)和多个其他的梯度下降相关的参数(stepSize, numIterations, miniBatchFraction)。每种算法都支持三种可能的正则化（none, L1或者L2)。

对于逻辑回归，L-BFGS 版本在LogisticRegressionWithLBFGS中实现。这个版本支持二分逻辑回归和多项式逻辑回归，而SGD版本只能支持二分逻辑回归。但是，L-BFGS版本不支持L1正则化，SGD版本支持L1正则化。当L1不是必须的时候，强烈推荐用L-BFGS版本，因为相对于SGD来说，它通过拟牛顿近似逆Hessian矩阵收敛得更快更准。

算法都是使用Scala语言实现的：

SVMWithSGD
LogisticRegressionWithLBFGS
LogisticRegressionWithSGD
LinearRegressionWithSGD
RidgeRegressionWithSGD
LassoWithSGD

Python通过 PythonMLLibAPI 调用Scala的实现。

参考:

[1] http://zh.wikipedia.org/wiki/%E6%AC%A1%E5%AF%BC%E6%95%B0

[2] http://baike.baidu.com/link?url=x8hkYh5wI-5wQItUQTbMUwPTkNhCBFqPzh7DTaSf8z8cUZgxGrnviVvPeBEPbgQ_3AjiX7gtwtQ_defHP_r22K

鲜花

握手

雷人

路过

鸡蛋

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

Spark机器学习库指南[Spark 1.3.1版]——分类和回归(Classification and Regression) ...发布时间：2022-05-14

Spark机器学习库指南[Spark 1.3.1版]——决策树(decision trees)发布时间：2022-05-14

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19788|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：10146|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8419|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8779|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8737|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9802|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8722|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：8089|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8768|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7608|2022-11-06

客服电话

电子邮件

Spark机器学习库指南[Spark 1.3.1版]——线性模型(Linear Models)

数学公式

损失函数

优化

分类

线性支持向量机(SVMs)

逻辑回归(Logistic regression)

回归

线性最小二乘法，Lasso，岭回归（Linear least squares, Lasso, and ridge regression)

流式线性回归（Streaming linear regression）

实现 (developer)

上一篇：

下一篇：

音的笔顺,详解音的笔画,谈谈音的部首

MikeMcQuaid/strap:

headcr4sh/node-maven: Maven for Node.js

CVE-2022-26527

traex/RippleEffect: Implementation of Ri

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053