本文内容关键词:Spark官方文档,Spark教程, Spark MLlib教程。
本文翻译自Spark官方文档:Machine Learning Library (MLlib) Guide ,代码示例以Python版为主,部分Python不支持的功能保留原理说明,代码示例略去,另外翻译的时候对部分概念做注解。[注:翻译是为了帮助自己更好地理解相关概念,英语OK的同学建议直接阅读英文原版]
MLlib是Spark中可扩展的机器学习库,它由一系列机器学习算法和实用程序组成,包括分类、回归、聚类、协同过滤、降维,另外还包括一些底层的优化方法。下文是MLib文档的目录结构:
-
数据类型[Data types]
-
基础统计[Basic statistics]
-
汇总统计[summary statistics]
-
相关系数[correlations]
-
分层抽样[stratified sampling]
-
假设检验[hypothesis testing]
-
随机数据生成[random data generation]
-
分类和回归[Classification and regression]
-
线性模型(SVMs, logistic regression, linear regression)]
-
朴素贝叶斯[naive Bayes]
-
决策树[decision trees]
-
树的集成 (Random Forests and Gradient-Boosted Trees)]
-
保序回归[isotonic regression]
-
协同过滤[Collaborative filtering]
-
交替最小二乘法[alternating least squares (ALS)]
-
聚类[Clustering]
-
K均值[k-means]
-
高斯混合[Gaussian mixture]
-
幂迭代聚类[power iteration clustering (PIC)]
-
LDA[latent Dirichlet allocation]
-
流式K均值[streaming k-means]
-
降维[Dimensionality reduction]
-
奇异值分解[singular value decomposition (SVD)]
-
主成分分析[principal component analysis (PCA)]
-
特征提取和转换[Feature extraction and transformation]
-
频繁模式挖掘[Frequent pattern mining]
-
优化[Optimization (developer)]
-
随机梯度下降[stochastic gradient descent]
-
有限内存BFGS[limited-memory BFGS (L-BFGS)]
这里只给出了相关章节的目录结构,详情请点击链接查看。持续更新中~ |