开源软件名称(OpenSource Name):jobbole/awesome-machine-learning-cn
开源软件地址(OpenSource Url):https://github.com/jobbole/awesome-machine-learning-cn
开源编程语言(OpenSource Language):
开源软件介绍(OpenSource Introduction):机器学习资源大全中文版
我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资源整理。awesome-machine-learning 就是 josephmisiti 发起维护的机器学习资源列表,内容包括了机器学习领域的框架、库以及软件(按编程语言排序)。
Awesome 系列虽然挺全,但基本只对收录的资源做了极为简要的介绍,如果有更详细的中文介绍,对相应开发者的帮助会更大。这也是我们发起这个开源项目的初衷。
我们要做什么?
- 基于 awesome-machine-learning 资源列表,我们将对各个资源项进行编译整理。
- 整理后的内容,将收录在伯乐在线资源频道。可参考已整理的内容:
如何参与本项目?
本项目的参与者
注:名单不分排名,不定期补充更新
C++
计算机视觉
- CCV:基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库。官网
- OpenCV:它提供C++、C、Python、Java 以及 MATLAB接口。并支持Windows、Linux、Android 和 Mac OS操作系统。官网
通用机器学习
Clojure
通用机器学习
- Clojure Toolbox:Clojure语言库与工具的分类目录。官网
Go
自然语言处理
- go-porterstemmer:一个Porter词干提取算法的原生Go语言净室实现。官网
- paicehusk:Paice/Husk词干提取算法的Go语言实现。官网
- snowball:Go语言版的Snowball词干提取器。官网
通用机器学习
- Go Learn:Go语言机器学习库。官网
- go-pr:Go语言机器学习包。官网
- bayesian:Go语言朴素贝叶斯分类库。官网
- go-galib:Go语言遗传算法库。官网
数据分析/数据可视化
- go-graph:Go语言图形库。官网
- SVGo:Go语言的SVG生成库。官网
Java
自然语言处理
- CoreNLP:斯坦福大学的CoreNLP提供一系列的自然语言处理工具,输入原始英语文本,可以给出单词的基本形式(下面Stanford开头的几个工具都包含其中)。官网
- Stanford Parser:一个自然语言解析器。官网
- Stanford POS Tagger:一个词性分类器。官网
- Stanford Name Entity Recognizer:Java实现的名称识别器。官网
- Stanford Word Segmenter:分词器,很多NLP工作中都要用到的标准预处理步骤。官网。
- Tregex、Tsurgeon与Semgrex:用来在树状数据结构中进行模式匹配,基于树关系以及节点匹配的正则表达式(名字是“tree regular expressions"的缩写)官网
- Stanford Phrasal:最新的基于统计短语的机器翻译系统,java编写。官网
- Stanford Tokens Regex:用以定义文本模式的框架。官网
- Stanford Temporal Tagger:SUTime是一个识别并标准化时间表达式的库。官网
- Stanford SPIED:在种子集上使用模式,以迭代方式从无标签文本中学习字符实体。官网。
- Stanford Topic Modeling Toolbox:为社会科学家及其他希望分析数据集的人员提供的主题建模工具。官网
- Twitter Text Java:Java实现的推特文本处理库。官网
- MALLET:基于Java的统计自然语言处理、文档分类、聚类、主题建模、信息提取以及其他机器学习文本应用包。官网
- OpenNLP:处理自然语言文本的机器学习工具包。官网
- LingPipe:使用计算机语言学处理文本的工具包。官网
通用机器学习
- MLlib in Apache Spark:Spark中的分布式机器学习程序库。官网
- Mahout:分布式的机器学习库。官网
- Stanford Classifier:斯坦福大学的分类器。官网
- Weka:Weka是数据挖掘方面的机器学习算法集。官网
- ORYX:提供一个简单的大规模实时机器学习/预测分析基础架构。官网
数据分析/数据可视化
- Hadoop:大数据分析平台。官网
- Spark:快速通用的大规模数据处理引擎。官网
- Impala:为Hadoop实现实时查询。官网
Javascript
自然语言处理
- Twitter-text-js:JavaScript实现的推特文本处理库。官网
- NLP.js:javascript及coffeescript编写的NLP工具。官网
- natural:Node下的通用NLP工具。官网
- Knwl.js:JS编写的自然语言处理器。官网
数据分析/数据可视化
- D3.js:官网。
- High Charts:官网。
- NVD3.js:官网。
- dc.js:官网。
- chartjs:官网。
- dimple:官网。
- amCharts:官网。
通用机器学习
- Convnet.js:训练深度学习模型的JavaScript库。官网
- Clustering.js:用JavaScript实现的聚类算法,供Node.js及浏览器使用。官网
- Decision Trees:Node.js实现的决策树,使用ID3算法。官网
- Node-fann:Node.js下的快速人工神经网络库。官网
- Kmeans.js:k-means算法的简单Javascript实现,供Node.js及浏览器使用。官网
- LDA.js:供Node.js用的LDA主题建模工具。官网
- Learning.js:逻辑回归/c4.5决策树的JavaScript实现。官网
- Machine Learning:Node.js的机器学习库。官网
- Node-SVM:Node.js的支持向量机。官网
- Brain:JavaScript实现的神经网络。官网
- Bayesian-Bandit:贝叶斯强盗算法的实现,供Node.js及浏览器使用。官网
Julia
通用机器学习
- PGM:Julia实现的概率图模型框架。官网
- DA:Julia实现的正则化判别分析包。官网
- Regression:回归分析算法包(如线性回归和逻辑回归)。官网
- Local Regression:局部回归,非常平滑!。官网
- Naive Bayes:朴素贝叶斯的简单Julia实现。官网
- Mixed Models:(统计)混合效应模型的Julia包。官网
- Simple MCMC:Julia实现的基本mcmc采样器。官网。
- Distance:Julia实现的距离评估模块。官网
- Decision Tree:决策树分类器及回归分析器。官网
- Neural:Julia实现的神经网络。官网
- MCMC:Julia下的MCMC工具。官网
- GLM:Julia写的广义线性模型包。官网
- Online Learning:官网
- GLMNet:GMLNet的Julia包装版,适合套索/弹性网模型。官网
- Clustering:k-means, dp-means等数据聚类的基本函数。官网
- SVM:Julia下的支持向量机。官网
- Kernal Density:Julia下的核密度估计器。官网
- Dimensionality Reduction:降维算法。官网
- NMF:Julia下的非负矩阵分解包。官网
- ANN:Julia实现的神经网络。官网
自然语言处理
- Topic Models:Julia下的主题建模。官网
- Text Analysis:Julia下的文本分析包。官网
数据分析/数据可视化
- Graph Layout:纯Julia实现的图布局算法。官网
- Data Frames Meta:DataFrames的元编程工具。官网
- Julia Data:处理表格数据的Julia库。官网
- Data Read:从Stata、SAS、SPSS读取文件。官网
- Hypothesis Tests:Julia中的假设检验包。官网
- Gladfly:Julia编写的灵巧的统计绘图系统。官网
- Stats:Julia编写的统计测试函数包。官网
- RDataSets:读取R语言中众多可用的数据集的Julia函数包。官网
- DataFrames:处理表格数据的Julia库。官网
- Distributions:概率分布及相关函数的Julia包。官网
- Data Arrays:元素值可以为空的数据结构。官网
- Time Series:Julia的时间序列数据工具包。官网
- Sampling:Julia的基本采样算法包。官网
杂项/演示文稿
- DSP:数字信号处理。官网
- JuliaCon Presentations:Julia大会上的演示文稿。官网
- SignalProcessing:Julia的信号处理工具。官网
- Images:Julia的图片库。官网
Lua
通用机器学习
- Torch7。
- cephes:—Cephes数学函数库,包装成Torch可用形式提供并包装了超过180个特殊的数学函数,由Stephen L. Moshier开发,是SciPy的核心,应用于很多场合。官网
- graph:供Torch使用的图形包。官网
- randomkit:从Numpy提取的随机数生成包,包装成Torch可用形式。官网
- signal:Torch-7可用的信号处理工具包,可进行FFT, DCT, Hilbert, cepstrums, stft等变换。官网
- nn:Torch可用的神经网络包。官网
- nngraph:为nn库提供图形计算能力。官网
- nnx:一个不稳定实验性的包,扩展Torch内置的nn库。官网
- optim:Torch可用的优化算法库,包括 SGD, Adagrad, 共轭梯度算法, LBFGS, RProp等算法。官网
- unsup:Torch下的非监督学习包提供的模块与nn(LinearPsd、ConvPsd、AutoEncoder、...)及独立算法(k-means、PCA)等兼容。官网
- manifold:操作流形的包。官网
- svm:Torch的支持向量机库。官网
- lbfgs:将liblbfgs包装为FFI接口。官网
- vowpalwabbit:老版的vowpalwabbit对torch的接口。官网
- OpenGM:OpenGM是C++编写的图形建模及推断库,该binding可以用Lua以简单的方式描述图形,然后用OpenGM优化。官网。
- sphagetti:MichaelMathieu为torch7编写的稀疏线性模块。官网
- LuaSHKit:将局部敏感哈希库SHKit包装成lua可用形式。官网
- kernel smoothing:KNN、核权平均以及局部线性回归平滑器。官网
- cutorch:torch的CUDA后端实现。官网
- cunn:torch的CUDA神经网络实现。官网
- imgraph:torch的图像/图形库,提供从图像创建图形、分割、建立树、又转化回图像的例程。官网
- videograph:torch的视频/图形库,提供从视频创建图形、分割、建立树、又转化回视频的例程。官网
- saliency:积分图像的代码和工具,用来从快速积分直方图中寻找兴趣点。官网
- stitch:使用hugin拼合图像并将其生成视频序列。官网
- sfm:运动场景束调整/结构包。官网
- fex:torch的特征提取包,提供SIFT和dSIFT模块。官网
- OverFeat:当前最高水准的通用密度特征提取器。官网
- Numeric Lua:官网。
- Lunatic Python:官网。
- SciLua:官网。
- Lua - Numerical Algorithms:官网。
- Lunum:官网。
演示及脚本
- Core torch7 demos repository:核心torch7演示程序库。官网
- 线性回归、逻辑回归
- 人脸检测(训练和检测是独立的演示)
- 基于mst的断词器
- train-a-digit-classifier
- train-autoencoder
- optical flow demo
- train-on-housenumbers
- train-on-cifar
- tracking with deep nets
- kinect demo
- 滤波可视化
- saliency-networks
- Training a Convnet for the Galaxy-Zoo Kaggle challenge(CUDA demo):官网
- Music Tagging:torch7下的音乐标签脚本。官网
- torch-datasets:官网 读取几个流行的数据集的脚本,包括
- BSR 500
- CIFAR-10
- COIL
- Street View House Numbers
- MNIST
- NORB
- Atari2600:在Arcade Learning Environment模拟器中用静态帧生成数据集的脚本。官网
Matlab
计算机视觉
- Contourlets:实现轮廓波变换及其使用函数的MATLAB源代码。官网 。
- Shearlets:剪切波变换的MATLAB源码。官网
- Curvelets:Curvelet变换的MATLAB源码(Curvelet变换是对小波变换向更高维的推广,用来在不同尺度角度表示图像)。官网
- Bandlets:Bandlets变换的MATLAB源码。官网
自然语言处理
通用机器学习
- Training a deep autoencoder or a classifier on MNIST digits:在MNIST字符数据集上训练一个深度的autoencoder或分类器。官网
- t-Distributed Stochastic Neighbor Embedding:获奖的降维技术,特别适合于高维数据集的可视化。官网
- Spider:Matlab机器学习的完整面向对象环境。官网
- LibSVM:支持向量机程序库。官网
- LibLinear:大型线性分类程序库。官网
- Machine Learning Module:M. A .Girolami教授的机器学习课程,包括PDF、讲义及代码。官网
- Caffe:考虑了代码清洁、可读性及速度的深度学习框架。官网
- Pattern Recognition Toolbox:Matlab中的模式识别工具包、完全面向对象。官网
数据分析/数据可视化
- matlab_gbl:处理图像的Matlab包。官网
- gamic:图像算法纯Matlab高效实现,对MatlabBGL的mex函数是个补充。官网
.NET
计算机视觉
- OpenCVDotNet:包装器,使.NET程序能使用OpenCV代码。官网
- Emgu CV:跨平台的包装器,能在Windows、Linux、Mac OS X、iOS和Android上编译。官网
自然语言处理
- Stanford.NLP for .NET:斯坦福大学NLP包在.NET上的完全移植,还可作为NuGet包进行预编译。官网 。
通用机器学习
- Accord.MachineLearning:随机抽样一致性算法、交叉验证、网格搜索这个包是Accord.NET框架的一部分支持向量机、决策树、朴素贝叶斯模。型、K-means、高斯混合模型和机器学习应用的通用算法。官网:
- Vulpes:F#语言实现的Deep belief和深度学习包,它在Alea.cuBase下利用CUDA GPU来执行。官网
- Encog:先进的神经网络和机器学习框架,包括用来创建多种网络的类,也支。持神经网络需要的数据规则化及处理的类它的训练采用多线程弹性传播。它也能使用GPU加快处理时间提供了图形化界面来帮助建模和训练神经网络。官网
- Neural Network Designer:这是一个数据库管理系统和神经网络设计器设计器用WPF开发,也是一个UI,你可以设计你的神经网络、查询网络、创建并配置聊天机器人,它能问问题,并从你的反馈中学习这些机器人甚至可以从网络搜集信息用来输出,或是用来学习。官网
数据分析/数据可视化
- numl:numl这个机器学习库,目标就是简化预测和聚类的标准建模技术。官网
- Math.NET Numerics:Math.NET项目的数值计算基础,着眼提供科学、工程以及日常数值计算的方法和算法支持 Windows、Linux 和 。Mac上的 .Net 4.0、.Net 3.5 和 Mono ,Silverlight 5、WindowsPhone/SL 8、WindowsPhone 8.1 以及装有 PCL Portable Profiles 47 及 344的Windows 8, 装有 Xamarin的Android/iOS。官网
- Sho:Sho是数据分析和科学计算的交互式环境,可以让你将脚本(IronPython语言)和编译的代码(.NET)无缝连接,以快速灵活的建立原型。官网这个环境包括强大高效的库,如线性代数、数据可视化,可供任何.NET语言使用,还为快速开发提供了功能丰富的交互式shell
Python
计算机视觉
- SimpleCV:开源计算机视觉框架,可以访问如OpenCV等高性能计算机视觉库使用Python编写,可以在Mac、Windows以及Ubuntu上运行。官网。
自然语言处理
- NLTK:一个领先的平台,用来编写处理人类语言数据的Python程序。官网
- Pattern:Python可用的web挖掘模块,包括自然语言处理、机器学习等工具。官网
- TextBlob:为普通自然语言处理任务提供一致的API,以NLTK和Pattern为基础,并和两者都能很好兼容。官网。
- jieba:中文断词工具。官网
- SnowNLP:中文文本处理库。官网
- loso:另一个中文断词库。官网
- genius:基于条件随机域的中文断词库。官网
- nut:自然语言理解工具包。官网
通用机器学习
- Bayesian Methods for Hackers:Python语言概率规划的电子书。官网
- MLlib in Apache Spark:Spark下的分布式机器学习库。官网
- scikit-learn:基于SciPy的机器学习模块。官网
- graphlab-create:包含多种机器学习模块的库(回归、聚类、推荐系统、图分析等),基于可以磁盘存储的DataFrame。官网
- BigML:连接外部服务器的库。官网
- pattern:Python的web挖掘模块。官网
- NuPIC:Numenta公司的智能计算平台。官网
- Pylearn2:基于Theano的机器学习库。官网
- hebel:Python编写的使用GPU加速的深度学习库。官网
- gensim:主题建模工具。官网
- PyBrain:另一个机器学习库。官网
- Crab:可扩展的、快速推荐引擎。官网
- python-recsys:Python实现的推荐系统。官网
- thinking bayes:关于贝叶斯分析的书籍。官网
- Restricted Boltzmann Machines:Python实现的受限波尔兹曼机。官网
- Bolt:在线学习工具箱。官网
- CoverTree:cover tree的Python实现,scipy.spatial.kdtree便捷的替代。官网
- nilearn:Python实现的神经影像学机器学习库。官网
- Shogun:机器学习工具箱。官网
- Pyevolve:遗传算法框架。官网
- Caffe:考虑了代码清洁、可读性及速度的深度学习框架。官网
- breze:深度及递归神经网络的程序库,基于Theano。官网
数据分析/数据可视化
- SciPy:基于Python的数学、科学、工程开源软件生态系统。官网
- NumPy:Python科学计算基础包。官网
- Numba:Python的低级虚拟机JIT编译器,Cython and NumPy的开发者编写,供科学计算使用。官网
- NetworkX:为复杂网络使用的高效软件。官网
- Pandas:这个库提供了高性能、易用的数据结构及数据分析工具。官网
-
|
请发表评论