一.基本概念
- 欧式距离—
- 曼哈顿距离
- 数据规范化的两种方法
3.1 最小-最大规范化
最小-最大规范化也称为离散标准化,是对原始数据的线性变换,将数据值映射到[0, 1]之间。
转换公式如右:
此种标准化保留了原来数据中存在的关系,是消除量纲和数据取值范围影响的最简单方法。这种处理方法的缺点是若数值集中且某个数值很大,则规范化后各值接近于0,并且将会相差不大。
3.2 零-均值规范化(z-score标准化)
二. matlab函数用法
- pdist函数—计算任意两行向量间的距离
D = pdist(X) 计算 X 中各对行向量的相互距离(X是一个m-by-n的矩阵). 这里 D 要特别注意,D 是一个长为m(m–1)/2的行向量.可以这样理解 D 的生成:首先生成一个 X 的距离方阵,由于该方阵是对称的,令对角线上的元素为0,所以取此方阵的下三角元素,按照Matlab中矩阵的按列存储原则,此下三角各元素的索引排列即为(2,1), (3,1), …, (m,1), (3,2), …, (m,2), …, (m,m–1).可以用命令 squareform(D) 将此行向量转换为原距离方阵。(squareform函数是专门干这事的,其逆变换是也是squareform)
- zscore函数—0,1数据标准化方法
默认按列进行求均值与方差并且标准化
|
请发表评论