机器学习(IV)--监督学习(二)线性和二次判别分析
线性判别分析
线性判别分析(Linear Discriminant Analysis,LDA)亦称 Fisher 判别分析。其基本思想是:将训练样本投影到低维超平面上,使得同类的样例尽可能近,不同类 ...
机器学习(V)--无监督学习(二)流形学习
流形学习
【降维技巧 | 导论与流形学习 | 中文字幕-哔哩哔哩】
流形学习(manifold learning)是一种借助拓扑流形概念的降维方法,流形是指在局部与欧式空间同胚的空间,即在局部与欧式 ...
机器学习(V)--无监督学习(二)主成分分析
当数据的维度很高时,很多机器学习问题变得相当困难,这种现象被称为维度灾难(curse of dimensionality)。
在很多实际的问题中,虽然训练数据是高维的,但是与学习任务相关也许仅仅是其中 ...
机器学习(V)--无监督学习(一)聚类
根据训练样本中是否包含标签信息,机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习,目的是想将那些相似的样本尽可能聚在一起,不相似的样本尽可能分开。
相似度或距离
聚类的核心概念是相 ...
机器学习(IV)--监督学习(五)k近邻算法
k近邻算法
K近邻法(k-nearest neighbor, k-NN)是一种基本分类与回归方法,其工作机制十分简单粗暴:给定某个测试样本,kNN基于某种距离度量在训练集中找出与其距离最近的k个带有 ...
PySpark 特征工程(III)--特征选择
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。
特 ...
PySpark 特征工程(II)--特征构造
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。
特 ...
PySpark 特征工程(I)--数据预处理
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。
特 ...
PySpark机器学习Demo
spark 机器学习库
大数据手册(Spark)--PySpark MLlib
spark 机器学习库