机器学习(V)--无监督学习(一)聚类
根据训练样本中是否包含标签信息,机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习,目的是想将那些相似的样本尽可能聚在一起,不相似的样本尽可能分开。
相似度或距离
聚类的核心概念是相 ...
机器学习(IV)--监督学习(五)k近邻算法
k近邻算法
K近邻法(k-nearest neighbor, k-NN)是一种基本分类与回归方法,其工作机制十分简单粗暴:给定某个测试样本,kNN基于某种距离度量在训练集中找出与其距离最近的k个带有 ...
PySpark 特征工程(III)--特征选择
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。
特 ...
PySpark 特征工程(II)--特征构造
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。
特 ...
PySpark 特征工程(I)--数据预处理
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。
特 ...
PySpark机器学习Demo
spark 机器学习库
大数据手册(Spark)--PySpark MLlib
spark 机器学习库
特征工程(VII)--模型集成
Ensembles
有时候模型集成可以取得不错的效果。常用的模型集成包括:
Votting:简单投票或加权平均
Stacking:简单来说就是学习各个基本模型的预测值来预测最终的结果
我们初步选 ...
特征工程(VI)--机器学习
Jupyter Notebook 代码连接:machine_learning_demo
Step 1: Imports and Configuration
import pandas as pdim ...
特征工程(V)--时间序列特征
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。
特 ...