大数据手册(Hive)--Hive安装配置
本文默认在 zsh 终端安装配置,若使用bash终端,环境变量的配置文件相应变化。
若安装包下载缓慢,可复制链接到迅雷下载,亲测极速~
准备工作
在安装Hive之前首先安装好了hadoop,环境 ...
大数据手册(Spark)--Spark安装配置
本文默认在 zsh 终端安装配置,若使用bash终端,环境变量的配置文件相应变化。
若安装包下载缓慢,可复制链接到迅雷下载,亲测极速~
准备工作
Spark的安装过程较为简单,在已安装好 Had ...
Mac终端配置文件
zsh,或 Z Shell,是一个 Unix-Like 系统(如 macOS 或 Linux)下的 shell 命令行解释器。它支持强大的自动补全能力,拥有丰富的插件,具有高可定制性,而且与 bash ...
数据仓库和数据湖简介
数据仓库
数据仓库(Data Warehousing, DW) 的本质,其实就是整合多个数据源的历史数据进行细粒度的、多维的分析,帮助高层管理者或者业务分析人员做出商业战略决策或商业报表。这里面就涉 ...
线性代数(上册)
本文从线性变换出发理解线性代数的本质
线性代数(下册)
线性空间和内积、特征值与特征向量、二次型与合同、矩阵分解等
机器学习(V)--无监督学习(五)异常检测
异常检测
远离其它内围点(inlier)的数据通常被定义为离群值(outlier),也称异常值。异常检测(anomaly detection)分为离群点检测以及新奇值检测两种。
Outlier D ...
机器学习(V)--无监督学习(七)核密度估计
核密度估计
核密度估计(kernel density estimate,kde):是一种用于估计概率密度函数的非参数方法,可看作直方图的拟合曲线。
我们知道,对概率密度函数(Probability ...
机器学习(II)--数据预处理
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。
...
机器学习(I)--基础知识
前言
机器学习 (machine learning, ML)的主要目的是设计和分析一些学习算法,让计算机可以从数据(经验)中自动分析并获得规律,之后利用学习到的规律对未知数据进行预测,从而帮助人们完 ...