第一节:特征预处理
特征预处理 之前说到构建机器学习系统的步骤中的第二步说到需要进行数据预处理,但是并没有说如何对数据进行预处理,这一章将会展开来说说将来建模时会碰到的各种脏数据的形式,以及对这种形式数据的处理方式,而对数据处理即对数据的特征进行处理。 特征预处理学习目标 缺失值处理 离群值处理 数据类型转换 归一化数据 二值化数据 特征预处理…
第二节:特征选择
特征选择 特征工程在工业上有这么一句广为流传的话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。接下来将给你介绍特征工程的第一个分支,特征选择。 对于一个学习任务来说,如果某一个特征和我们的学习任务没有太大关系,我们把它称之为无关特征(irrelevant feature),如个人…
第三节:主成分分析(PCA)
主成分分析(PCA) 维数灾难和降维 在KNN算法中曾讲到,对于高维数据,会出现数据样本稀疏、距离计算困难等问题。但是这种问题并不是仅仅针对KNN算法,只是在KNN算法中这种问题会被放大,而其他的机器学习算法也会因为高维数据对训练模型造成极大的障碍,这种问题一般被称为维数灾难(curse of dimensionality)…