RANSAC算法线性回归(波斯顿房价预测)
虽然普通线性回归预测结果总体而言还是挺不错的,但是从数据上可以看出数据集中有较多的离群值,因此本节将使用RANSAC算法针对离群值做处理,即根据数据子集(所谓的内点)拟合回归模型。
RANSAC算法流程
- 随机选择一定数量的样本作为内点拟合模型
- 用模型测试其他所有的点,把落在给定范围内的点放入内点集
- 调整模型中使用的所有内点
- 用内点重新拟合模型
- 评估模型预测结果与内点集相比较的误差
- 如果性能达到自定义的阈值或指定的迭代次数,则终止,否则返回步骤1
导入模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from sklearn.linear_model import RANSACRegressor
from sklearn.linear_model import LinearRegression
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')
获取数据
df = pd.read_csv('housing-data.txt', sep='\s+', header=0)
X = df[['RM']].values
y = df['MEDV'].values