MLS.1.a 线性回归的概念
简单线性回归的基本思想是将两个变量的观测值“拟合”成它们之间的线性关系。在图形上,这项任务就是画出一条“最佳拟合”或“最接近”这些点的直线。
直线方程可以用公式 表示y = mx + b,其中m是斜率(梯度),b是 y 轴截距(m直线与y 轴的交点)。b在计算均值和 y 轴截距时,我们会用到以下解释的一些数学概念:
意思是
这个术语用于描述统计分布的性质。它的计算方法是将总体中所有数据点相加,然后除以数据点的数量。所得结果称为均值或平均值。
x̄ = Sum of observations / number of observations
方差
方差(σ2)衡量的是数据集中各个数值之间的离散程度。也就是说,它衡量的是数据集中的每个数值与均值之间的距离,以及它们与其他所有数值之间的距离。
Variance = n * sum of all(xi − x̄)2
其中: = 第 i个数据点 = 所有数据点的平均值 = 数据点的数量
xi
x̄
n
协方差
协方差衡量的是两个随机变量共同变化的程度。它类似于方差,但方差衡量的是单个变量的变化程度,而协方差衡量的是两个变量共同变化的程度。方差的平方根称为Standard Deviation
Cov(X,Y) = Σ (E(X) - μ) * (E(Y) - ν) / (n - 1)
其中
X,是随机变量
E(X),μ是随机变量的期望值(均值),是随机变量的期望值(均值),是数据集中的项目数。 X
E(Y)νY
n
相关性
相关系数(r)是一种统计技术,可以显示变量对之间是否存在关联以及关联强度如何。
Sx,= 标准差,Syxy
均方根误差(RMSE)
均方根误差(RMSE)是残差(预测误差)的标准差。残差衡量的是数据点与回归线之间的距离。
斜率和偏差的计算
直线的斜率计算方法是 y 的变化量除以 x 的变化量。
slope m = change in y / change in x
y轴截距偏差应使用以下公式计算:
y = m(x - x1) + y1
这些值与训练集中实际存在的值不同,如果我们把这个 (x, y) 图与原始图进行比较,得到的直线将偏离原始图中的点很远。这会导致误差,误差是指实际点与直线上各点之间的值差异。理想情况下,我们希望找到一条直线,使得所有点的误差最小。误差可以通过多种数学方法减小,其中一种方法是“最小二乘回归”。
最小二乘回归
最小二乘回归是一种通过最小化所有平方误差之和来最小化误差的方法。
m = (Σ ((x - x̄) * (y - ȳ)) / Σ (x - x̄))2
(或者) (然后我们得到 y 轴截距)
m = r(Sy / Sx)
b = ȳ - m * x̄其中,是标准差,是标准差,是相关性,是斜率,是y轴截距。
Sxx
Syy
rxy
m
b
该方法旨在减小所有误差值的平方和。误差越小,与原始点的总体偏差就越小。
成本函数
成本函数计算数据集中每个样本的误差平方,将所有误差平方相加,然后除以数据集中的样本数(记为m)。该成本函数有助于确定最佳拟合线。两个变量(记为和)的成本函数如下所示。θ0θ1J
现在,我们需要利用成本函数来调整参数,使成本函数值最小。我们使用一种称为梯度下降法的技术来最小化成本函数。θ0θ1
继续阅读📝
贡献者
本系列节目得以制作,离不开以下机构的帮助:
- Pranav(@devarakondapranav)
- Ram(@r0mflip)
- Devika(@devikamadupu1)
- Pratyusha(@prathyushakallepu)
- Pranay(@pranay9866)
- Subhasri(@subhasrir)
- Laxman(@lmn)
- Vaishnavi(@vaishnavipulluri)
- Suraj(@suraj47)

