线性回归分析

Obese man eating junk food

fertnig /盖蒂图片社

线性回归是用来进一步了解的独立(预测值)变量和从属(标准)变量之间的关系的统计技术。当你在你的分析有一个以上的自变量,这被称为多元线性回归。在一般情况下,回归允许研究者提出的一般问题“什么是最好的预测指标......?”

例如,让我们说,我们正在研究的原因 肥胖,通过身体质量指数(BMI)进行测定。特别是,我们想看看下面的变量是显著预测一个人的BMI:每周吃快餐用餐次数,每周看电视的时数,花费的分钟数,每周锻炼,和父母的BMI 。线性回归将是这一分析的好方法。

回归方程

当你进行与一个独立变量回归分析,回归方程为y = A + B * X,其中y是因变量,x是自变量,a为常数(或截距),并且b是 的回归直线的斜率。例如,让我们说,GPA是最好的回归方程1个+ 0.02 *智商预测。如果学生有130的智商,那么,他或她的GPA是3.6(1 + 0.02 * 130 = 3.6)。

当你进行在其中具有多于一个的独立变量回归分析,回归方程为Y = A + B1 * X1 + B2 * X2 + ... + BP * XP。例如,如果我们想包括更多的变量,以我们的GPA的分析,如动机和自我约束的措施,我们会用这个公式。

R平方

R平方,也被称为 确定的系数,是一种常用的统计评估回归方程的模型拟合。也就是说,有多好,你所有的独立变量在预测因变量? R平方范围从0.0到1.0的值,并且可以乘以100,以获得的百分比 方差 解释。例如,要回我们的GPA回归方程只有一个自变量(IQ)...让我们说,我们的R平方为方程为0.4。我们可以解释这意味着,在GPA的方差的40%是由智商解释。如果我们再加入我们的其他两个变量(动机和自律)和R平方增大到0.6,这意味着智商,激励和自我约束在一起的GPA分数解释方差的60%。

回归分析使用统计软件,如SPSS或SAS等R平方为你计算出典型的做法。

解释回归系数(b)中

从以上方程中的系数b表示的独立变量和因变量之间的关系的强度和方向。如果我们看一下GPA和IQ方程,1 + 0.02 * 130 = 3.6,0.02是变量IQ的回归系数。这告诉我们,这种关系的方向为正使智商的增加,GPA也增加。如果方程分别为1 - 0.02 * 130 = y,则这将意味着,IQ和GPA之间的关系是负的。

假设

有关于必须按顺序进行线性回归分析来满足数据的几个假设:

  • 线性: 假定自变量和因变量之间的关系是线性的。虽然这个假设永远不能被充分证实,看着 散点图 你的变量可以帮助做出此决定。如果在关系的弧度存在,你可以考虑转换变量或明确允许非线性元件。
  • 常态: 它假定 残差 您的变量是正态分布的。即,在Y(因变量)的值的预测误差分布在一个接近正常曲线的一种方式。你可以看看 直方图 或正态概率图检查变量和剩余价值的分配。
  • 独立: 假设在y的值的预测误差都是彼此独立(不相关)的。
  • 同方差: 假定围绕回归线的方差对于自变量的所有值相同。

资源

  • StatSoft推出: 电子教科书统计。 (2011年)。 //www.statsoft.com/textbook/basic-statistics/#crosstabulationb。