回归分析(Regression analysis)
回归分析的意义:
回归分析之主要目的在于探究自变量(independent variable)和因变量(dependent variable)之间的关系,进而建立一个适当的数学方程式,并利用此方程式以及已知自变量值,来计算因变量之值。在回归分析中自变量常以 X 表示,因变量以 Y 表示;X 与Y 之间的函数关系式,称为回归模式。
在回归分析中若只考虑一个自变量,称为简单回归(simple regression),否则,称为多元回归(multiple regression)。
相关性分析(Correlation analysis)
相关性分析用以衡量两个变量间关联性的强弱。
当变量为一连续变量时,可以次数分配和图标来呈现数据的内容与特性,或者以平均数和标准差来描绘数据的集中和离散情形。
若要判断两个连续变量的相关性或协变关系(covariance)时,可使用相关性分析(correlation)或回归分析(regression)。
两个连续变量的协变关系,可能有很多种形式,其中最简单也是最常见的是
线性关系
(linear relationship),即两个变量的关联关系可以以一条最具有代表性的直线来表示。
例如:
身高与体重,身高越高,体重也越重。
相关系数(Correlation coefficient)
两个连续变量的关联情形可以散布图(scatter diagram)来呈现。
精确的相关分析所产生的是一个相关系数(correlation coefficient)。
相关系数是介于-1与+1之间的数。
若为+1,表示两变量具有完全的正线性相关。
若为-1,表示两变量具有完全的负线性相关。
若相关系数趋近于0,表示两变量间没有线性相关性。
此一系数最早由Pearson 所提出,又称为皮尔逊相关系数。
皮尔逊积矩相关系数
(Pearson product-moment correlation, 常用 r 或 Pearson’s r 表示)。
相关系数值的大小,可以反应两个变量关联性的强弱,但是相关系数是否具有统计上的意义,必须透过统计检定来判断。由样本计算两变量之相关系数Pearson’s r,若要推论样本母体的 r ,必须经由统计检定由考验其统计意义。
虚无假设
H
0
:
两变量
X
与
Y
不相关(相关系数为
0,
r
=
0
)
对立假设
H
1
:
两变量
X
与
Y
相关(相关系数不为
0,
r
≠
0
)
当双尾的机率
r
小于设定的显著水平
a
(如0.05或0.01)时,则否定虚无假设,即认为两变量相关