回归分析之线性回归_这个数据p上两个 其次 线性方程组的自由未知量个数之和大于n,是证明线性方程组1和二必有非零公共解-程序员宅基地

技术标签: 算法/理论  

1回归分析

1.1概念

回归分析英语Regression Analysis)是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。
运用十分广泛,回归分析按照涉及的自变量的多少,可分为 一元回归分析和 多元回归分析;按照 自变量因变量之间的关系类型,可分为 线性回归分析和 非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是 线性关系,则称为 多元线性回归分析。

回归分析的一般流程是:
(1)确定Y与X间的定量关系表达式,这种表达式称为回归方程;
(2)对求得的回归方程的可信度进行检验;
(3)判断自变量X对因变量Y有无影响;
(4)利用所求得的回归方程进行预测和控制。

1.2 效果分析-统计检验

主要有拟合优度检验R^2,显著性检验T, 显著性检验F。

R    R^2表示的是拟合优度,它是用来衡量估计的模型对观测值的拟合程度。它的值越接近1说明模型越好。
F的值是回归方程显著性检验,表示的是模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著做出推断。若F>Fa(k-1,n-k),则拒绝原假设,即认为列入模型的各个解释变量联合起来对被解释变量有显著影响,反之,则无显著影响。
T的数值表示的是对单个回归参数的显著性检验值,它的绝对值大于等于ta/2(n-k)(这个值表示的是根据你的置信水平自由度得出的数值)时,就拒绝原假设,即认为在其他解释变量不变的情况下,解释变量X对被解释变量Y的影响是显著的。
参考自: http://course.cug.edu.cn/cugThird/Econometrics/Chapter_study/chapter_3_2.htm


2 线性回归

2.1概念

本质上建立变量之间的线性关系,表现形式就是线性方程y=ax+b,例如给出两组数据x={0, 1, 2, 3, 4, 5}, y={0, 20, 60, 68, 77, 110},拟合出直线。线性回归模型经常用最小二乘逼近来拟合。
线性回归是利用 数理统计 中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种 统计分析 方法,运用十分广泛。分析按照 自变量 因变量 之间的关系类型,可分为线性回归分析和非线性回归分析。 统计学 中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个 自变量 因变量 之间关系进行建模的一种 回归分析
线性回归模型经常用最小二乘逼近来拟合,但他们也可能用别的方法来拟合,比如用最小化“拟合缺陷”在一些其他规范里(比如最小绝对误差回归),或者在桥回归中最小化最小二乘损失函数的惩罚.相反,最小二乘逼近可以用来拟合那些非线性的模型.因此,尽管“最小二乘法”和“线性模型”是紧密相连的,但他们是不能划等号的

2.2用途

线性回归有很多实际用途。分为以下两大类:
如果目标是预测或者映射,线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个y值。
给定一个变量y和一些变量X1,...,Xp,这些变量有可能与y相关,线性回归分析可以用来量化y与Xj之间相关性的强度,评估出与y不相关的Xj,并识别出哪些Xj的子集包含了关于y的冗余信息。

2.3假设检验

线性关系: Y=A+BX+§
式中:A和B为待定参数,A为 回归直线的截距;B为回归直线的斜率,表示X变化一个单位时,Y的平均变化情况;§为依赖于用户满意度的 随机误差项
对于经验回归方程: y=0.857+0.836x
回归直线在y轴上的截距为0.857、斜率0.836,即质量每提高一分,用户满意度平均上升0.836分;或者说质量每提高1分对用户满意度的贡献是0.836分。
上面所示的例子是简单的一个自变量的线性回归问题,在数据分析的时候,也可以将此推广到多个自变量的多元回归,具体的回归过程和意义请参考相关的 统计学书籍。此外,在SPSS的结果输出里,还可以汇报R2,F检验值和T检验值。R2又称为方程的确定性系数(coefficient of determination),表示方程中变量X对Y的解释程度。R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比。F检验是通过 方差分析表输出的,通过显著性水平(significant level)检验回归方程的线性关系是否显著。一般来说,显著性水平在0.05以上,均有意义。当F检验通过时,意味着方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,这样就需要通过T检验来验证回归系数的显著性。同样地,T检验可以通过显著性水平或查表来确定。在上面所示的例子中,各参数的意义如表8-2所示。
线性回归方程检验
指标
显著性水平
意义
 
R2
0.89
 
“质量”解释了89%的“用户满意度”的变化程度
F
276.82
0.001
回归方程的线性关系显著
T
16.64
0.001
回归方程的系数显著
示例 SIM手机用户满意度与相关变量线性回归分析
我们以SIM手机的用户满意度与相关变量的线性回归分析为例,来进一步说明线性回归的应用。从实践意义讲上,手机的用户满意度应该与产品的质量、价格和形象有关,因此我们以“用户满意度”为因变量,“质量”、“形象”和“价格”为自变量,作线性回归分析。利用SPSS软件的回归分析,得到回归方程如下:
用户满意度=0.008×形象+0.645×质量+0.221×价格
对于SIM手机来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;其次是价格,用户对价格的评价每提高1分,其满意度将提高0.221分;而形象对产品用户满意度的贡献相对较小,形象每提高1分,用户满意度仅提高0.008分。
方程各检验指标及含义如下:
指标
显著性水平
意义
 
R2
0.89
 
“质量”和“形象”解释了89%的“用户满意度”的变化程度
F
248.53
0.001
回归方程的线性关系显著
T(形象)
0.00
1.000
“形象”变量对回归方程几乎没有贡献
T(质量)
13.93
0.001
“质量”对回归方程有很大贡献
T(价格)
5.00
0.001
“价格”对回归方程有很大贡献

3 最小二乘

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

在我们研究两个 变量(x,y)之间的相互关系时,通常可以得到一系列成对的数据(x1,y1.x2,y2... xm,ym);将这些数据描绘在x -y直角坐标系中,若发现这些点在一条直线附近,可以令这条 直线方程如(式1-1)。
其中:a0、a1 是任意实数
为建立这直线方程就要确定a0和a1,应用《最小二乘法原理》,将实测值Yi与利用(式1-1)计算值(Yj=a0+a1X)的离差(Yi-Yj)的平方和
 最小为“优化判据”。
令:φ =
 (式1-2)
把(式1-1)代入(式1-2)中得:
φ =
 (式1-3)
 最小时,可用函数 φ 对a0、a1求偏导数,令这两个 偏导数等于零。
∑2(a0 + a1*Xi - Yi)(式1-4)
∑2*Xi(a0 + a1*Xi - Yi)(式1-5)
亦即:
na0 + (∑Xi ) a1 = ∑Yi (式1-6)
(∑Xi ) a0 + (∑Xi^2 ) a1 = ∑(Xi*Yi) (式1-7)
得到的两个关于a0、 a1为未知数的两个方程组,解这两个方程组得出:
a0 = (∑Yi) / n - a1(∑Xi) / n (式1-8)
a1 = [n∑Xi Yi - (∑Xi ∑Yi)] / [n∑Xi2 - (∑Xi)2 )] (式1-9)
这时把a0、a1代入(式1-1)中, 此时的(式1-1)就是我们回归的元线性方程即:数学模型。
在回归过程中,回归的关联式不可能全部通过每个回归数据点(x1,y1. x2,y2...xm,ym),为了判断关联式的好坏,可借助 相关系数“R”, 统计量“F”,剩余标准偏差“S”进行判断;“R”越趋近于 1 越好;“F”的绝对值越大越好;“S”越趋近于 0 越好。
R = [∑XiYi - m (∑Xi / m)(∑Yi / m)]/ SQR{[∑Xi2 - m (∑Xi / m)2][∑Yi2 - m (∑Yi / m)2]} (式1-10) *
在(式1-10)中,m为 样本容量,即实验次数;Xi、Yi分别为任意一组实验数据X、Y的数值。


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/crazyhacking/article/details/40077453

智能推荐

Java stream操作toMap总结_stream tomap-程序员宅基地

文章浏览阅读1.3w次,点赞10次,收藏23次。1、map 对象本身,重复的key,放入List。Map<String, List<Working>> map = workings.stream().collect(Collectors.toMap(Working::getInvoicePage, e -> { ArrayList<Working> list = new Arr_stream tomap

如何移植使用W5500官方提供的最新Socket库_w5500官方库-程序员宅基地

文章浏览阅读2.6k次。转载地址:https://blog.csdn.net/wiznet2012/article/details/41279113(此论坛为一个WIZnet用户开设的,论坛积累了大量的W5500相关应用及例程,具有很大的参考价值。)官方提供了W5500的最新驱动库,下载地址如下:http://wizwiki.net/wiki/doku.php?id=products:w5500:driver下面简单介绍..._w5500官方库

ABAP TBL隐藏列_sap loop at tc_0100-cols-程序员宅基地

文章浏览阅读1.3k次。如何隐藏某列 隐藏屏幕字段,我们首先想到的肯定是LOOP AT SCREEN,设置ACTIVE或INVISIBLE的字段值。可惜测试后,发现行不通。正确的做法是,通过编程修改tabctrl-cols下的某字段可见长度。DATA: l_hide TYPE c, ls_col LIKE LINE OF tc_0100-cols. LOOP AT tc_0100-cols_sap loop at tc_0100-cols

浙江大学计算机科学与基础网站,浙江大学计算机科学与技术考研-程序员宅基地

文章浏览阅读122次。原标题:浙江大学计算机科学与技术考研一、院校介绍浙江大学是一所历史悠久、声誉卓著的高等学府,坐落于中国历史文化名城、风景旅游胜地杭州。浙江大学的前身求是书院创立于1897年,为中国人自己最早创办的新式高等学校之一。浙江大学计算机科学与技术学院成立于2002年3月,由计算机科学与工程学系、数字媒体与网络技术系、工业设计系、软件工程系(与软件学院共建)4个系组成。学院下设人工智能研究所、计算机软件研究..._浙大计算机考研官网

css设置height 由0到auto的动画效果_css transition 实现高度从0到auto慢慢展开-程序员宅基地

文章浏览阅读1.2w次。css设置height 由0到auto的动画效果分析_css transition 实现高度从0到auto慢慢展开

python字符串类型定义_python--字符串类型-程序员宅基地

文章浏览阅读1.2k次。*************** 字符串类型 ***************1.字符串的定义:第一种方式:str1 = 'our company is westos'第二种方式:str2 = "our company is westos"第三种方式:str3 = """our company is westos"""2.转义符号一个反斜线加一个单一字符可以表示一个特殊字符,通常是不可打印的字符\n:..._python字符串类型定义

随便推点

Object.requireNonNull_objects.requirenonnull-程序员宅基地

文章浏览阅读4.3k次,点赞3次,收藏6次。Object.requireNonNullObject.requireNonNull介绍java8中的优化写法Object.requireNonNull源码Object.requireNonNull介绍Object.requireNonNull是用于参数有效性检查的API。使用Object.requireNonNull方法的好处在于可以显式的指定在哪里抛出异常。举个栗子public class Foo { private List<Bar> bars; public Foo(Lis_objects.requirenonnull

python提取pdf中图片和文本_python原生代码,提取pdf图片中的文字-程序员宅基地

文章浏览阅读734次。【代码】python提取pdf中图片和文本。_python原生代码,提取pdf图片中的文字

计算机二级office考试题库操作题,计算机二级考试MSOffice考试题库ppt操作题附答案...-程序员宅基地

文章浏览阅读2.1k次。请在【答题】菜单下选择【进入考生文件夹】命令,并按照题目要求完成下面的操作。 注意:以下的文件必须保存在考生文件夹下文慧是新东方学校的人力资源培训讲师,负责对新入职的教师进行入职培训,其PowerPoint演示文稿的制作水平广受好评。最近,她应北京节水展馆的邀请,为展馆制作一份宣传水知识及节水工作重要性的演示文稿。节水展馆提供的文字资料及素材参见\水资源利用与节水(素材).docx\,制作..._标题页包含演示主题,制作单位和日期

unity 启动相机_Unity3D研究院之打开照相机与本地相册进行裁剪显示(三十三)...-程序员宅基地

文章浏览阅读255次。最近做项目需要用到这个功能,就是在Unity中调用Android本地相册或直接打开摄像机拍照并且裁剪一部分用于用户头像,今天研究了一下,那么研究出成果了MOMO一定要分享给大家。Unity与Android的交互还有谁不会?? 如果有不会的朋友请看MOMO之前的文章喔,Unity3D研究院之打开Activity与调用JAVA代码传递参数(十八)这里有关交互的方式就不详细说明,主要将如何在Unity中..._unity打开照相机与本地相册进行裁剪

oracle sql 分区查询语句_oracle表空间表分区详解及oracle表分区查询使用方法-程序员宅基地

文章浏览阅读778次。此文从以下几个方面来整理关于分区表的概念及操作:1.表空间及分区表的概念2.表分区的具体作用3.表分区的优缺点4.表分区的几种类型及操作方法5.对表分区的维护性操作.(1.) 表空间及分区表的概念表空间:是一个或多个数据文件的集合,所有的数据对象都存放在指定的表空间中,但主要存放的是表, 所以称作表空间。分区表:当表中的数据量不断增大,查询数据的速度就会变慢,应用程序的性能就会下降,这时就应该考虑..._oracle建分区sq查询

国培 计算机远程培训心得,信息技术国培学习心得体会(2)-程序员宅基地

文章浏览阅读192次。国培学习心得篇一今年,我有幸参加了“国培计划”中小学教师计算机远程培训,真是机会难得,受益匪浅,如一缕春风吹进我的心田,对我的大脑也是一次全新的洗礼。同时能在国培计划中有幸聆听众多专家的精彩讲解,通过网络参与了网上听课、网上答题、网上浏览、网上评论、网上推荐和网上交流等活动。在这次学习中,与大家一起学习,一起探讨、交流、碰撞??我们共同走过了一段难忘的心路历程。我从中学习到了很多,也收获了很多。我..._2.0国培信息培训总结

推荐文章

热门文章

相关标签