西西软件下载最安全的下载网站、值得信赖的软件下载站!

首页编程开发其它知识 → logistic回归和广义线性模型

logistic回归和广义线性模型

相关软件相关文章发表评论 来源:西西整理时间:2013/1/6 0:55:21字体大小:A-A+

作者:西西点击:0次评论:0次标签: 线性模型

  • 类型:翻译工具大小:4.4M语言:多国语言[中文] 评分:8.1
  • 标签:
立即下载

logistic回归:

Logistic回归的应用条件是:

① 独立性。各观测对象间是相互独立的;

② LogitP与自变量是线性关系;

③ 样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;

④ 当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。

logistic回归一般是用来解决二元分类问题,它是从贝努力分布转换而来的

  hθ(x) = g(z)=1/1+e-z ;z=θTx

  最大似然估计L(θ) = p(Y|X;θ)

           =∏p(y(i)|x(i);θ)

           =∏(hθ(x))y(i)(1-hθ(x))1-y(i)

     l(θ) = logL(θ)

           =Σy(i)loghθ(x(i))+(1-y(i))log(1-hθ(x(i)))

   θ的优化目的就是让最大似然估计最大,用梯度上升法求θ

  θj=θj+α∂l(θ)/∂θj=θj+α(y(i)-hθ(x(i)))x(i)j

  logistic回归用梯度上升法求得的θ的迭代公式看起来跟线性回归很像,但这跟线性回归是有本质区别的

  1.线性回归是由高斯分布推导而来,而logistic回归是由贝努力分布推导而来

  2.二种回归的最大似然估计是不一样的,只不过求完导后的结果看似相同

      3.二种回归hθ(x)是不同的

广义线性模型:

广义线性模型是线性模型的扩展,其特点是不强行改变数据的自然度量,数据可以具有非线性和非恒定方差结构[59],主要是通过联结函数g()(link function),建立响应变量Y的数学期望值 与线性组合的预测变量P之间的关系:。与线性模型相比,GLM模型中Y的分布可以是任何形式的指数分布(如高斯分布、泊松分布、二项式分布),联结函数可以是任何单调可微函数(如对数函数logarithm 或逻辑函数logit)。Y的方差通过方程函数 依赖于其数学期望值 ,这里 ,为比例(或者称为离差)参数[57-58,60]。这些优点使得GLM模型可以处理非正态分布的响应变量,同时可包含定性、半定量的预测变量;Y通过连接函数g(E(Y))与线性预测因子P建立联系,不仅确保线性关系,且可保证预测值落在响应变量的变幅内,并可解决数据过度离散的问题,从而使GLM逐渐成为植被-环境关系研究的重要模型,并得到越来越多的关注。

  之前已经写了线性回归和logistic回归,基本的形式都是先设定hθ(x),然后求最最大似然估计L(θ),然后求出l(θ)=logL(θ),然后用梯度上升法或其它方法求出θ,二种回归如此想你的原因就是在于它都都是广义线性模型里的一员。

  如果一个概念分布可以表示成p(y;η)=b(y)exp(ηTT(y)-a(η))时,那么这个概率分布可以称之为指数分布

  贝努力分布转换为指数分布:p(y;ø)=øy(1-ø)1-y

                   =exp(log(øy(1-ø)1-y))

                   =exp(ylogø+(1-y)log(1-ø))

                   =exp((log(ø/(1-ø)))y+log(1-ø))

  根据上面指数分布的公式可得出:

                 b(y)=1

                 η=logø/(1-ø);ø=1/(1+e-η)

                 T(y) = y

                 a(η)=-log(1-ø)

  高斯分布转换为指数(因为σ的取值对最后的结果没影响,所以设σ2=1):p(y;μ)=(1/2π)exp(-1/2(y-μ)2);2π上有根号

                                          =(1/2π)exp(-1/2y2).exp(μy-1/2μ2)

  根据上面指数分布的公式可得出:

                b(y)=(1/2π)exp(-1/2y2);2π上有根号

                                           η=μ

                                           T(y) = y

                                           a(η)=1/2μ2

  广义线性模型的三步是:
        1.将y|x;θ变换成以η为参数的指数分布的形式

          2.因为h(x)=E[y|x],所以能过第1步的变换可以得到E[y|x]与η的对应关系(对于logistic回归,期望值是ø,ø与η的关系是ø=1/(1+e-η);对于线性回归,期望值是μ,μ与η的关系是η=μ)

        3.设定η=θTx(如果η是一个向量值的话,那么ηi=θiTx)

    相关评论

    阅读本文后您有什么感想? 已有人给出评价!

    • 8 喜欢喜欢
    • 3 顶
    • 1 难过难过
    • 5 囧
    • 3 围观围观
    • 2 无聊无聊

    热门评论

    最新评论

    发表评论 查看所有评论(0)

    昵称:
    表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
    字数: 0/500 (您的评论需要经过审核才能显示)
    推荐文章

    没有数据