日々のつれづれ

不惑をむかえ戸惑いを隠せない男性の独り言

コーエンのκ係数とφ係数

こちらの本を読んでいて、しらないことがあったので、メモ。
ISBN:978-4765313032:detail
奥田先生の本は2冊読みました。
前半はとっつきやすく、中盤からレベルがグッとあがる感じ。
ナメているとしっぺ返しをくらいます。

診断や予測ではGold Standardとの一致率について解釈に迷う。

コーエンのκ係数とφ係数、両者の違いをちゃんと理解できていないのですが、どちらも使えそうなのでメモ

  • コーエンのκ係数 --- 観測者間の観測結果の一致度を評価する指標のようだ
> mat <- matrix(NA,ncol=3,nrow=3)
> dimnames(mat) <- lapply(paste("観測者",1:2,sep=""),paste,c("陽性","陰性","合計"),sep="-")
> mat[1:2,1:2] <- letters[1:4]
> mat[3,] <- apply(mat[1:2,],2,paste,collapse=" + ")
> mat[,3] <- apply(mat[,1:2],1,paste,collapse=" + ")
> mat[3,3] <- "n"
> as.table(mat)
             観測者2-陽性 観測者2-陰性 観測者2-合計
観測者1-陽性 a            c            a + c       
観測者1-陰性 b            d            b + d       
観測者1-合計 a + b        c + d        n           

このとき、観測者1と観測者2の間の一致度は

単純な一致率はa,b,c,dのバランスが悪いと、数の大小でバイアスが入ってしまう

  • 粗一致率:P_0 = \frac{(a + d)}{n}

そこで、偶然による一致を補正して期待値を求めます

  • aの期待値:\frac{(a + b)(a + c)}{n}
  • dの期待値:\frac{(d + b)(d + c)}{n}
  • 一致率の期待値:P_e = \frac{\frac{(a + b)(a + c)}{n} + \frac{(d + b)(d + c)}{n}}{n}

するとコーエンのκ係数は

  • κ係数:\kappa = \frac{P_0 - P_e}{1 - P_e}

そしてκの標準誤差は

  • κの標準誤差:SE(\kappa) = \sqrt{\frac{P_0 (1 - P_0)}{n(1 - P_e)}}
  • φ係数 --- Gold Standard(GS)と予測結果(Pred)の同時妥当性、一致妥当性を求める指標で、2x2クロステーブルに対する相関係数のようなもの
> mat <- matrix(NA,ncol=3,nrow=3)
> dimnames(mat) <- lapply(c("GS","Pred"),paste,c("陽性","陰性","合計"),sep="-")
> mat[1:2,1:2] <- letters[1:4]
> mat[3,] <- apply(mat[1:2,],2,paste,collapse=" + ")
> mat[,3] <- apply(mat[,1:2],1,paste,collapse=" + ")
> mat[3,3] <- "n"
> as.table(mat)
        Pred-陽性 Pred-陰性 Pred-合計
GS-陽性 a         c         a + c    
GS-陰性 b         d         b + d    
GS-合計 a + b     c + d     n        

このとき、GSよ予測結果の妥当性は

\chi^2 = frac{(bc - ad)^2n}{(a + b)(c + d)(a + c)(b + d)}

そしてカイ二乗とφの関係は

  • φ係数:\phi = \frac{\sqrt{\chi^2}}{n}

う〜ん、統計って難しい…