コーエンのκ係数とφ係数 - 日々のつれづれ

こちらの本を読んでいて、しらないことがあったので、メモ。
ISBN:978-4765313032:detail
奥田先生の本は2冊読みました。
前半はとっつきやすく、中盤からレベルがグッとあがる感じ。
ナメているとしっぺ返しをくらいます。

診断や予測ではGold Standardとの一致率について解釈に迷う。

コーエンのκ係数とφ係数、両者の違いをちゃんと理解できていないのですが、どちらも使えそうなのでメモ

コーエンのκ係数 --- 観測者間の観測結果の一致度を評価する指標のようだ

> mat <- matrix(NA,ncol=3,nrow=3)
> dimnames(mat) <- lapply(paste("観測者",1:2,sep=""),paste,c("陽性","陰性","合計"),sep="-")
> mat[1:2,1:2] <- letters[1:4]
> mat[3,] <- apply(mat[1:2,],2,paste,collapse=" + ")
> mat[,3] <- apply(mat[,1:2],1,paste,collapse=" + ")
> mat[3,3] <- "n"
> as.table(mat)
             観測者2-陽性 観測者2-陰性 観測者2-合計
観測者1-陽性 a            c            a + c       
観測者1-陰性 b            d            b + d       
観測者1-合計 a + b        c + d        n

このとき、観測者1と観測者2の間の一致度は

単純な一致率はa,b,c,dのバランスが悪いと、数の大小でバイアスが入ってしまう

粗一致率： $P_0 = \frac{(a + d)}{n}$

そこで、偶然による一致を補正して期待値を求めます

aの期待値： $\frac{(a + b)(a + c)}{n}$

dの期待値： $\frac{(d + b)(d + c)}{n}$

一致率の期待値： $P_e = \frac{\frac{(a + b)(a + c)}{n} + \frac{(d + b)(d + c)}{n}}{n}$

するとコーエンのκ係数は

κ係数： $\kappa = \frac{P_0 - P_e}{1 - P_e}$

そしてκの標準誤差は

κの標準誤差： $SE(\kappa) = \sqrt{\frac{P_0 (1 - P_0)}{n(1 - P_e)}}$

φ係数 --- Gold Standard(GS)と予測結果(Pred)の同時妥当性、一致妥当性を求める指標で、2x2クロステーブルに対する相関係数のようなもの

> mat <- matrix(NA,ncol=3,nrow=3)
> dimnames(mat) <- lapply(c("GS","Pred"),paste,c("陽性","陰性","合計"),sep="-")
> mat[1:2,1:2] <- letters[1:4]
> mat[3,] <- apply(mat[1:2,],2,paste,collapse=" + ")
> mat[,3] <- apply(mat[,1:2],1,paste,collapse=" + ")
> mat[3,3] <- "n"
> as.table(mat)
        Pred-陽性 Pred-陰性 Pred-合計
GS-陽性 a         c         a + c    
GS-陰性 b         d         b + d    
GS-合計 a + b     c + d     n