コーエンのκ係数とφ係数
こちらの本を読んでいて、しらないことがあったので、メモ。
ISBN:978-4765313032:detail
奥田先生の本は2冊読みました。
前半はとっつきやすく、中盤からレベルがグッとあがる感じ。
ナメているとしっぺ返しをくらいます。
診断や予測ではGold Standardとの一致率について解釈に迷う。
コーエンのκ係数とφ係数、両者の違いをちゃんと理解できていないのですが、どちらも使えそうなのでメモ
- コーエンのκ係数 --- 観測者間の観測結果の一致度を評価する指標のようだ
> mat <- matrix(NA,ncol=3,nrow=3) > dimnames(mat) <- lapply(paste("観測者",1:2,sep=""),paste,c("陽性","陰性","合計"),sep="-") > mat[1:2,1:2] <- letters[1:4] > mat[3,] <- apply(mat[1:2,],2,paste,collapse=" + ") > mat[,3] <- apply(mat[,1:2],1,paste,collapse=" + ") > mat[3,3] <- "n" > as.table(mat) 観測者2-陽性 観測者2-陰性 観測者2-合計 観測者1-陽性 a c a + c 観測者1-陰性 b d b + d 観測者1-合計 a + b c + d n
このとき、観測者1と観測者2の間の一致度は
単純な一致率はa,b,c,dのバランスが悪いと、数の大小でバイアスが入ってしまう
- 粗一致率:
そこで、偶然による一致を補正して期待値を求めます
- aの期待値:
- dの期待値:
- 一致率の期待値:
するとコーエンのκ係数は
- κ係数:
そしてκの標準誤差は
- κの標準誤差:
- φ係数 --- Gold Standard(GS)と予測結果(Pred)の同時妥当性、一致妥当性を求める指標で、2x2クロステーブルに対する相関係数のようなもの
> mat <- matrix(NA,ncol=3,nrow=3) > dimnames(mat) <- lapply(c("GS","Pred"),paste,c("陽性","陰性","合計"),sep="-") > mat[1:2,1:2] <- letters[1:4] > mat[3,] <- apply(mat[1:2,],2,paste,collapse=" + ") > mat[,3] <- apply(mat[,1:2],1,paste,collapse=" + ") > mat[3,3] <- "n" > as.table(mat) Pred-陽性 Pred-陰性 Pred-合計 GS-陽性 a c a + c GS-陰性 b d b + d GS-合計 a + b c + d n
このとき、GSよ予測結果の妥当性は
そしてカイ二乗とφの関係は
- φ係数:
う〜ん、統計って難しい…