日々のつれづれ

不惑をむかえ戸惑いを隠せない男性の独り言

回帰や分類に使えるデータセットの一覧

毎回、使うときに探すのも大変だし、使い慣れたものばかりだと正しくコードを書いたのか分かりにくい。

2023年時点の記録を残そうとおもった。

回帰や分類の問題に使えそうなデータセット

Rにあるもの

種類 名前 説明 ライブラリ
回帰 mtcars 自動車の性能に関する情報(燃費など) 組み込み
回帰 airquality 大気中の酸素、二酸化窒素、風速などの情報 組み込み
回帰 swiss スイスの州ごとの特徴(農業、教育、福祉など) 組み込み
回帰 Boston ボストン市の住宅価格に関する情報 MASS
回帰 diamonds ダイヤモンドの特性(カラット、カットなど) ggplot2
分類 iris アヤメの花の品種を分類するための情報 組み込み
分類 BreastCancer 乳がんの診断情報 mlbench
分類 Sonar 音響信号の反射パターンを使用して鉱石か岩かを分類する情報 mlbench
分類 Spam 電子メールがスパムか非スパムかを分類する情報 kernlab
分類 Titanic タイタニック号の乗客の情報と生存結果 Titanic

Rにないもの

種類 名前 説明
回帰 California Housing カリフォルニア州の住宅価格の特徴量とその値
回帰 Energy Efficiency 建物のエネルギー効率に関連する特徴量と目的変数
回帰 Wine Quality 異なる特性に基づいたワインの品質の評価
回帰 Red Wine Quality 赤ワインの特性に基づいた品質の評価
回帰 White Wine Quality 白ワインの特性に基づいた品質の評価
分類 Bank Marketing 銀行の顧客の属性と最終的な預金申し込みの結果
分類 Default Credit Card クレジットカードのデフォルト支払いの予測
分類 Breast Cancer 乳がんの診断情報
分類 Pima Indians Diabetes ピマ・インディアン部族の糖尿病発症の予測
分類 German Credit ドイツの銀行の信用情報と顧客の信用リスク評価

全部を使いこなせていないので、本当に使えるのかはよく分からない