毎回、使うときに探すのも大変だし、使い慣れたものばかりだと正しくコードを書いたのか分かりにくい。
2023年時点の記録を残そうとおもった。
回帰や分類の問題に使えそうなデータセット
Rにあるもの
種類 | 名前 | 説明 | ライブラリ |
---|---|---|---|
回帰 | mtcars | 自動車の性能に関する情報(燃費など) | 組み込み |
回帰 | airquality | 大気中の酸素、二酸化窒素、風速などの情報 | 組み込み |
回帰 | swiss | スイスの州ごとの特徴(農業、教育、福祉など) | 組み込み |
回帰 | Boston | ボストン市の住宅価格に関する情報 | MASS |
回帰 | diamonds | ダイヤモンドの特性(カラット、カットなど) | ggplot2 |
分類 | iris | アヤメの花の品種を分類するための情報 | 組み込み |
分類 | BreastCancer | 乳がんの診断情報 | mlbench |
分類 | Sonar | 音響信号の反射パターンを使用して鉱石か岩かを分類する情報 | mlbench |
分類 | Spam | 電子メールがスパムか非スパムかを分類する情報 | kernlab |
分類 | Titanic | タイタニック号の乗客の情報と生存結果 | Titanic |
Rにないもの
種類 | 名前 | 説明 |
---|---|---|
回帰 | California Housing | カリフォルニア州の住宅価格の特徴量とその値 |
回帰 | Energy Efficiency | 建物のエネルギー効率に関連する特徴量と目的変数 |
回帰 | Wine Quality | 異なる特性に基づいたワインの品質の評価 |
回帰 | Red Wine Quality | 赤ワインの特性に基づいた品質の評価 |
回帰 | White Wine Quality | 白ワインの特性に基づいた品質の評価 |
分類 | Bank Marketing | 銀行の顧客の属性と最終的な預金申し込みの結果 |
分類 | Default Credit Card | クレジットカードのデフォルト支払いの予測 |
分類 | Breast Cancer | 乳がんの診断情報 |
分類 | Pima Indians Diabetes | ピマ・インディアン部族の糖尿病発症の予測 |
分類 | German Credit | ドイツの銀行の信用情報と顧客の信用リスク評価 |
全部を使いこなせていないので、本当に使えるのかはよく分からない