機械学習やデータコンペの練習として使える,scikit-learnのデータセットについてご紹介します。
また,データの取得方法についてもご説明します。
目次
scikit-learnのデータセット概要
まず,scikit-learnに同梱されているデータセットの概要についてご説明します。
分類と回帰の2つに分けてご紹介します。
分類問題のデータセット
- アヤメの種類
- 手書き数字
- ワインの種類
- がん診断
分類問題のデータセット
- ボストン住宅価格
- 糖尿病の進行状況
- 生理学的データと運動測定
データセット別解説
【分類】アヤメの種類

インポートの方法
import pandas as pd
from sklearn.datasets import load_iris
# データを取得
data = load_iris()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)【分類】手書き数字

インポートの方法
import pandas as pd
from sklearn.datasets import load_digits
# データを取得
data = load_digits()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)【分類】ワインの種類

インポートの方法
import pandas as pd
from sklearn.datasets import load_wine
# データを取得
data = load_wine()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)【分類】がん診断

インポートの方法
import pandas as pd
from sklearn.datasets import load_breast_cancer
# データを取得
data = load_breast_cancer()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)【回帰】ボストン住宅価格

インポートの方法
import pandas as pd
from sklearn.datasets import load_boston
# データを取得
data = load_boston()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)【回帰】糖尿病の進行状況

インポートの方法
import pandas as pd
from sklearn.datasets import load_diabetes
# データを取得
data = load_diabetes()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)【回帰】生理学的データと運動測定

インポートの方法
import pandas as pd
from sklearn.datasets import load_linnerud
# データを取得
data = load_linnerud()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.DataFrame(data.target, columns=data.target_names)

コメント