【scikit-learn】7種のサンプルデータセットを図で解説｜機械学習

2023年6月11日

機械学習やデータコンペの練習として使える，scikit-learnのデータセットについてご紹介します。

また，データの取得方法についてもご説明します。

scikit-learnのデータセット概要

まず，scikit-learnに同梱されているデータセットの概要についてご説明します。

分類と回帰の2つに分けてご紹介します。

分類問題のデータセット

アヤメの種類
手書き数字
ワインの種類
がん診断

分類問題のデータセット

ボストン住宅価格
糖尿病の進行状況
生理学的データと運動測定

データセット別解説

【分類】アヤメの種類

花の特徴からアヤメの品種を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_iris

# データを取得
data = load_iris()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)

【分類】手書き数字

手書きの数字画像から数字を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_digits

# データを取得
data = load_digits()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)

【分類】ワインの種類

ワインの特徴からワインの種類を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_wine

# データを取得
data = load_wine()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)

【分類】がん診断

乳がんの診断結果から悪性・良性を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_breast_cancer

# データを取得
data = load_breast_cancer()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)

【回帰】ボストン住宅価格

街の各種データから住宅価格を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_boston

# データを取得
data = load_boston()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)

【回帰】糖尿病の進行状況

患者の検査数値から1年後の進行状況を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_diabetes

# データを取得
data = load_diabetes()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)

【回帰】生理学的データと運動測定

運動測定結果から身体の特徴を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_linnerud

# データを取得
data = load_linnerud()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.DataFrame(data.target, columns=data.target_names)