ぷそさんのプログラミング研究所

【scikit-learn】7種のサンプルデータセットを図で解説|機械学習

機械学習やデータコンペの練習として使える,scikit-learnのデータセットについてご紹介します。

また,データの取得方法についてもご説明します。

目次

scikit-learnのデータセット概要

まず,scikit-learnに同梱されているデータセットの概要についてご説明します。

分類回帰の2つに分けてご紹介します。

分類問題のデータセット

  • アヤメの種類
  • 手書き数字
  • ワインの種類
  • がん診断

分類問題のデータセット

  • ボストン住宅価格
  • 糖尿病の進行状況
  • 生理学的データと運動測定

データセット別解説

【分類】アヤメの種類

花の特徴からアヤメの品種を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_iris

# データを取得
data = load_iris()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)

【分類】手書き数字

手書きの数字画像から数字を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_digits

# データを取得
data = load_digits()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)

【分類】ワインの種類

ワインの特徴からワインの種類を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_wine

# データを取得
data = load_wine()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)

分類】がん診断

乳がんの診断結果から悪性・良性を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_breast_cancer

# データを取得
data = load_breast_cancer()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)

【回帰】ボストン住宅価格

街の各種データから住宅価格を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_boston

# データを取得
data = load_boston()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)

【回帰】糖尿病の進行状況

患者の検査数値から1年後の進行状況を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_diabetes

# データを取得
data = load_diabetes()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)

【回帰】生理学的データと運動測定

運動測定結果から身体の特徴を予測する問題です。

インポートの方法

import pandas as pd
from sklearn.datasets import load_linnerud

# データを取得
data = load_linnerud()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.DataFrame(data.target, columns=data.target_names)
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

このブログでは,PythonやLaTeXの使い方などを紹介しています!
仕事でも趣味でもプログラミングをしています。
ブログは2022年8月にスタートしました。
【経歴】東京大学大学院修了→大手IT企業勤務

コメント

コメントする

目次