機械学習やデータコンペの練習として使える,scikit-learnのデータセットについてご紹介します。
また,データの取得方法についてもご説明します。
目次
scikit-learnのデータセット概要
まず,scikit-learnに同梱されているデータセットの概要についてご説明します。
分類と回帰の2つに分けてご紹介します。
分類問題のデータセット
- アヤメの種類
- 手書き数字
- ワインの種類
- がん診断
分類問題のデータセット
- ボストン住宅価格
- 糖尿病の進行状況
- 生理学的データと運動測定
データセット別解説
【分類】アヤメの種類
![](https://icochan1.net/wp-content/uploads/2023/06/2a831ec055ed4fee4e1d0936ea40500d-1024x576.png)
インポートの方法
import pandas as pd
from sklearn.datasets import load_iris
# データを取得
data = load_iris()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)
【分類】手書き数字
![](https://icochan1.net/wp-content/uploads/2023/06/5f63f49b6b7d98988e1002a4a4f2d6d5-1024x576.png)
インポートの方法
import pandas as pd
from sklearn.datasets import load_digits
# データを取得
data = load_digits()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)
【分類】ワインの種類
![](https://icochan1.net/wp-content/uploads/2023/06/63ead695680eb0c485fa3f134844052f-1024x576.png)
インポートの方法
import pandas as pd
from sklearn.datasets import load_wine
# データを取得
data = load_wine()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)
【分類】がん診断
![](https://icochan1.net/wp-content/uploads/2023/06/0ae7c62e50dc705df75843b104ce66cd-1024x576.png)
インポートの方法
import pandas as pd
from sklearn.datasets import load_breast_cancer
# データを取得
data = load_breast_cancer()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)
【回帰】ボストン住宅価格
![](https://icochan1.net/wp-content/uploads/2023/06/5621deba8a18b839c7a4321764bb05e8-1024x576.png)
インポートの方法
import pandas as pd
from sklearn.datasets import load_boston
# データを取得
data = load_boston()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)
【回帰】糖尿病の進行状況
![](https://icochan1.net/wp-content/uploads/2023/06/ee3be1d100caf1aa771552d59c2bd436-1024x576.png)
インポートの方法
import pandas as pd
from sklearn.datasets import load_diabetes
# データを取得
data = load_diabetes()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.Series(data.target)
【回帰】生理学的データと運動測定
![](https://icochan1.net/wp-content/uploads/2023/06/04f86ea9c104d100d663feb8a9a65769-1-1024x576.png)
インポートの方法
import pandas as pd
from sklearn.datasets import load_linnerud
# データを取得
data = load_linnerud()
# dataframeに説明変数と目的変数を保存
data_X = pd.DataFrame(data.data, columns=data.feature_names)
data_y = pd.DataFrame(data.target, columns=data.target_names)
コメント