はしくれエンジニアもどきのメモ

情報・Web系技術・Englishの勉強メモ・備忘録です。

scikit-learnでMNISTの手書き数字データセットをロードする

scikit-learnでMNISTの手書き数字データセットをロードする

  • http://mldata.org/ サーバーが死んでる
  • sklearn.datasets.fetch_mldataがdeprecateされる

ということについてのメモ.

環境

  • Windows10 64bit
    • pip 20.0.2
    • Python 3.7
    • scikit-learn '0.21.2'

fetch_openmlを使う

sklearn.datasets.fetch_mldataがdeprecateされるので, fetch_openmlを使う.

fetch_mldata('MNIST original')としていたデータは以下のようにすれば読み込める.

from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784', version=1)
mnist.data.shape
(70000, 784)

70000サンプルの784=28x28サイズの画像があることがわかる.

ちなみにデータセットのURLはhttps://www.openml.org/d/554になっている,

参考: fetch_mldataによるエラー · Issue #4 · YutaroOgawa/Deep-Reinforcement-Learning-Book · GitHub