TOP

【画像認識】 Google画像検索結果を取得する方法【google image download】

公開日： 2020/05/22 : 最終更新日：2020/09/04 機械学習 error, google image download, Google画像検索, python, エラー, 画像取得, 画像認識

今回は、深層学習（DeepLearning）で画像認識をするための画像データの収集を、Google画像検索結果の画像を取得する方法を紹介します。

イメージとしては、収集したい画像のキーワードを指定すると、自動的にそのキーワードの Google画像検索結果の上位のものをダウンロードしてくれる、という感じです。

環境としては、Google Colaboratory を使います。
【Google Colaboratory】クラウド上でPythonを使って機械学習を行う。

Google Colaboratory を使う理由としては、深層学習の学習に PC に対して負荷がかかるため、無料で GPU を使えるからです。

Contents

Google画像検索結果の画像を取得する

以下のコマンドで「google image download」をインストールします。

!pip install google_images_download

1	!pip install google_images_download

以下のコマンドで Google画像検索結果の画像をダウンロードします。

「–keywords」でキーワードを指定し、「-f」で取得する画像の拡張子を指定します。

!googleimagesdownload --keywords "トヨタ プリウス" -f "jpg"

1	!googleimagesdownload --keywords "トヨタプリウス" -f "jpg"

以下のようなエラーがでました。。。

Item no.: 1 –> Item name = \u30c8\u30e8\u30bf \u30d7\u30ea\u30a6\u30b9
Evaluating…
Starting Download…

Unfortunately all 100 could not be downloaded because some images were not downloadable. 0 is all we got for this search filter!

Errors: 0

Everything downloaded!
Total errors: 0
Total time taken: 0.6210567951202393 Seconds

どうやら、以前と Google画像検索の仕様が変わったために、画像の取得ができなくなっているようです。

対処方法としては、GitHub に仕様変更に対応済みのプログラムがあるので、それを使うことです。

https://github.com/Joeclinton1/google-images-download/tree/patch-1

Google Colaboratory 上からは、「git clone」コマンドを使ってダウンロードします。

!git clone https://github.com/Joeclinton1/google-images-download.git gid-joeclinton

1	!git clone https://github.com/Joeclinton1/google-images-download.git gid-joeclinton

古い方と競合しないように gid-joeclinton という名前のディレクトリを指定しています。

Cloning into ‘gid-joeclinton’…
remote: Enumerating objects: 4, done.
remote: Counting objects: 100% (4/4), done.
remote: Compressing objects: 100% (4/4), done.
remote: Total 625 (delta 0), reused 3 (delta 0), pack-reused 621
Receiving objects: 100% (625/625), 275.83 KiB | 506.00 KiB/s, done.
Resolving deltas: 100% (362/362), done.

Google Colaboratory の /content/ 直下に gid-joeclinton ディレクトリができます。その中の「google_images_download.py 」を直接実行します。

!/content/gid-joeclinton/google_images_download/google_images_download.py --keywords "toyota_prius" -f "jpg"

1	!/content/gid-joeclinton/google_images_download/google_images_download.py --keywords "toyota_prius" -f "jpg"

すると、以下のようにダウンロードできました。

Item no.: 1 –> Item name = toyota_prius
Evaluating…
Starting Download…
Completed Image ====> 1.2016_Toyota_Prius_%28ZVW50R%29_Hybrid_liftback_%282016-04-02%29_01.jpg
Completed Image ====> 2.2020-toyota-prius-mmp-1-1565732347.jpg
Completed Image ====> 3.Toyota-Prius-Prime-PHEV-OEM-.jpg
Completed Image ====> 4.maxresdefault.jpg
Completed Image ====> 5.2019-toyota-prius-limited-1545163015.jpg
Completed Image ====> 6.2020-toyota-prius_100720199_h.jpg
Completed Image ====> 7.dsc_0939-2.jpg
Completed Image ====> 8.2020-toyota-prius_100716003_h.jpg
Wrong image format returned. Skipping…
Completed Image ====> 9.2019-toyota-prius_100682787_h.jpg
Completed Image ====> 10.1Hero_Image_2020_Prius_XLE_AWD-e_Blue_071-1500×1000.jpg
以下省略

デフォルトで 100件取得されます。また、エラーが表示されている画像は取得できていません。

自動的に「–keywords」で指定したキーワード名のディレクトリが作成され、その中に画像が入っています。

今回の場合は、「/content/downloads/toyota_prius/」ディレクトリに画像が格納されます。

取得した画像を一覧表示させる

先ほど取得したプリウスの画像を一覧表示させ、確認します。

matplotlib と opencv を使います。

from os import listdir
import matplotlib.pyplot as plt
import cv2

path = '/content/downloads/toyota_prius/'
# os.listdir
# path で指定したディレクトリに含まれる ファイル・ディレクトリ名の一覧をリスト形式で返す。
imagesList = listdir(path)
print(imagesList)

# OpenCV のバージョン確認用
print(cv2.__version__)

# 画像（グラフ）１つのサイズを指定
# figsize=(横のサイズ、縦のサイズ)
fig = plt.figure(figsize=(20, 100))
# 表示画像列数
columns = 5
# 表示画像行数
rows = 20

i = 1
for file in imagesList:
  img_bgr = cv2.imread(path + file)
  img_rgb = cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB)
  # i で左上からの位置数を指定
  # 1 2 3 4 5
  # 6 7 8 9 10
  fig.add_subplot(rows, columns, i)
  # 番号を表示
  plt.title(i)
  plt.imshow(img_rgb)
  plt.axis('off')
  if i < 99:
    i = i + 1

plt.show()

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

from os import listdir

import matplotlib.pyplot as plt

import cv2

path = '/content/downloads/toyota_prius/'

# os.listdir

# path で指定したディレクトリに含まれるファイル・ディレクトリ名の一覧をリスト形式で返す。

imagesList = listdir(path)

print(imagesList)

# OpenCV のバージョン確認用

print(cv2.__version__)

# 画像（グラフ）１つのサイズを指定

# figsize=(横のサイズ、縦のサイズ)

fig = plt.figure(figsize=(20, 100))

# 表示画像列数

columns = 5

# 表示画像行数

rows = 20

i = 1

for file in imagesList:

img_bgr = cv2.imread(path + file)

img_rgb = cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB)

# i で左上からの位置数を指定

# 1 2 3 4 5

# 6 7 8 9 10

fig.add_subplot(rows, columns, i)

# 番号を表示

plt.title(i)

plt.imshow(img_rgb)

plt.axis('off')

if i < 99:

i = i + 1

plt.show()

結果は、以下のように表示されます。

不要な画像を削除する

確認すると、中には 38番のような車内の画像を取得しているものもあるため、以下のスクリプトで番号を指定して削除します。

import os

path = '/content/downloads/toyota_prius/'
imagesList = listdir(path)

i = 1
for file in imagesList:
if i == 38:
os.remove(path + file)

1

2

3

4

5

6

7

8

9

import os

path = '/content/downloads/toyota_prius/'

imagesList = listdir(path)

i = 1

for file in imagesList:

if i == 38:

os.remove(path + file)

以上で、画像認識をするためのデータを準備することができます。

今後は、いくつかの車種の取得し、車種の識別をしたいと思います。

参考書籍

今すぐ試したい！機械学習・深層学習(ディープラーニング) 画像認識プログラミングレシピ

Tweet

【PyTorch】畳込みニューラルネットワークを構築する方法【CNN】

今回は、PyTorch を使って畳込みニューラルネットワーク（CNN）を構築する方法について紹介しま

記事を読む

【Weka】ARFF 形式から CSV 形式に簡単に変換する方法。

フリーのデータマイニングツールである WEKA では、ARFF 形式と CSV 形式のデータを読み込

記事を読む

【Weka】欠損データを自動的に補完するフィルタを使ってみた。

機械学習で用いるデータについてです。データは完璧なことに越したことはないが、通常は、ある属性の値が入

記事を読む

【深層学習】 TensorFlow と Keras をインストールする【Python】

今回は、Google Colaboratory 上で、深層学習（DeepLearning）フレームワ

記事を読む

【Weka】CSVファイルを読み込んで決定木を実行。

フリーの機械学習ソフト Weka を使って、CSVファイルを読み込んで決定木（Decision Tr

記事を読む

【Chainer】手書き数字認識をしてみた【Deep Learning】

Chainerを用いて、ニューラルネットワークを構築し、手書き数字認識を行ったときのメモです。

記事を読む

【Weka】アソシエーション・ルール(association rule)【機械学習】

フリーの機械学習ツール Weka でアソシエーション・ルール(association rule)を使

記事を読む

【機械学習】モンテカルロ法（Monte Carlo method）について。

モンテカルロ法（Monte Carlo method）とは、シュミレーションや数値計算を乱数を用いて

記事を読む

【機械学習】決定木（decision tree）について。

教師あり学習の一つである決定木（desicion tree）について勉強したことを書いていきます。

記事を読む

【機械学習・手法比較】決定木とナイーブベイズを比較してみた。

同じデータを使って、教師有り機械学習手法の決定木（Decision Tree）とナイーブベイズ（N

記事を読む

PREV: 【深層学習】 TensorFlow と Keras をインストールする【Python】
NEXT: 【Linux】ファイルの重複した行を削除して、ファイルを結合する方法。

NEW ENTRY

: 無料動画編集ソフト AviUtl で mp4 形式の動画を読み込み・出力する方法【Windows】
今回は、無料動画編集ソフト AviUtl で mp4 形式の動画を読み

: 【Cubase】イヤホンから音がでないときの対処方法。
Cubase でイヤホンから音がでなくなったときの対処方法のメモです。

: 【Cubase】特定のトラックを無効にする方法。
今回は、Cubaseで特定のトラックのみを無効にする方法について紹介し

: 【転移学習】学習済みVGG16 による転移学習を行う方法【PyTorch】
今回は、PyTorch を使って、学習済みのモデル VGG16 を用い

: 【PyTorch】畳込みニューラルネットワークを構築する方法【CNN】
今回は、PyTorch を使って畳込みニューラルネットワーク（CNN）

→もっと見る

カテゴリー
- Webサイト運営 (8)
- お金 (49)
  - FX・外貨預金 (27)
    - MT4 (18)
  - 仮想通貨 (18)
  - 株・投資信託・ETF (3)
- カメラ (4)
- テキストマイニング (4)
- パソコン (30)
  - Mac (2)
- ファッション (2)
- プログラミング (77)
  - Excel（VBA） (1)
  - LaTeX (8)
  - Linux (13)
  - MySQL (7)
  - Perl (1)
  - Python (33)
  - R言語 (5)
  - Scilab (2)
  - SQLite (2)
- ボードゲーム (13)
  - 将棋 (3)
- 文字 (1)
- 機械学習 (23)
- 生活 (5)
- 税理士 (12)
- 競馬 (9)
- 配信者 (1)
- 音楽 (41)
  - DTM (7)
    - Cubase (6)
  - エイベックス (2)
  - ビーイング (24)
- 食事 (2)

PAGE TOP ↑

Tweet

【画像認識】 Google画像検索結果を取得する方法【google image download】

Google画像検索結果の画像を取得する

取得した画像を一覧表示させる

不要な画像を削除する

参考書籍

関連記事

【PyTorch】畳込みニューラルネットワークを構築する方法【CNN】

【Weka】ARFF 形式から CSV 形式に簡単に変換する方法。

【Weka】欠損データを自動的に補完するフィルタを使ってみた。

【深層学習】 TensorFlow と Keras をインストールする【Python】

【Weka】CSVファイルを読み込んで決定木を実行。

【Chainer】手書き数字認識をしてみた【Deep Learning】

【Weka】アソシエーション・ルール(association rule)【機械学習】

【機械学習】モンテカルロ法（Monte Carlo method）について。

【機械学習】決定木（decision tree）について。

【機械学習・手法比較】決定木とナイーブベイズを比較してみた。

NEW ENTRY

カテゴリー