【Python】Beautiful Soup を使ってスクレイピングする方法。
公開日:
:
最終更新日:2020/04/19
Python Beautiful Soup, tree, wget, スクレイピング
Beautiful Soup は、シンプルでわかりやすい API でデータを抜き出せる Python のライブラリです。
Contents
Beautiful Soup のインストール
Beautiful Soup を pip でインストールします。
1 |
# pip install beautifulsoup4 |
インストールは正常に完了したのですが、以下のようなメッセージが表示されたので、pip を upgrade しました。
You are using pip version 8.1.1, however version 18.1 is available.
You should consider upgrading via the ‘pip install –upgrade pip‘ command.
1 |
# pip install --upgrade pip |
pip のバージョンが 18.1 になりました。
wget でファイルを取得
スクレイピングするためのファイルを wget コマンドで取得します。
1 2 3 4 5 6 7 8 9 |
# -r, --recursive:リンクをたどって再帰的にダウンロードする。 # --no-parent:親ディレクトリをクロールしない。 # -l, --level:リンクをたどる深さを制限する。 # --restrict-file-names=nocontrol:URLに日本語が含まれる場合に、日本語のファイル名で保存する。 # wget -r --no-parent -w 1 -l 1 --restrict-file-names=nocontrol https://gihyo.jp/ |
取得したファイル一覧を tree コマンドで確認します。
1 |
$ tree gihyo.jp |
Requests で HTMLを取得する
先ほどは、wget で HTML ファイルを取得しましたが、Python ライブラリの requests を用いてもデータを取得することができます。
以下のように URL を指定します。HTTP に関する情報も取得できるようなので、コードとコメントで出力結果を載せておきます。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
url = 'https://en.wikipedia.org/wiki/index.php' + \ '?title=List_of_Game_of_Thrones_episodes&oldid=802553687' r = requests.get(url) # サーバーから返されたHTTP ステータスコード print(r.status_code) # 200 # テキストのステータスメッセージ print(r.reason) # OK # HTTPレスポンスヘッダー print(r.headers) # HTTPリクエストヘッダー print(r.request.headers) |
Beautiful Soup4 でスクレイピングする
先ほどダウンロードしたファイルの中から、index.html に含まれるリンクのURLとテキストを表示してみます。
以下のような python のコードを実行します。
1 2 3 4 5 6 7 8 9 10 11 |
# coding:utf-8 from bs4 import BeautifulSoup with open('./gihyo.jp/index.html') as f: soup = BeautifulSoup(f, 'html.parser') for a in soup.find_all('a'): # href 属性と、リンクのテキストを取得 print(a.get('href'), a.text) |
WikiPedia のページをスクレイピング
実際に、上の requests で取得した wikipedia のページに対して、どのような情報が取れるか確認しました。コメントで説明と出力結果を載せておきます。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
html_contents = r.text html_soup = BeautifulSoup(html_contents, 'html.parser') # 最初の<h1>タグを検索する first_h1 = html_soup.find('h1')print(first_h1) # <h1 class="firstHeading" id="firstHeading" lang="ja">globe</h1> print(first_h1.name) # h1 # contents -> タグの子要素をリストで取得 print(first_h1.contents) # ['globe'] # text -> タグの子要素を単純なテキストとして取得 print(first_h1.text) print(first_h1.get_text()) # globe print(first_h1.attrs) # {'id': 'firstHeading', 'class': ['firstHeading'], 'lang': 'ja'} print(first_h1.attrs['id']) print(first_h1['id']) print(first_h1.get('id')) # firstHeading |
あと、find や find_all を入れ子で使う場合は、値が取れない箇所があるとエラーになってしまうので注意が必要かと思いました(実際にそこでハマってしまいました)。
関連記事
-
【Python】プログレスバーを表示させる【tqdm】
Python でスクリプトの実行時間が長くなると、進捗状況が知りたくなったので、標準出力にどのくらい
-
【Python】機械学習のために SciPy・Matplotlib・scikit-learn をインストール。
Python で機械学習を行うために、Windows OS の python 2 系にライブラリ「S
-
【Python】 複数の辞書型の同じ key を持つ value を計算に用いる方法。
Python で、複数の辞書型を読み込んで、同じキー(key)を持つ数値(value)を計算に使う方
-
【Pandas】 DataFrame のある列の最大値を含む行のインデックス値を取得する方法。
今回は、Pandas の DataFrame において、ある列で最大値を求めて、その最大値をもつ行に
-
【Anaconda】Prompt 上で Git コマンドを実行する方法。
Anaconda のコマンドプロンプト(Anaconda Prompt)上で、Git Hub からダ
-
【Python】API を使って Amazon の商品情報を収集する方法。
AmazonAPI ライブラリをインストール 以下のコマンドで python-amazon-sim
-
【Pandas】 DetaFrame の列ごとに演算する方法【Python】
今回は、DetaFrame の列ごとに平均や加算・減算なのど演算をし、結果を DetaFrame 型
-
【Python】 DataFrame の特定の列で出現回数をカウントして降順でソートする方法。
Python で DataFrame 型の特定の列を指定して、対象列の文字列の出現回数をカウントして
-
【Python】OpenCV を使って顔画像を検出してみた。
OpenCV のインストール Numpy のインストール [crayon-66e87a554
-
【Python】 Series 型を dict(辞書型)に変換する方法。
Python で Series 型を dict(辞書型)に簡単に変換する方法を紹介します。 「