【Python】Beautiful Soup を使ってスクレイピングする方法。
公開日:
:
最終更新日:2020/04/19
Python Beautiful Soup, tree, wget, スクレイピング
Beautiful Soup は、シンプルでわかりやすい API でデータを抜き出せる Python のライブラリです。
Contents
Beautiful Soup のインストール
Beautiful Soup を pip でインストールします。
1 |
# pip install beautifulsoup4 |
インストールは正常に完了したのですが、以下のようなメッセージが表示されたので、pip を upgrade しました。
You are using pip version 8.1.1, however version 18.1 is available.
You should consider upgrading via the ‘pip install –upgrade pip‘ command.
1 |
# pip install --upgrade pip |
pip のバージョンが 18.1 になりました。
wget でファイルを取得
スクレイピングするためのファイルを wget コマンドで取得します。
1 2 3 4 5 6 7 8 9 |
# -r, --recursive:リンクをたどって再帰的にダウンロードする。 # --no-parent:親ディレクトリをクロールしない。 # -l, --level:リンクをたどる深さを制限する。 # --restrict-file-names=nocontrol:URLに日本語が含まれる場合に、日本語のファイル名で保存する。 # wget -r --no-parent -w 1 -l 1 --restrict-file-names=nocontrol https://gihyo.jp/ |
取得したファイル一覧を tree コマンドで確認します。
1 |
$ tree gihyo.jp |
Requests で HTMLを取得する
先ほどは、wget で HTML ファイルを取得しましたが、Python ライブラリの requests を用いてもデータを取得することができます。
以下のように URL を指定します。HTTP に関する情報も取得できるようなので、コードとコメントで出力結果を載せておきます。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
url = 'https://en.wikipedia.org/wiki/index.php' + \ '?title=List_of_Game_of_Thrones_episodes&oldid=802553687' r = requests.get(url) # サーバーから返されたHTTP ステータスコード print(r.status_code) # 200 # テキストのステータスメッセージ print(r.reason) # OK # HTTPレスポンスヘッダー print(r.headers) # HTTPリクエストヘッダー print(r.request.headers) |
Beautiful Soup4 でスクレイピングする
先ほどダウンロードしたファイルの中から、index.html に含まれるリンクのURLとテキストを表示してみます。
以下のような python のコードを実行します。
1 2 3 4 5 6 7 8 9 10 11 |
# coding:utf-8 from bs4 import BeautifulSoup with open('./gihyo.jp/index.html') as f: soup = BeautifulSoup(f, 'html.parser') for a in soup.find_all('a'): # href 属性と、リンクのテキストを取得 print(a.get('href'), a.text) |
WikiPedia のページをスクレイピング
実際に、上の requests で取得した wikipedia のページに対して、どのような情報が取れるか確認しました。コメントで説明と出力結果を載せておきます。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
html_contents = r.text html_soup = BeautifulSoup(html_contents, 'html.parser') # 最初の<h1>タグを検索する first_h1 = html_soup.find('h1')print(first_h1) # <h1 class="firstHeading" id="firstHeading" lang="ja">globe</h1> print(first_h1.name) # h1 # contents -> タグの子要素をリストで取得 print(first_h1.contents) # ['globe'] # text -> タグの子要素を単純なテキストとして取得 print(first_h1.text) print(first_h1.get_text()) # globe print(first_h1.attrs) # {'id': 'firstHeading', 'class': ['firstHeading'], 'lang': 'ja'} print(first_h1.attrs['id']) print(first_h1['id']) print(first_h1.get('id')) # firstHeading |
あと、find や find_all を入れ子で使う場合は、値が取れない箇所があるとエラーになってしまうので注意が必要かと思いました(実際にそこでハマってしまいました)。
関連記事
-
【Python】API を使って Amazon の商品情報を収集する方法。
AmazonAPI ライブラリをインストール 以下のコマンドで python-amazon-sim
-
【Pandas】 DetaFrame の列ごとに演算する方法【Python】
今回は、DetaFrame の列ごとに平均や加算・減算なのど演算をし、結果を DetaFrame 型
-
【Pandas】 DataFrame と Series のデータ構造について【Python】
今回は、Python でデータ分析を行っていると必ず使う Pandas の DataFrame と
-
【Python】Wikipedia のデータセットを取得し、文章を抽出する方法。
Wikipedia のデータセットを取得し、Python のライブラリを用いて文章を抽出する方法を紹
-
【Pandas】 DataFrame で2行の列ごとの差を計算する方法【Python】
今回は、Pandas の DataFrame で、2行間の列ごとの値の差を計算し、その結果を Dat
-
【Python】プログレスバーを表示させる【tqdm】
Python でスクリプトの実行時間が長くなると、進捗状況が知りたくなったので、標準出力にどのくらい
-
【Python】 複数の辞書型の同じ key を持つ value を計算に用いる方法。
Python で、複数の辞書型を読み込んで、同じキー(key)を持つ数値(value)を計算に使う方
-
【OpenCV】検出した顔画像部分を切り出す方法【Python】
OpenCV を使って、Python で画像の中から顔部分を切り出したときのメモです。 顔部分
-
【Pandas】 DataFrame の行を抽出する方法【Python】
今回は、Python の Pandas で、DataFrame 型の行を抽出する方法を紹介します。
-
【Pandas】 loc・ilocで1行のみ Series ではなく DataFrame で抽出する方法。
Python の Pandas で DataFrame から loc や iloc を使って行を抽出