【テキストマイニング】 Amebaブログからデータ取得するための準備。

テキストマイニングを行うために、Ameba ブログ(アメブロ)のデータを取得してみようと思ったので、色々調べてみたことのメモです。

※yahoo ブログも考えたのですが、終了してしまったようです。

一応、やりたいことは、Ameba ブログからユーザーごとに 10~20記事くらいを取得することです。ユーザー(著者)数は特に決めていませんが、ある程度の人数は取得する予定です。

ちなみに僕はアメーバブログを一度も開設したことがないので、詳しいことは分かってなくて、この記事は推測で書いています。。笑

公式ジャンル一覧

Ameba ブログでは、ブログごとにジャンルを設定するみたいで、公式が決めているジャンルを選択する感じなのかな?と思います。

「公式ジャンル一覧」が以下の URL で見ることができます。

https://blogger.ameba.jp/

「テーマ」別のジャンル一覧になります。

「テーマ」の右隣りの「日記」を選択すると、「職業」や「年代」カテゴリに分けて表示されます。

ランキング一覧

今回は、「テーマ」別の方を調べたいと思います。

ジャンルごとにリンクになっていて、クリックすると、そのジャンルのランキングが 3位 まで表示されます。

例えば、「お酒(飲み歩き・家飲み)」は以下の URL でみれます。

https://blogger.ameba.jp/genres/alcohol-houseparty

ブログ記事データ取得のために必要なのは、ランキング一覧なので、「総合ブログランキングをもっと見る」リングをクリックします。

すると、以下の URL でランキング一覧が見れます。

https://blogger.ameba.jp/genres/alcohol-houseparty/blogs/ranking

「https://blogger.ameba.jp/genres/カテゴリ名/blogs/ranking」で対象カテゴリのランキング一覧が取得できます。

1ページ当たり、20ユーザのブログトップページへのリンクが表示されます。

「次の20件」リンクを選択すると 21位~40位までのランキングが表示されます。

21位~40位までのランキングは、以下の URL から見ることができます。

https://blogger.ameba.jp/genres/alcohol-houseparty/blogs/ranking?rank=20&amebaId=mok0gee

ここで、URL の「rank=」で一つ前の順位(21位~40位の場合は、20(位))を指定し、「amebaId=」で 20位の ユーザID が指定されています。

なので、「https://blogger.ameba.jp/genres/カテゴリ名/blogs/ranking?rank=1つ前の順位&amebaId=1つ前の順位のユーザID」となります。

以降は同様にランキングページが続いていきます。

対象ユーザの最新の記事一覧

ランキング一覧ページのリンクをクリックすると、対象ユーザのブログトップページに別ウィンドウで開きます。

URL は以下のとおりです。

https://ameblo.jp/beef-2929/

「https://ameblo.jp/ユーザID/」に飛ぶようになっています。

ただし、ここでも、対象ユーザの「記事一覧」がほしいので、「最新の記事一覧」ページにいきます。

https://ameblo.jp/beef-2929/entrylist.html

「https://ameblo.jp/ユーザID/entrylist.html」で、対象ユーザの最新の記事一覧が取得できます。

これで、アメーバブログからデータを取得するための準備が整いました。

関連記事

【Python】NLTK(自然言語処理ライブラリ)を使ってみた。

Python の自然言語処理ライブラリである NLTK を Linux 環境にインストールして使って

記事を読む

【mecab-python3】parseToNode で surface が正しく取得できないときの対処法。

python3 で mecab-python3 を使うと、parseToNode で surface

記事を読む

【Python】形態素解析器 Mecab を Linux(Ubuntu)で使ってみた。

Linux の Ubuntu OS に、形態素解析器 Mecab をインストールし、使ってみたときの

記事を読む

【テキストマイニング】 bigram を用いて小説の書き手の識別をしてみる

「テキストマイニング入門」という本に書かれている内容に添って RMeCab を使った小説の分析を行っ

記事を読む

【matplotlib】 Python で折れ線グラフを描く方法。

今回は、Python の matplotlib というライブラリを使っ

【Pandas】 loc・ilocで1行のみ Series ではなく DataFrame で抽出する方法。

Python の Pandas で DataFrame から loc

【Pandas】 DataFrame で2行の列ごとの差を計算する方法【Python】

今回は、Pandas の DataFrame で、2行間の列ごとの値の

【Pandas】 DetaFrame の列ごとに演算する方法【Python】

今回は、DetaFrame の列ごとに平均や加算・減算なのど演算をし、

【Pandas】 DataFrame の行を抽出する方法【Python】

今回は、Python の Pandas で、DataFrame 型の行

→もっと見る

PAGE TOP ↑