【テキストマイニング】 Amebaブログからデータ取得するための準備。
テキストマイニングを行うために、Ameba ブログ(アメブロ)のデータを取得してみようと思ったので、色々調べてみたことのメモです。
※yahoo ブログも考えたのですが、終了してしまったようです。
一応、やりたいことは、Ameba ブログからユーザーごとに 10~20記事くらいを取得することです。ユーザー(著者)数は特に決めていませんが、ある程度の人数は取得する予定です。
ちなみに僕はアメーバブログを一度も開設したことがないので、詳しいことは分かってなくて、この記事は推測で書いています。。笑
Contents
公式ジャンル一覧
Ameba ブログでは、ブログごとにジャンルを設定するみたいで、公式が決めているジャンルを選択する感じなのかな?と思います。
「公式ジャンル一覧」が以下の URL で見ることができます。
「テーマ」別のジャンル一覧になります。
「テーマ」の右隣りの「日記」を選択すると、「職業」や「年代」カテゴリに分けて表示されます。
ランキング一覧
今回は、「テーマ」別の方を調べたいと思います。
ジャンルごとにリンクになっていて、クリックすると、そのジャンルのランキングが 3位 まで表示されます。
例えば、「お酒(飲み歩き・家飲み)」は以下の URL でみれます。
https://blogger.ameba.jp/genres/alcohol-houseparty
ブログ記事データ取得のために必要なのは、ランキング一覧なので、「総合ブログランキングをもっと見る」リングをクリックします。
すると、以下の URL でランキング一覧が見れます。
https://blogger.ameba.jp/genres/alcohol-houseparty/blogs/ranking
「https://blogger.ameba.jp/genres/カテゴリ名/blogs/ranking」で対象カテゴリのランキング一覧が取得できます。
1ページ当たり、20ユーザのブログトップページへのリンクが表示されます。
「次の20件」リンクを選択すると 21位~40位までのランキングが表示されます。
21位~40位までのランキングは、以下の URL から見ることができます。
https://blogger.ameba.jp/genres/alcohol-houseparty/blogs/ranking?rank=20&amebaId=mok0gee
ここで、URL の「rank=」で一つ前の順位(21位~40位の場合は、20(位))を指定し、「amebaId=」で 20位の ユーザID が指定されています。
なので、「https://blogger.ameba.jp/genres/カテゴリ名/blogs/ranking?rank=1つ前の順位&amebaId=1つ前の順位のユーザID」となります。
以降は同様にランキングページが続いていきます。
対象ユーザの最新の記事一覧
ランキング一覧ページのリンクをクリックすると、対象ユーザのブログトップページに別ウィンドウで開きます。
URL は以下のとおりです。
「https://ameblo.jp/ユーザID/」に飛ぶようになっています。
ただし、ここでも、対象ユーザの「記事一覧」がほしいので、「最新の記事一覧」ページにいきます。
https://ameblo.jp/beef-2929/entrylist.html
「https://ameblo.jp/ユーザID/entrylist.html」で、対象ユーザの最新の記事一覧が取得できます。
これで、アメーバブログからデータを取得するための準備が整いました。
関連記事
-
-
【Python】形態素解析器 Mecab を Linux(Ubuntu)で使ってみた。
Linux の Ubuntu OS に、形態素解析器 Mecab をインストールし、使ってみたときの
-
-
【Python】NLTK(自然言語処理ライブラリ)を使ってみた。
Python の自然言語処理ライブラリである NLTK を Linux 環境にインストールして使って
-
-
【mecab-python3】parseToNode で surface が正しく取得できないときの対処法。
python3 で mecab-python3 を使うと、parseToNode で surface
-
-
【テキストマイニング】 bigram を用いて小説の書き手の識別をしてみる
「テキストマイニング入門」という本に書かれている内容に添って RMeCab を使った小説の分析を行っ