【テキストマイニング】 Amebaブログからデータ取得するための準備。

テキストマイニングを行うために、Ameba ブログ(アメブロ)のデータを取得してみようと思ったので、色々調べてみたことのメモです。

※yahoo ブログも考えたのですが、終了してしまったようです。

一応、やりたいことは、Ameba ブログからユーザーごとに 10~20記事くらいを取得することです。ユーザー(著者)数は特に決めていませんが、ある程度の人数は取得する予定です。

ちなみに僕はアメーバブログを一度も開設したことがないので、詳しいことは分かってなくて、この記事は推測で書いています。。笑

公式ジャンル一覧

Ameba ブログでは、ブログごとにジャンルを設定するみたいで、公式が決めているジャンルを選択する感じなのかな?と思います。

「公式ジャンル一覧」が以下の URL で見ることができます。

https://blogger.ameba.jp/

「テーマ」別のジャンル一覧になります。

「テーマ」の右隣りの「日記」を選択すると、「職業」や「年代」カテゴリに分けて表示されます。

ランキング一覧

今回は、「テーマ」別の方を調べたいと思います。

ジャンルごとにリンクになっていて、クリックすると、そのジャンルのランキングが 3位 まで表示されます。

例えば、「お酒(飲み歩き・家飲み)」は以下の URL でみれます。

https://blogger.ameba.jp/genres/alcohol-houseparty

ブログ記事データ取得のために必要なのは、ランキング一覧なので、「総合ブログランキングをもっと見る」リングをクリックします。

すると、以下の URL でランキング一覧が見れます。

https://blogger.ameba.jp/genres/alcohol-houseparty/blogs/ranking

「https://blogger.ameba.jp/genres/カテゴリ名/blogs/ranking」で対象カテゴリのランキング一覧が取得できます。

1ページ当たり、20ユーザのブログトップページへのリンクが表示されます。

「次の20件」リンクを選択すると 21位~40位までのランキングが表示されます。

21位~40位までのランキングは、以下の URL から見ることができます。

https://blogger.ameba.jp/genres/alcohol-houseparty/blogs/ranking?rank=20&amebaId=mok0gee

ここで、URL の「rank=」で一つ前の順位(21位~40位の場合は、20(位))を指定し、「amebaId=」で 20位の ユーザID が指定されています。

なので、「https://blogger.ameba.jp/genres/カテゴリ名/blogs/ranking?rank=1つ前の順位&amebaId=1つ前の順位のユーザID」となります。

以降は同様にランキングページが続いていきます。

対象ユーザの最新の記事一覧

ランキング一覧ページのリンクをクリックすると、対象ユーザのブログトップページに別ウィンドウで開きます。

URL は以下のとおりです。

https://ameblo.jp/beef-2929/

「https://ameblo.jp/ユーザID/」に飛ぶようになっています。

ただし、ここでも、対象ユーザの「記事一覧」がほしいので、「最新の記事一覧」ページにいきます。

https://ameblo.jp/beef-2929/entrylist.html

「https://ameblo.jp/ユーザID/entrylist.html」で、対象ユーザの最新の記事一覧が取得できます。

これで、アメーバブログからデータを取得するための準備が整いました。

関連記事

【Python】形態素解析器 Mecab を Linux(Ubuntu)で使ってみた。

Linux の Ubuntu OS に、形態素解析器 Mecab をインストールし、使ってみたときの

記事を読む

【mecab-python3】parseToNode で surface が正しく取得できないときの対処法。

python3 で mecab-python3 を使うと、parseToNode で surface

記事を読む

【テキストマイニング】 bigram を用いて小説の書き手の識別をしてみる

「テキストマイニング入門」という本に書かれている内容に添って RMeCab を使った小説の分析を行っ

記事を読む

【Python】NLTK(自然言語処理ライブラリ)を使ってみた。

Python の自然言語処理ライブラリである NLTK を Linux 環境にインストールして使って

記事を読む

【投資信託】為替ヘッジのあり・なしについて調べてみた。

海外株式などの投資信託を見ていると、「為替ヘッジ有り」と「為替

【楽天FX】レバレッジやロスカット率を設定する方法。

今回は、楽天FXでレバレッジやロスカット率を設定する方法について紹介し

【MQL4】注文を出す関数について調べてみた【OrderSend】

今回は、EAで注文を出すMQL4の関数「OrderSend()」につい

【楽天MT4】ドル円のスワップとスプレッドについて調べてみた。

楽天MT4で、ドル円(USD/JPY)のスワップポイントとスプレッドに

【MT4】ノートPCを閉じてもEAを実行させ続ける方法【Windows10】

今回は、MT4上でノートPCを閉じてもEAを実行させ続ける方法について

→もっと見る

PAGE TOP ↑