【ETL】手書き文字のデータベースをダウンロードしてみた

公開日: : 最終更新日:2020/05/06 プログラミング , , , , , ,

文字認識や筆者識別の研究を行う際、手書き文字のデータが必要になってきます。

そのあたりの研究をしている知り合いに聞いたところ、産総研(独立行政法人産業技術総合研究所)がデータベースを公開していて、無料でダウンロードできるよ、と言ってたので、ダウンロードしてみました。

まず、産総研の以下のダウンロードページにアクセスします。

To Download the ETL Character Database

以下の使用条件を読みます。

  1. [定義] ETL文字データベース(「本データベース」)は電子技術総合研究所およびその後継組織である独立行政法人産業技術総合研究所によって配布されている手書きおよび印刷文字をスキャンした画像を9つのデータセットにまとめたものを指します。

  2. [著作権] 本データベースの著作権は独立行政法人産業技術総合研究所が保有しています。

  3. [使用目的] 本データベースは非商用目的に限り無料で使用出来ます。商用使用を目的とする場合は条件についてお問い合わせください。

  4. [参照] 「ETL Character Database」 (一部に限定する場合は「ETL-n Character Database」ここでnはデータセットの番号)と明示すれば本データベースを参照すること、また一部を引用することは許諾されるものとします。参考文献を示す場合は次のように示してください:電子技術総合研究所,Japanese Technical Committee for Optical Character Recognition, ETL文字データベース,1973-1984.

  5. [配布] 本データベースの配布はこのウェブページを経由することとします。他の手段によりデータベースを入手されている場合は、このウェブページで利用登録された場合に使用を許諾します。データおよびダウンロードURLの再配布は認めません。

  6. [個人情報] 登録された情報の利用は本データベースに関する通知と本データベースの利用統計に限定します。情報の管理については独立行政法人産業技術総合研究所個人情報保護方針に従います。

  7. [免責] 本データベースおよびダウンロードに伴って損害が生じても産総研は責任を負いません。

このデータは無料で配布していますが、基本的に営利目的には使用できません

次に、入力フォームに必要事項を入力します。入力項目は、「氏名」「メールアドレス」「所属」「国」「使用目的」となります。

「送信」もしくは「send」ボタンを押すと、入力したメールアドレス宛に「ダウンロード先のURL」と「パスワード」が自動ですぐに届くので、そこから ZIP 形式のファイルを11ファイルダウンロードすます。合計サイズは1.2GBでした。

バイナリーデータなので、次回、プログラムを使って読み込んで表示させてみたいと思います。

関連記事

囲碁|ブラウザ上でJavaScriptを使って棋譜データを再生する方法【WGO.js】

以前、将棋の棋譜をブラウザ上で再生する方法 を紹介しました。同様に、囲碁の棋譜再生も JavaScr

記事を読む

将棋|ブラウザ上でJavaScriptを使って棋譜データを再生する方法【jsShogiKifu】

将棋の棋譜データをブラウザ上で再生する方法を調べて分かったことを紹介します。 スマホ上では F

記事を読む

【情報処理学会】正会員から学生会員に変更する方法。

大学院に行くことになったので、入会していた情報処理学会を、 正会員から学生会員に変更

記事を読む

Windows で Scala をインストールする。

Windows に Scala というプログラミング言語をインストールしたときのメモです。Java,

記事を読む

Apache の error_log で「(8)Exec format error: exec of 」エラー表示が出たときの対処法

Perl でウェブサイトを作っていて、Apache のエラーで少しはまったため、そのときのメモ。

記事を読む

Message

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

【Python】 複数の辞書型の同じ key を持つ value を計算に用いる方法。

Python で、複数の辞書型を読み込んで、同じキー(key)を持つ数

【Python】 Series 型を dict(辞書型)に変換する方法。

Python で Series 型を dict(辞書型)に簡単に変換す

【Python】 DataFrame の特定の列で出現回数をカウントして降順でソートする方法。

Python で DataFrame 型の特定の列を指定して、対象列の

【テキストマイニング】 Amebaブログからデータ取得するための準備。

テキストマイニングを行うために、Ameba ブログ(アメブロ)のデータ

【Linux】 ローカルに Python をインストールする方法。

今回は、Linux サーバに、root 権限なしで、ローカルに Pyt

→もっと見る

PAGE TOP ↑