【ETL】手書き文字のデータベースをダウンロードしてみた
文字認識や筆者識別の研究を行う際、手書き文字のデータが必要になってきます。
そのあたりの研究をしている知り合いに聞いたところ、産総研(独立行政法人産業技術総合研究所)がデータベースを公開していて、無料でダウンロードできるよ、と言ってたので、ダウンロードしてみました。
まず、産総研の以下のダウンロードページにアクセスします。
以下の使用条件を読みます。
-
[定義] ETL文字データベース(「本データベース」)は電子技術総合研究所およびその後継組織である独立行政法人産業技術総合研究所によって配布されている手書きおよび印刷文字をスキャンした画像を9つのデータセットにまとめたものを指します。
-
[著作権] 本データベースの著作権は独立行政法人産業技術総合研究所が保有しています。
-
[使用目的] 本データベースは非商用目的に限り無料で使用出来ます。商用使用を目的とする場合は条件についてお問い合わせください。
-
[参照] 「ETL Character Database」 (一部に限定する場合は「ETL-n Character Database」ここでnはデータセットの番号)と明示すれば本データベースを参照すること、また一部を引用することは許諾されるものとします。参考文献を示す場合は次のように示してください:電子技術総合研究所,Japanese Technical Committee for Optical Character Recognition, ETL文字データベース,1973-1984.
-
[配布] 本データベースの配布はこのウェブページを経由することとします。他の手段によりデータベースを入手されている場合は、このウェブページで利用登録された場合に使用を許諾します。データおよびダウンロードURLの再配布は認めません。
-
[個人情報] 登録された情報の利用は本データベースに関する通知と本データベースの利用統計に限定します。情報の管理については独立行政法人産業技術総合研究所個人情報保護方針に従います。
-
[免責] 本データベースおよびダウンロードに伴って損害が生じても産総研は責任を負いません。
このデータは無料で配布していますが、基本的に営利目的には使用できません。
次に、入力フォームに必要事項を入力します。入力項目は、「氏名」「メールアドレス」「所属」「国」「使用目的」となります。
「送信」もしくは「send」ボタンを押すと、入力したメールアドレス宛に「ダウンロード先のURL」と「パスワード」が自動ですぐに届くので、そこから ZIP 形式のファイルを11ファイルダウンロードすます。合計サイズは1.2GBでした。
バイナリーデータなので、次回、プログラムを使って読み込んで表示させてみたいと思います。
関連記事
-
-
将棋|ブラウザ上でJavaScriptを使って棋譜データを再生する方法【jsShogiKifu】
将棋の棋譜データをブラウザ上で再生する方法を調べて分かったことを紹介します。 スマホ上では F
-
-
【情報処理学会】正会員から学生会員に変更する方法。
大学院に行くことになったので、入会していた情報処理学会を、 正会員から学生会員に変更
-
-
囲碁|ブラウザ上でJavaScriptを使って棋譜データを再生する方法【WGO.js】
以前、将棋の棋譜をブラウザ上で再生する方法 を紹介しました。同様に、囲碁の棋譜再生も JavaScr
-
-
Apache の error_log で「(8)Exec format error: exec of 」エラー表示が出たときの対処法
Perl でウェブサイトを作っていて、Apache のエラーで少しはまったため、そのときのメモ。
-
-
Windows で Scala をインストールする。
Windows に Scala というプログラミング言語をインストールしたときのメモです。Java,