【ETL】手書き文字のデータベースをダウンロードしてみた

公開日: : 最終更新日:2017/09/02 プログラミング , , , , , ,

文字認識や筆者識別の研究を行う際、手書き文字のデータが必要になってきます。

そのあたりの研究をしている知り合いに聞いたところ、産総研(独立行政法人産業技術総合研究所)がデータベースを公開していて、無料でダウンロードできるよ、と言ってたので、ダウンロードしてみました。

まず、産総研の以下のダウンロードページにアクセスします。

To Download the ETL Character Database

以下の使用条件を読みます。

  1. [定義] ETL文字データベース(「本データベース」)は電子技術総合研究所およびその後継組織である独立行政法人産業技術総合研究所によって配布されている手書きおよび印刷文字をスキャンした画像を9つのデータセットにまとめたものを指します。

  2. [著作権] 本データベースの著作権は独立行政法人産業技術総合研究所が保有しています。

  3. [使用目的] 本データベースは非商用目的に限り無料で使用出来ます。商用使用を目的とする場合は条件についてお問い合わせください。

  4. [参照] 「ETL Character Database」 (一部に限定する場合は「ETL-n Character Database」ここでnはデータセットの番号)と明示すれば本データベースを参照すること、また一部を引用することは許諾されるものとします。参考文献を示す場合は次のように示してください:電子技術総合研究所,Japanese Technical Committee for Optical Character Recognition, ETL文字データベース,1973-1984.

  5. [配布] 本データベースの配布はこのウェブページを経由することとします。他の手段によりデータベースを入手されている場合は、このウェブページで利用登録された場合に使用を許諾します。データおよびダウンロードURLの再配布は認めません。

  6. [個人情報] 登録された情報の利用は本データベースに関する通知と本データベースの利用統計に限定します。情報の管理については独立行政法人産業技術総合研究所個人情報保護方針に従います。

  7. [免責] 本データベースおよびダウンロードに伴って損害が生じても産総研は責任を負いません。

このデータは無料で配布していますが、基本的に営利目的には使用できません

次に、入力フォームに必要事項を入力します。入力項目は、「氏名」「メールアドレス」「所属」「国」「使用目的」となります。

「送信」もしくは「send」ボタンを押すと、入力したメールアドレス宛に「ダウンロード先のURL」と「パスワード」が自動ですぐに届くので、そこから ZIP 形式のファイルを11ファイルダウンロードすます。合計サイズは1.2GBでした。

バイナリーデータなので、次回、プログラムを使って読み込んで表示させてみたいと思います。

関連記事

Linux|cp コマンドでディレクトリごとコピーし、ファイルの上書き確認されないようにする方法

Linux で cp コマンドを使って、ディレクトリごとコピーし、同一ファイル名があった場合に上書き

記事を読む

将棋|ブラウザ上でJavaScriptを使って棋譜データを再生する方法【jsShogiKifu】

将棋の棋譜データをブラウザ上で再生する方法を調べて分かったことを紹介します。 スマホ上では F

記事を読む

指定ディレクトリ以下のファイルの内容を一括置換する方法|Linux

簡単なウェブサイトを Perl 作っていて、開発環境が Windows で、公開する環境が Linu

記事を読む

【情報処理学会】正会員から学生会員に変更する方法。

大学院に行くことになったので、入会していた情報処理学会を、 正会員から学生会員に変更

記事を読む

【Linux】ファイルの文字コードを一括変換する方法|EUC-JP ⇒ UTF-8

Linux で、あるディレクトリ内のファイルの文字コードを EUC-JP から UTF-8 に一括変

記事を読む

Windows で Scala をインストールする。

Windows に Scala というプログラミング言語をインストールしたときのメモです。Java,

記事を読む

【Linux】文字化け対策に unar のインストールを試みた。

Windows で圧縮したファイルを Linux で解凍すると、文字化けが起こってしまいます。文字化

記事を読む

囲碁|ブラウザ上でJavaScriptを使って棋譜データを再生する方法【WGO.js】

以前、将棋の棋譜をブラウザ上で再生する方法 を紹介しました。同様に、囲碁の棋譜再生も JavaScr

記事を読む

Apache の error_log で「(8)Exec format error: exec of 」エラー表示が出たときの対処法

Perl でウェブサイトを作っていて、Apache のエラーで少しはまったため、そのときのメモ。

記事を読む

【Raspberry Pi】Webサーバ apache を入れてみた【Linux】

ラズベリーパイで SSH を起動させ、Windows から SSH でアクセスできるように設定しまし

記事を読む

Message

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

【LiveDVD】Amazonで高値で取引されているトップ10

色々な せどり がありますが、ライブDVD はあまり値段が下がらないか

【Python】pip3 で「cannot import name ‘main’」エラーが出たときの対処法。

Python でライブラリをインストールする際に、pipを使います。

【mecab-python3】parseToNode で surface が正しく取得できないときの対処法。

python3 で mecab-python3 を使うと、parseT

【Python】形態素解析器 Mecab を Linux(Ubuntu)で使ってみた。

Linux の Ubuntu OS に、形態素解析器 Mecab をイ

【Python】NLTK(自然言語処理ライブラリ)を使ってみた。

Python の自然言語処理ライブラリである NLTK を Linux

→もっと見る

PAGE TOP ↑