最新のOCRソフト「e.Typist v.15.0」の精度を試す！　スキャンした紙資料をテキストに

58か国語対の「e.Typist v.15.0」と2か国語対応の「e.Typist NEO v.15.0」

ビジネスユーザーだけでなく、最近は自炊などの一般ユーザーも、ドキュメントスキャナで日常的に紙資料をデジタル化している。しかし、スキャンしたデータは画像として保存され、そのままではテキスト（文字）として活用できない。そこでOCR（光学文字認識）ソフトを使って、保存した画像データをテキストデータに変えよう。

筆者の場合、発表会などで配布されたプレゼンテーション資料やリリース、そして執筆や編集を担当した雑誌などの紙の資料をスキャンしてデジタル化している。最近では、大学生などがレポート作成に使う資料や書籍などをスキャンしているようだ。

しかし、紙資料を単にスキャンしただけでは画像として取り込んだ状態では、記載されている内容の検索ができない。そこで活用したいのが、スキャンした紙資料をWord、Excel、PowerPointなどの編集可能な電子データのファイル形式に変換するOCRソフトだ。

メディアドライブの「e.Typist」は、初代が1995年発売というロングセラーのOCRソフトだ。もともと文字認識の精度には定評があり、ビジネスユースはもちろん、多くの個人ユーザーに愛されている。その最新バージョン「e.Typist v.15.0」が9月27日に登場したので、さっそくその認識精度と機能を試した。

●スキャンした紙文書の文字を認識　学習するので日々精度が上がる

「e.Typist v.15.0」を起動すると、画面上にメニューボタンが並ぶ。基本的にはこのボタンを左から順番に押していくことで読込みや認識、出力ができる。まずは、スキャン済みの紙資料を読み込む。スキャナで取り込んだPDFデータだけではなく、デジタルカメラで撮影した資料の画像も読み込むことができる。

次に、出力先を選択する。WordやExcel、PowerPoint、さらにテキスト入りのPDFなどを選択できる。電子書籍のEPUB形式にも対応している。

読み込むデータと出力先の設定が済むと、読み込んだデータが表示される。「レイアウト」ボタンをクリックすると、自動的に文字認識を行う範囲が選択できる。手動選択もできるので、文書と画像が入り組んだような複雑なレイアウトの場合は手動で認識範囲を選択するといい。

認識範囲の設定が終わったら、「認識」ボタンをタップする。すると、認識エンジンがチェックを行い、ウインドウ左に元原稿、右側に同じレイアウトのテキスト文書を表示する。元原稿の表示範囲や表示サイズを変更すると、それに合わせてテキスト文書のエリアも変更されるので、左右並べて認識結果をチェックすることができる。

デジタルカメラで撮影した紙資料も含めていくつか取り込んで試した結果、認識率のレベルは高く、思わず納得。もちろん、認識率は100％ではなく、例えば数字の全角と半角や、数字の「1」とアルファベットの「i」を誤認することもあったが、これらは文字認識の修正を行うことで学習させることで、100％に近づけることができる。

「e.Typist v.15.0」は、元の原稿と文字認識結果を並べて見比べたり、元原稿の上に認識結果のテキストを重ねて配置したりと、誤認識結果を見つけやすくなっている。さらに、認識文字の上を選択するとその他の候補文字を表示する機能も備え、修正作業がすばやくできた。

●学生の強い味方！　縦書きにも対応する

ビジネス文書などは横書きが多いが、「e.Typist v.15.0」は縦書きにも対応しているので、書籍を電子化してレポート作成に生かせる。書籍を電子化する場合、「柱」や「ノンブル（ページ番号）」の認識が不要であれば、本文のみを範囲指定して認識を行える。ルビは、認識する、しないといった設定が可能だ。

日本語以外に英語などの欧米語、中国語、ハングルの文字認識に対応しているので、海外の文献にも使える。なお、新聞、雑誌、書籍等をスキャンする場合、取り込んだ画像やテキストデータは私的利用の範囲で使用するように注意したい。

●複雑なレイアウトはちょっとした手間が必要

A4サイズの文書の場合、テストした範囲では、ほぼ自動レイアウトでエリア認識ができた。しかし、雑誌のレイアウトなどは非常に特殊で、手作業による修正が必要な場面もあった。それでも、認識エリアの修正は非常に簡単。自動認識した範囲をタップして、エリアを修正するだけだ。

ただし、認識できなかったエリアもあった。雑誌などで使われるテキストボックスが斜めになった部分は、そのままでは読み込むことができなかった。その場合は斜めになったテキストボックスを画像として回転させると問題なく読み込むことができた。

●使い方に合わせて選べる多彩な出力形式

認識が終わった文書は、Word文書（doc）、一太郎、Excel（xls）、CSV形式、PDF形式、XHTML形式など、18種類の形式で出力できる。さらに、PDF形式は、文字検索のできる透明テキスト付きPDFやMRC圧縮に対応した高圧縮透明テキストつきPDFなどが選択できる。出力したデータは、ウインドウ上部の「ワンタッチ転送ボタン」でファイル形式に対応したアプリケーションを立ち上げて、すぐに編集できる。

転送先は、タブレット端末（IPアドレスの設定が必要）や、EvernoteやDropboxなどのクラウドサービスにも対応する。

●主要ドキュメントスキャナに対応、読込みから認識までを一連の流れで

「e.Typist v.15.0」は非常に認識率が高く、使い勝手のよいOCRソフトだ。さらに、人気のドキュメントスキャナ、PFU「ScanSnap SV600」に対応し、「ScanSnap SV600」でスキャンした後、そのまま「e.Typist v.15.0」で文字認識をかけることができる。

筆者は、これまで読み込んだ文書をそのまま画像PDFとして残していた。しかし、そのため本文検索ができず、大量のデータのなかから必要な資料を探し出すのは大変時間がかかっていた。「e.Typist v.15.0」でテキスト化した資料なら、本文検索ができるので、効率よく作業を進めることができる。

紙資料をすばやく、高精度でテキスト化するOCRソフト。ビジネスシーンはもちろん、多彩な用途で活躍しそうだ。（デジタル＆家電ライターコヤマタカヒロ）

BCN＋R