2010年4月5日月曜日

PDFその4

 さて、印刷された資料ってありがたいものなのだが、大きさが固定されていること、物理的な場所をとること、検索が大変であること・・など何かと厄介なものでもある。
 勢い、スキャンしてPDFで取っておくか・・と言う整理法が喧伝されている。

 まぁ、概ね良しとしよう・・

 近年、コピー機が進歩著しい。また、複合機も性能が高くなっている。

 で、そのスキャン機能をうまく使うと書類整理に面白いアイデアを組み込める。

 必要な機材としては両面スキャンのできるコピー機なり複合機。もちろんPCもね・・

 冊子状のものは可能であれば解体すると便利・・

 これをまずスキャンしてPDF化する。これはどこでも紹介されている。

 これを、透明テキストを張りつけられるソフト(Acrobatなど)で、OCRを掛けて透明テキスト化するのだな・・どういうことかというと・・普通、スキャンした書類はGifかJpgファイル、つまり画像ファイルとして扱われる。
 これをこのままPDF化してもあくまで画像ファイルだと言うことが問題。

 確かに印刷してそのまま元の書類のように見えることが見えるが、内容の検索が一切できないのよね・・
 そこで、普通はOCRと言う頭がでてくると思う。
 が、OCRはOCRで出力はWordかExcelへと言うものが多くPDFではない・・これは元の画像ファイルの純画像部分の扱いが厄介・・

 で、PDFにクリアテキストという考え方が出てくるわけだ。

 これは見た目は画像ファイルとしてのPDFのその上に、OCRのテキスト文章を透明化してかぶせたもの・・つまり、元の文章の見た目のまま、テキスト検索が可能になる・・

 そんなもの何の役に立つのか?と思われる方もおられるかとは思うが、PCが一般化する前の資料や新聞の切り抜き記事などの整理、再利用の時に力を発揮するはず。文書間の横断検索ができなければ何のためのPCか?ですよね?

 よって、今つらつら考えるソフト的機能としては、データベースでこのクリアテキスト付きのPDFの格納と検索機能。
 データベースのインタフェースデザインにPDFが張りつけられること、PDFからのCSS生成、クリアテキストとその可視化テキストを2ペイン表示して修正可能になる編集ソフト。

 スプレッドシートのバックグラウンドにPDFを張りつけられれば、印刷書式に合わせてエクセルのセルデザインも調整しやすいねぇ・・

0 件のコメント:

コメントを投稿