とあるPDFをメール添付で受け取りました。見えるのは画像、それに透明というか非表示のテキストが引っ付いている、というタイプです。
Wordから変換したPDFで、元ファイルの拡張子はdocですからWord2003以前のもの。それをGPL Ghostscript8.15でPDFに変換したもののようです。
- Wikipedia >> GPL Ghostscript
- 2012-02-10 : Ghostscript 9.05 が公開
結果的(どの時点で透明テキストを付けたのか不明…)に日本語のOCR成績があまり芳しくないみたいです。それで、透明テキストを削除しようと、Adobe Acrobat で操作しようとしましたが、なにせ初めてのこと、不明でした。そのため、ちょっとネットを漁りまして、発見! って、知っている人には当たり前のことなんでしょうけど…ボソッ。