PDFの周囲

Word2007からPDF形式で保存ができるようになり、PDF利用がさらに簡単になりました。そして数年経過した現在、いくつか、こうしたらどうだろう〜と思うことがあります。
PDFの問題という以上に、Word操作、Word理解による結果物≒PDFがあまり上等なことになってないと思えるのです。
ひとことで表すと「XML的構造が脆弱」ということでしょうか。表題は、大見出しは、著者情報は…など点検していくとさまざまな問題点が見えてきます。複数ページにわたる場合、ページが分散したら2ページ以降は出所不明の文書になる可能性はないのか、などはあらゆるところで目につきます。
問題の多くは、Wordを適切に使用していれば、PDF作成時にはあまり考えなくても良いことで、その意味では、必要なWord操作に習熟すること、どんなことまでやればXML的にきれいなPDFをつくることができるのか知ることかと思います。
ポイントの一つは、Wordをアウトラインエディターの道具として使ってみてはどうか、段落スタイルを使ってはどうかというようなことです。大きな字、人間はそれが見出しの一つと思うかもしれませんが、PCはどうか…。
ポイントの二つ目は、配布時に、必要なクレジット情報≒プロパティを書き加えているかです。配布準備→プロパティの結果表示されるダイアログを見つめるところが、ネットに好適なPDFをつくる理解にも近づく道です。
旧来のWordを使う場合、自力でPDFを作成することができません。それができるアプリケーションを購入するなどして使うことになります。一部には、全面が画像情報となり、その裏側に文字情報が寝ている(見えないがある)状態でPDFを作成するアプリケーションもあります。その容量は大変重たいものになり、ネットに適したサイズでない可能性もあります。できることなら、文字は文字として処理されるアプリケーションを使いたいものです。また、チラシなどからスキャンし、画像データをPDFと理解している例、ある程度文字情報が付加されているが不完全、というPDFも見受けます。条件が許すのであれば、文字は文字情報として処理してあるファイルの方が、引用利用などがしやすく、資料としても使いやすいという観点も必要かと思えるのです。
さて、実際にどこまでできるのか…。自問自動いや、自問自答の難しいかもしれない記事でありました。