アウトライン化されたPDFから文字を抽出する方法

たまに、お客様から原稿として、
過去の制作物のPDFをいただくことがあります。

アウトライン化されていなければ問題ありません。

アウトライン化されている場合は、
アウトライン化されていないPDFをいただけるよう頼みます。

たいがい、これしかありません。と言われます。

そこで、
Acrobatを使い、アウトライン化されたPDFから文字を抽出します。

やり方は下記になります。
A
1.　PDFをAcobatで開きます。
2.　Acobatの右側に並んでいる項目の　スキャンとOCR　をクリックします。
3.　上部中央の　AAテキスト認識＞このファイル＞青いボタンの　テキスト認識　をクリック

これで、コピー＆ペーストでテキストを拾出しができます。

もう1つやり方があります。
B
1.　PDFをAcobatで開きます。
2.　Acobatの右側に並んでいる項目の　PDFを書き出し　をクリックします。
3.　好きなデータ形式を選んで保存します。

このやり方は、1つのドキュメントに
テキストをまとめることができて
便利そうですが、文字の認識間違いがたくさんあります。

Aは、PDFから制作するAIのドキュメントへ
まとまりごとに、コピー＆ペーストしなければならないので
面倒で大変です。

Bの方が、コピー＆ペーストは1回で済みますが、
文字認識の精度が低いので
やめておいた方が良いです。

最近、このやり方で制作したために痛い目に遭いました。
ご挨拶　が　こ挨拶　となっていたり・・・

大きく文字が違っていたら
見つけやすいのかもしれません。

なんとなく似ているから
厄介です。