アウトライン化されたPDFから文字を抽出する方法

たまに、お客様から原稿として、
過去の制作物のPDFをいただくことがあります。

アウトライン化されていなければ問題ありません。

アウトライン化されている場合は、
アウトライン化されていないPDFをいただけるよう頼みます。

たいがい、これしかありません。と言われます。

そこで、
Acrobatを使い、アウトライン化されたPDFから文字を抽出します。

やり方は下記になります。
A
1. PDFをAcobatで開きます。
2. Acobatの右側に並んでいる項目の スキャンとOCR をクリックします。
3. 上部中央の AAテキスト認識>このファイル>青いボタンの テキスト認識 をクリック

これで、コピー&ペーストでテキストを拾出しができます。

もう1つやり方があります。
B
1. PDFをAcobatで開きます。
2. Acobatの右側に並んでいる項目の PDFを書き出し をクリックします。
3. 好きなデータ形式を選んで保存します。

このやり方は、1つのドキュメントに
テキストをまとめることができて
便利そうですが、文字の認識間違いがたくさんあります。

Aは、PDFから制作するAIのドキュメントへ
まとまりごとに、コピー&ペーストしなければならないので
面倒で大変です。

Bの方が、コピー&ペーストは1回で済みますが、
文字認識の精度が低いので
やめておいた方が良いです。

最近、このやり方で制作したために痛い目に遭いました。
ご挨拶 が こ挨拶 となっていたり・・・

大きく文字が違っていたら
見つけやすいのかもしれません。

なんとなく似ているから
厄介です。