PDFからの文字抽出

PDFからテキストに変換したい場合がある、簡単に変換できる場合もあるが、できない、または文字化けする、表示が乱れるなどの場合がある。
PDFからテキスト変換できるソフトウェアもあるが、その変換精度もまちまちとなる。
テキストやワードなどの文字原稿をPDFに変換した場合は容易にテキストが取れる、またブラウザで開きそれを一括してコピペできる。
PDFにする際にフォントがアウトライン化されていたり、スキャン・コピー、撮影など画像データにしたPDFからはテキスト変換できない、または表示が乱れ解読不能となる。
それにはOCR(画像を文字コードの列に変換)処理が必要で、その精度は確かではない。
PDFから文字抽出手段を幾つか挙げていく。
1:GoogleドライブにアップしてGoogleドキュメントを利用
  • GoogleドライブにPDFをアップロードする
    Googleドキュメントで直接PDFを開きたいが、GoogleドキュメントはPDFのアップロードに対応していない。
  • 段階として、GoogleドライブにPDFをアップロードする。
  • GoogleドキュメントでGoogleドライブにアップしたPDFを開く。
    この時点で、画像からのPDFであっても、縦書きの文字であっても文字変換が可能になる。
    それをテキストファイルでダウンロードする。
  • OCRが強力なので、例えばスマフォなどで印刷物を複写して画像をドライブにアップしてGoogleドキュメントで開けば画像のままだが、それを保存する際にテキスト保存とすると自動的にOCR変換されてテキストファイルとして保存できる。また画像をPDFに変換しても、そのPDFからテキスト変換が利用できる。
  • 手軽で、他のソフトと比べても変換精度は高い、しかし完全ではないので文字化けや欠けている部分の補正は必要。
2:PDFelementを利用
  • 有償のOCR専用ソフトを利用すれば、Google DriveよりOCR認識精度の高いファイルが簡単に作成できる。

Previous article

Bootstrap5-Auth With Vite

Next article

Line Login