PDFファイルからテキストをコピー(抽出)する
PDFファイルは、アドビ社が開発したデジタル文書フォーマットです。文書のレイアウトそのままでデジタル化し、WindowsやMac、スマホなど、異なるプラットフォームやデバイスでも同じレウアウトのまま表示することができます。その汎用性の高さから、電子書籍やマニュアル、契約書など、様々な目的で利用されています。
PDFファイルには、文書ファイルをPDF化したテキスト形式と、イメージスキャンされた画像形式のタイプが存在します。
多くのPDFファイルは、文書ファイルをベースに作成されているため、簡単に文書内のテキストを選択、コピーすることが可能ですが、画像形式のPDFファイルの場合、そのままではコピーすることができません。
コピーできないときは、OCR(文字認識機能)でテキスト化
このような、画像ベースで作成されたPDFファイルからテキストをコピーしたいときは、OCRを使ったテキスト化(文字起こし)が必要です。
OCRとは「文字認識技術」のことで、画像内に含まれる文字をテキスト情報として認識する技術のことです。この技術を用いることで、画像ベースのPDFから文字を抽出し、テキスト化します。
本記事では、テキスト形式のPDFファイルから文字をコピーする方法と、高機能なPDF編集ソフト「PDFelement(PDFエレメント)プロ版」のOCR機能を使って、PDFファイルをテキスト化する方法を紹介します。
公開日: 2023/07/10 ・ 最終更新日: 2023/10/02 ・ 著者:まきばひつじ ・ この記事をシェアする
操作方法
PDFからテキストをコピーする(テキスト形式のPDFの場合)
Windows 10・11のデフォルト設定では、PDFファイルを開くためのアプリケーションとして、Microsoft Edgeが関連づけられています。このステップでは、テキスト形式のPDFファイルから、テキストをコピーする方法を紹介します。
1 EdgeなどのアプリでPDFを開き、コピーしたいテキストを選択します。
コピーしたいテキストを選択します。
2 選択したらマウスを右クリックして、[コピー]をクリックします。
[コピー]をクリックします。
テキストがコピーできないときは(画像形式のPDFの場合)
画像形式のPDFファイルの場合、そのままではテキストを選択してコピーすることができません。PDFファイルが画像形式の場合は、はじめにOCR(文字認識機能)を使った文字起こしが必要です。ここでは、多機能なPDF編集アプリ「PDFelement プロ版」のOCR機能を使って、テキスト化する方法を紹介します。
1 ファイルを右クリックし、[プログラムから開く]>[Wondershare PDFelement]と選択します。
[PDFelement]と選択します。
2 ホーム または ツールにある、[OCR処理]をクリックします。
[OCR処理]をクリックします。
3 OCRのスキャンオプションを選択して、[適用]ボタンをクリックします。
[適用]ボタンをクリックします。
4 OCRの文字起こしが完了すると、テキストがコピー/編集できるようになります。
テキストがコピーできるようになります。
PDF内の表をコピーしたいときは?
文書に表がある場合、テキスト化されたPDFであっても、通常は表としてコピーすることができません。(例えば、Excelにコピーした場合、1つのセルに全てのテキストと数値が貼り付けされてしまいます)
PDFで、表を表のままコピーしたい場合は、「PDFelement」の表の認識機能が役立ちます。表認識させることで、表データとしてExcelやWordに貼り付けすることができます。
1 ファイルを「PDFelement」で開き、[ツール]メニューをクリックします。
[ツール]をクリックします。
2 ツールに切り替わったら、メニューの中から[表の認識]をクリックします。
[表の認識]をクリックします。
3 表の認識「認識が完了しました」と表示されたら、[表を選択]ボタンをクリックします。
[表を選択]ボタンをクリックします。
4 コピーしたい表をクリックし、右上に表示される[コピー]ボタンをクリックします。
[コピー]ボタンをクリックします。
「PDFelement」には、無料トライアル版が用意されているので、PDFファイルの編集や管理に役立つ各機能を購入前に試用することができます。また、リーズナブルなPDFelement標準版も用意されています。(OCR機能はプロ版で利用できます)
ファイルのパスワード設定や電子署名に対応。また、テキストの隅消し機能を搭載しており、機密性の高い情報を安全に保護します。
話題のChatGPTに対応。作成した文章の校正や要約を自動化。文章がAIにより作成されたかどうか予測することもできます。
ビジネスや教育など、様々なシーンで利用できるテンプレートを用意。このアプリだけでドキュメントを自在に作成できます。
PDFelement 無料トライアル版 | PDFelement 標準版 | PDFelement プロ版 | |
---|---|---|---|
PDF作成、PDF文書を閲覧 | |||
PDF変換や印刷のバッチ処理 | ー | ー | |
OCR光学文字認識、OCRのバッチ処理 | 処理後の結果をプレビュー可(7日間試用可能) | ー | |
PDF圧縮、圧縮バッチ処理 | 7日間試用可能 | ー | |
PDF内のオブジェクトを直接編集 | 14日間試用可能 | ||
PDFをWord、Excel、Powerpointに変換 | 3ページまで(14日間試用可能) | ||
PDFに注釈を追加 | 3回無料 | ||
価格 | 無料(機能を利用するには、登録が必要です。) | 5,980円 (永続ライセンス・税込)/4,980円(年間プラン・税込) | 9,980円 (永続ライセンス・税込)/7,280円(年間プラン・税込) |