2025年にGoogleドライブを使ってPDFをTXTファイルへ無料で変換する方法
Googleドライブを使ってPDFをTXTに無料で変換する方法
ということで、ソフトウェアに一銭も使わずにPDFからテキストを抜き出そうとして、かなりイライラする状況に陥りました。ところが、Googleドライブには驚くほど便利な方法があることがわかりました。サードパーティ製のアプリも怪しいサイトも使わず、Googleが提供する機能だけで実現できるのです。正直、全てがスムーズに動くようになるまで何度か試行錯誤しましたが、ついに解決した方法をご紹介します。もしかしたら、誰かの時間の節約になるかもしれません。
うーん、Google Chromeを開いてPDFをアップロードする
まずChromeを開いて(いつも使っているので)、https://drive.google.comにアクセスしました。PDFのアップロードは簡単です。左上の「新規」をクリックし、「ファイルのアップロード」をクリックします。パソコンからPDFファイルを選択します。アップロード後、ページを更新する必要がありました。Googleドライブではファイルがすぐに表示されないことがあるので、ちょっと変ですね。F5更新ボタンを押してください。すべて揃っていることを確認しておくと、後で予期せぬトラブルに巻き込まれるのを防ぐことができます。特にGoogleドキュメントで開く場合はなおさらです。
GoogleドキュメントでPDFを開く – コツ
ドライブで PDF を右クリックし、「アプリで開く」> 「Google ドキュメント」を選択します。Google ドキュメントがすぐに表示されない場合は、メニューの下部にある「他のアプリを接続」にチェックを入れてください。使用したことがない場合は見逃しやすいです。PDF を Google ドキュメントで開くと、編集可能なドキュメントに変換されます。これは素晴らしいように聞こえますが、常に完璧であるとは限りません。書式がおかしくなったり、画像が乱れたりすることがありますが、単純なテキストの PDF であれば通常は問題ありません。古い ASUS ラップトップでは、画像がたくさん含まれていたり、レイアウトが複雑な PDF は文字化けした状態になることがわかったので、ここでは OCR 品質は期待しないでください。主にプレーンテキストです。
さて、楽しい部分—テキストのダウンロード
GoogleドキュメントでPDFを開いたら、「ファイル」>「ダウンロード」に進み、「プレーンテキスト(.txt)」を探します。このオプションはサブメニューに隠れていたり、他の選択肢の後ろに隠れていたりすることがあります。表示されない場合は、ブラウザを更新したり、キャッシュをクリアしたり、別のブラウザを試したりしてみてください。ようやく選択できたので、Chromeはすぐにファイルのダウンロードを開始し、通常はデフォルトのダウンロードフォルダ(多くの場合「ダウンロード」)に保存されます。念のため、そのフォルダを開いてみると、なんと.txtファイルがありました。簡単ですが、混乱なくその場所にたどり着くまで少し手間取りました。
入手したものを確認する – それは何か良いものですか?
メモ帳だと機能が簡素すぎることがあるので、新しい.txtファイルをNotepad++で開きました。内容は大体、私が求めていた通りでした。編集可能で、素早く、おおよそ正確で、特に単純な文書であればなおさらです。PDFにスキャンした画像や複雑な書式設定が含まれている場合、多くのテキストが欠落したり、ランダムな文字のように見えたりする可能性があります。そうなると、OnlineOCRのようなOCR(光学式文字認識)ツールや、OCR機能を備えたAdobe Acrobatのような専用アプリが必要になります。しかし、PDFが単に入力されたテキストであれば、このGoogleドライブの方法は驚くほどうまく機能します。
私がこの方法にこだわる理由
高速で無料、メールアドレスを要求したりマルウェアを仕込もうとするサードパーティ製アプリやアップロードに煩わされる必要もありません。さらに、Googleのエコシステム内で完全に実行されるので、より安全だと感じます。唯一の欠点は、繰り返しになりますが、PDFがスキャンファイルだったり、Googleドキュメントが処理できない要素が含まれていたりすると、出力が完璧ではないことです。それでも、テキスト抽出などの簡単なタスクを無償で実行できるのであれば、知っておく価値はあると思います。
起こりうる落とし穴と注意すべき点
「Google ドキュメントで開く」オプションは、UI がカスタマイズされていたり、古いバージョンを使用している場合は特に、非表示になっていたり、すぐに表示されないことがあります。ブラウザと Google ドライブが最新版であることを確認することをお勧めします。また、PDF がスキャン画像の場合、OCR を適用しないと出力はほとんど意味不明な文字になることに注意してください。Google ドキュメントはこのフローでは OCR を行わないため、スキャン画像に対する万能薬ではありません。スキャン画像の場合は、Tesseract などの専用の OCR ツールや専用ソフトウェアが必要です。また、メニューオプションが欠落しているように見える場合や順序が間違っている場合は、キャッシュをクリアするか、シークレット モードで試してみると、メニューオプションがより早く表示されることがあります。
とにかく、あれこれいじくり回した後、ようやくPDFのクリーンなテキスト版ができました。おかげでかなり手間が省けました。この方法は完璧ではありませんが、素早く無料でテキスト抽出するには、多少の癖を我慢できれば十分です。お役に立てれば幸いです。私もこの方法を見つけるのにかなり時間がかかりました。頑張ってください。そして、必要なテキストがちゃんと抽出されているか、念のためもう一度確認してくださいね!
この記事は役に立ちましたか?