せっかく用意したPDF資料がWeb上で検索されず、広告・マーケティングの材料として機能していない。そんな状況に陥っていませんか?
手間をかけて制作したPDFがその役割を十分に果たせないのは非常にもったいないですよね。
本記事で紹介する解決策を実行すれば、PDFファイルが検索されない状況を改善できます。
なぜPDFファイルが検索されないのか、また、どうすれば検索されるようになるのか。PDFファイルの根本的な特徴を交えて解説していきます。
PDFファイルが検索されない原因はどこにあるのでしょうか。
その原因は、PDFと一般的なWebサイトの形式の違いにあります。この違いがPDFファイルが検索エンジンから認識されることを妨げている可能性があるのです。以下、より詳細に解説していきます。
PDFとはPortable Document Formatの略称で、企業をはじめとした多くの組織で利用されているファイル形式です。
PDFファイルは、本来写真と同じ「画像ファイル」だということをご存知でしょうか。コンピューターは画像の中の文字を認識することは不可能です。それでは、コンピューターはどのようにして文字を認識しているのでしょうか?
そこで必要となるのが透明テキストと呼ばれる目には見えないデータ上のテキストです。このテキストが画像に埋め込まれているがゆえに、コンピューターはPDFファイルの画像に記された文字の内容を認識することができるのです。
Google検索をはじめとした検索エンジンでは、関連度の高いWebページや網羅的な情報が記されているWebページが上位に表示されますよね。
このように検索エンジンに上位表示してもらえるWebページを構築する手法をSEO(Search Engine Optimization)といいます。
Webページがわかりやすい構成になっているか、網羅的に情報が記載されているか、読者に優しい記事になっているかなどが検索エンジンによって評価されます。
しかし、検索エンジンも万能ではありません。そして、先述したようにPDFファイルは本来画像です。もし透明テキストが埋め込まれていなかった場合には、書いてある文字の意味を検索エンジンが判断できない、といったことも起こりえます。
ここまで、PDFが検索されない原因を解説しました。では、検索エンジンで表示されるためにどのような対策をとれば良いのでしょうか。
PDFにも、Webページの見出しに似たようなメタ情報を付与することができます。メタ情報を入力することで、検索エンジンがPDFファイルの内容を判別できるようになり、PDFファイルが検索結果に表示されないという問題解決の一助となります。以下、その設定方法を紹介します。なおPDF編集ソフトには「Adobe Acrobat Reader DC」を使用しています。
(DLリンク:https://get.adobe.com/jp/reader/)
Adobe Acrobat Reader DCを起動し、編集したいPDFファイルの編集画面に移ったら、左上にある「ファイル」を選択します。展開後、「プロパティ」を選択します。
すると、下の画像のように「文書のプロパティ」というウィンドウが表示されます。「概要」内にある「タイトル」「サブタイトル」「キーワード」を記入していきましょう。
実は検索エンジンは、このアンカーテキストとなっている文章の内容も参照しています。よって、「本製品の詳細情報は『こちら』」というようなアンカーテキストを設定してしまうと、検索エンジンが『こちら』という内容しか認識しないため、リンク先にどんなPDFが設定されているか判別することができなくなってしまいます。
検索エンジンが少しでも内容を認識しやすいよう、アンカーテキストを設定する際はリンク先のPDFの内容を表した文章をしっかりと設定しましょう。
先述したようにPDFは本来写真であり、そこには文字情報は存在しません。これに文字情報を付与する方法があります。それが、OCRと呼ばれる手法です。
OCRとは、Optical Character Reader(もしくはRecognition)の略称で、日本語では「光学的文字認識」と訳されます。
OCRを利用することで、本来コンピューターが読み取れない画像の中の文字に透明テキストを付与することができ、コンピューターや検索エンジンがPDFファイル内の言葉を認識することができるようになります。
OCRを利用するにはいくつかの方法がありますので、こちらで紹介していきます。
まず挙げられるのは、OCRソフトを使用することです。こちらの方法はパソコンを使って行います。
Windows、Mac双方にOCRソフトが存在しますが、Windowsのほうが選択肢が多いのが現状です。
WindowsでOCRソフトをお探しの場合は、ソースネクストが提供する「いきなりPDF」シリーズがオススメです。
こちらの製品は、PDFをテキスト化する機能に秀でていて、他にもPDFの作成や編集など機能が盛りだくさん。必要な機能に合わせて、3つの価格の異なるバージョンから選択できるのも大きな魅力です。
MacでOCRソフトをお探しの場合は、Wondershareが提供している「PDFelement」がオススメです。
こちらの製品はPDFの編集、変換、OCRといったPDFに特化した製品で、この製品一つでPDFに関するほとんどの作業を行うことができます。
無料体験版に加え、必要な機能に合わせてさまざまなバージョンから選択が可能。個人での仕様からグループ単位での使用まで、ご自身に適した製品を購入いただけます。
次にご紹介するのはOCR機能のついたスキャナーを使用する方法です。
スキャナーは、紙の書類や写真などをパソコンで取り扱うことのできるデジタルデータに変換するための機械です。紙書類を電子データに移行し、保管を楽に行いたいという方におすすめの商品となっています。
もしデータ上のPDFファイルにOCRを適用したい場合は一度紙として印刷する必要があるので注意が必要です。
こちらの商品はハンディタイプのスキャナーで、Amazonで7280円とスキャナーの中では比較的安価。価格を抑えつつPDFのOCR化をしたいという方にオススメです。
大量のスキャンをするには手間がかかりますが、ピンポイントで紙の書類を電子データにしたい方にはうってつけの商品です。
こちらの商品は据え置きタイプの本格的なスキャナーで、オフィスやご家庭で大量の書類や写真をデータ化する際に活躍する商品です。
タッチパネルに対応しており、操作性が良いのが特徴。またクラウド保存機能もついているので、パソコンやスマホなどのデジタルデバイスとの連携が容易なのも大きな魅力です。
頻繁にスキャナーを利用する場合や、多人数のオフィス業務、もしくはリモートワークにおいての利用を想定する場合に大きな活躍が見込める商品でしょう。
本記事では、PDFファイルが検索されない時の対処法を多数紹介しました。
PDFファイルの内容を検索エンジンに正しく認識してもらうことが、検索結果に表示されるようにするための一番の解決策です。
単体でも効果は見込めますが、可能な限り多くの対処法を試していただくことで、より確かな効果を生み出すことができます。
本記事で紹介したテクニックを使ってPDFを最大限に活用してくださいね。