【Web担当者必読】PDFファイルが検索されないときの対処法!

せっかく用意したPDF資料がWeb上で検索されず、広告・マーケティングの材料として機能していない。そんな状況に陥っていませんか?
手間をかけて制作したPDFがその役割を十分に果たせないのは非常にもったいないですよね。

本記事で紹介する解決策を実行すれば、PDFファイルが検索されない状況を改善できます。
なぜPDFファイルが検索されないのか、また、どうすれば検索されるようになるのか。PDFファイルの根本的な特徴を交えて解説していきます。

なぜPDFファイルが検索されないのか

PDFファイルが検索されない原因はどこにあるのでしょうか。
その原因は、PDFと一般的なWebサイトの形式の違いにあります。この違いがPDFファイルが検索エンジンから認識されることを妨げている可能性があるのです。以下、より詳細に解説していきます。

PDFは本来画像ファイル


PDFとはPortable Document Formatの略称で、企業をはじめとした多くの組織で利用されているファイル形式です。

PDFファイルは、本来写真と同じ「画像ファイル」だということをご存知でしょうか。コンピューターは画像の中の文字を認識することは不可能です。それでは、コンピューターはどのようにして文字を認識しているのでしょうか?

そこで必要となるのが透明テキストと呼ばれる目には見えないデータ上のテキストです。このテキストが画像に埋め込まれているがゆえに、コンピューターはPDFファイルの画像に記された文字の内容を認識することができるのです。

SEOの概要

Google検索をはじめとした検索エンジンでは、関連度の高いWebページや網羅的な情報が記されているWebページが上位に表示されますよね。
このように検索エンジンに上位表示してもらえるWebページを構築する手法をSEO(Search Engine Optimization)といいます。
Webページがわかりやすい構成になっているか、網羅的に情報が記載されているか、読者に優しい記事になっているかなどが検索エンジンによって評価されます。

しかし、検索エンジンも万能ではありません。そして、先述したようにPDFファイルは本来画像です。もし透明テキストが埋め込まれていなかった場合には、書いてある文字の意味を検索エンジンが判断できない、といったことも起こりえます。

PDFファイルが検索されるようにするための方法

ここまで、PDFが検索されない原因を解説しました。では、検索エンジンで表示されるためにどのような対策をとれば良いのでしょうか。

PDFファイルにメタ情報を入力する


PDFにも、Webページの見出しに似たようなメタ情報を付与することができます。メタ情報を入力することで、検索エンジンがPDFファイルの内容を判別できるようになり、PDFファイルが検索結果に表示されないという問題解決の一助となります。以下、その設定方法を紹介します。なおPDF編集ソフトには「Adobe Acrobat Reader DC」を使用しています。
(DLリンク:https://get.adobe.com/jp/reader/)
Adobe Acrobat Reader DCを起動し、編集したいPDFファイルの編集画面に移ったら、左上にある「ファイル」を選択します。展開後、「プロパティ」を選択します。

すると、下の画像のように「文書のプロパティ」というウィンドウが表示されます。「概要」内にある「タイトル」「サブタイトル」「キーワード」を記入していきましょう。

  • タイトル
    「タイトル」の欄には、その名の通りPDFの内容を端的に表す題目を記入しましょう。このタイトルには検索してほしいキーワードを含めると、検索結果に表示されやすくなります。
  • サブタイトル
    「サブタイトル」の欄には、PDFの内容をタイトルよりも少し詳しく説明した文章を記入しましょう。画像のファイルの場合は「PDFのメタ情報を解説するのためのテストファイル」といったものになります。
  • キーワード
    「キーワード」の欄には、どんなキーワードで検索された時にPDFファイルを表示したいのか入力します。「,」で区切ることで複数のキーワードを入力することができます。
  • アンカーテキストを見直す
    もし、ウェブサイトのリンク先にPDFファイルを設定している場合、リンクの元となっているアンカーテキストの見直しを行いましょう。アンカーテキストとは、「本製品の詳細情報はこちら」というように、リンクが設定されているテキストのことです。

    実は検索エンジンは、このアンカーテキストとなっている文章の内容も参照しています。よって、「本製品の詳細情報は『こちら』」というようなアンカーテキストを設定してしまうと、検索エンジンが『こちら』という内容しか認識しないため、リンク先にどんなPDFが設定されているか判別することができなくなってしまいます。


検索エンジンが少しでも内容を認識しやすいよう、アンカーテキストを設定する際はリンク先のPDFの内容を表した文章をしっかりと設定しましょう。

OCRについて

先述したようにPDFは本来写真であり、そこには文字情報は存在しません。これに文字情報を付与する方法があります。それが、OCRと呼ばれる手法です。

OCRとは、Optical Character Reader(もしくはRecognition)の略称で、日本語では「光学的文字認識」と訳されます。
OCRを利用することで、本来コンピューターが読み取れない画像の中の文字に透明テキストを付与することができ、コンピューターや検索エンジンがPDFファイル内の言葉を認識することができるようになります。

OCRを利用するにはいくつかの方法がありますので、こちらで紹介していきます。

OCRソフトの使用


まず挙げられるのは、OCRソフトを使用することです。こちらの方法はパソコンを使って行います。
Windows、Mac双方にOCRソフトが存在しますが、Windowsのほうが選択肢が多いのが現状です。

Windowsソフト

WindowsでOCRソフトをお探しの場合は、ソースネクストが提供する「いきなりPDF」シリーズがオススメです。

こちらの製品は、PDFをテキスト化する機能に秀でていて、他にもPDFの作成や編集など機能が盛りだくさん。必要な機能に合わせて、3つの価格の異なるバージョンから選択できるのも大きな魅力です。

Macソフト

MacでOCRソフトをお探しの場合は、Wondershareが提供している「PDFelement」がオススメです。
こちらの製品はPDFの編集、変換、OCRといったPDFに特化した製品で、この製品一つでPDFに関するほとんどの作業を行うことができます。

無料体験版に加え、必要な機能に合わせてさまざまなバージョンから選択が可能。個人での仕様からグループ単位での使用まで、ご自身に適した製品を購入いただけます。

OCR機能付きスキャナー


次にご紹介するのはOCR機能のついたスキャナーを使用する方法です。
スキャナーは、紙の書類や写真などをパソコンで取り扱うことのできるデジタルデータに変換するための機械です。紙書類を電子データに移行し、保管を楽に行いたいという方におすすめの商品となっています。

もしデータ上のPDFファイルにOCRを適用したい場合は一度紙として印刷する必要があるので注意が必要です。

Aoleca ハンディスキャナー

こちらの商品はハンディタイプのスキャナーで、Amazonで7280円とスキャナーの中では比較的安価。価格を抑えつつPDFのOCR化をしたいという方にオススメです。

大量のスキャンをするには手間がかかりますが、ピンポイントで紙の書類を電子データにしたい方にはうってつけの商品です。

富士通 PFU ドキュメントスキャナー ScanSnap iX1600 (ホワイト/両面読取/ADF/4.3インチタッチパネル/Wi-Fi対応)

こちらの商品は据え置きタイプの本格的なスキャナーで、オフィスやご家庭で大量の書類や写真をデータ化する際に活躍する商品です。
タッチパネルに対応しており、操作性が良いのが特徴。またクラウド保存機能もついているので、パソコンやスマホなどのデジタルデバイスとの連携が容易なのも大きな魅力です。

頻繁にスキャナーを利用する場合や、多人数のオフィス業務、もしくはリモートワークにおいての利用を想定する場合に大きな活躍が見込める商品でしょう。

まとめ


本記事では、PDFファイルが検索されない時の対処法を多数紹介しました。
PDFファイルの内容を検索エンジンに正しく認識してもらうことが、検索結果に表示されるようにするための一番の解決策です。

単体でも効果は見込めますが、可能な限り多くの対処法を試していただくことで、より確かな効果を生み出すことができます。
本記事で紹介したテクニックを使ってPDFを最大限に活用してくださいね。

この記事はさんが執筆しました

【Web担当者必読】PDFファイルが検索されないときの対処法!

関連記事