PubSubHubbubを使用してスクレイピング被害の防止と対策!読み方は?
記事の更新をいち早く知らせるプラグインPubSubHubbub。
読み方は「パブサブハブバブ」で「b」が多いです。bは下唇を軽く上唇に触れさせる程度の発音しかしませんので、「パbサbハbab」みたいな感じで読むとそれっぽい読み方になります。若干、「炭酸バブ」的な語感がします(どうでもいい 笑)
読みにくい名前ナンバー1のプラグインですが、WordPressでは必須のプラグインですね。
PubSubHubbubの使用方法
PubSubHubbubの使用方法は簡単です。メニュー → プラグイン → 新規追加 と移動し、「PubSubHubbub」と検索、インストールして有効化します。
以上で設定は終了です。
あとは勝手に更新情報を伝えてくれて、インデックス速度の向上が見込めます。
(すぐに劇的な効果が現れるようなものではありません)
デフォルトでハブの送信先がふたつ設定されていて、後から追加したりもできますが、基本的にはこのままでOKです。
PubSubHubbubを導入する意味
サイトの置いてあるサーバーとRSSなどのクライアントは、「更新した?」とか「更新したよ」という情報を直接やりとりしているのですが、それではサーバーに負荷が掛かったり効率が悪かったりします。なので、その間に中継地点を設けて情報をそこでやりとりしてしまおう、という技術がPubSubHubbubです。例えてみると、職業安定所とか、広告代理店とか、卸問屋とか、間に入るサービスみたいなものですね。
間にワンクッション(ハブ)が入ることで、情報の流れがスムーズになるということです。効果は非常に高く、これからはほとんどのウェブサイトが利用することになるのではないでしょうか。
また、更新情報が検索エンジンにスムーズに伝わることで、サイトの記事が早くインデックスされます。これによってスクレイピングによる被害を減らせると、Googleのマットカッツさんという偉い人も太鼓判を押してるとか押してないとか。
Webスクレイピングって何?
Webスクレイピングとは、ウェブサイトの一部分、または全部のhtmlデータを取得し、再構成して別のサイトで利用することです。たとえばヤフーニュースのトピックス部分だけを自分のサイトに表示させるとか、株価情報サイトのグラフだけ抜き出して使うとか、そんな使い方ができます。
スクレイピング自体は別に悪いことではなくて、データを効率よく自動でまとめるために必要な技術と言えます。
しかし、基本的には既に作られているコンテンツを流用する技術なので、悪意を持った人が使用するといとも簡単に他人のコンテンツをパクることができてしまうわけですね。
例としては、他国のニュースサイトを自動翻訳機に掛けて、あたかも自分のサイトのオリジナルコンテンツかのように使用する、などの方法があります。
ひどい場合は回りくどいことはせず、他人が記事をアップした瞬間に丸ごと自動で転載させるような人もいます。それで、そっちの方が早くインデックスされて、オリジナルより上位に表示されたり…。
こういったブラックな手法は長続きしないことを願いたいのですが、Googleでもすべてを見抜くことは不可能なようです。
優れた道具に罪はありませんが、放っておくと低きに流れるのが人の性ですので、自分のコンテンツを勝手に利用されないようスクレイピング対策は事前にしておかなければなりません。
そのためにもPubSubHubbubは導入しておくようにしましょう。