アクセス制限

GoogleのSearch Console上で、ワケの分からないリンク元URLが出てきた。不明なURLへ直接アクセスするのは危険なので、防衛手段を採りつつ開いてみると、漢字まみれ…中国の検索サイトからだった。検索サイトに引っかかるようになったということは、収集ロボットが訪れていたはず。さっそく、httpdのアクセスログを解析してみると、やはり痕跡はあるわけで。

クローラーのアクセスログ

Sogou Web spider/4.0、Sogou=横浜のあれではないし、総合でもない。中国の検索サイトといえば百度が有名だが、このSogou(搜狗)は利用者が増えている最中のようで、かつてはmp3の検索で有名だったとか。素行が悪い百度のクローラーは遮断していたが、Sogouは完全に抜け目だった。

さっそく、
User-agent: Sogou web spider
Disallow: /
と遮断する。

Sogouのことを調べていたら、Haosouという検索サイトの情報も発見。もともとは360搜索という名前だそうで、開発はソフトウェア企業の奇虎360とのこと。同社が開発したブラウザに検索エンジンが組み込まれており、サービスの名称を360搜索からHaosouへ変更したようだ。その検索エンジンのUAが『360Spider』、イタ車の名前と同じらしい。こいつも素行が悪いクローラーなので、
User-Agent: 360Spider
Disallow: /
と設定。

これでしばらく様子を見て、サイト内容の収集活動が止まるかチェックすることになった。東側諸国や特アのクローラーは、どいつもこいつも厄介な性質を持つ。新しいクローラーが見つかり次第、どんどん追加することを心がけたい。