惡意蜘蛛或者爬蟲UA特征公布（2024版）

2024-11-7

我們做網站，往往都是機器比真人少，不僅影響我們查看數據的真實性，也影響網站服務器的負載，其中很多未知名的機器天天爬，不知道是采集還是掃漏洞、或者是撒網式攻擊注入，讓人煩不勝煩！那么我們有什么好的辦法呢？唯一的辦法就是對該類訪問進行屏蔽。但是通過IP來訪問，實在是收效甚微，主要原因是我們沒有大量的數據來進行分析各IP的訪問行為。

對于一些高明的機器訪問，我們很難判斷是真人還是機器，但是我們可以通過UA來對某些訪問者進行限制。雖然不能全面禁止惡意機器的訪問，但是大部分無意義的訪問者是可以攔截在網站之外的。

惡意蜘蛛或者爬蟲UA特征公布（2024版）插圖

惡意蜘蛛或者爬蟲UA特征公布（2024版）插圖1

一、判斷蜘蛛的真實性

很多機器訪問的時候會模擬百度蜘蛛、谷歌蜘蛛進行訪問，這里我們就需要對蜘蛛真實性進行有效的識別。其中最有效的辦法是通過收集各大搜索引擎的全部蜘蛛IP來進行匹配，但是要收集蜘蛛的所有IP比較困難，除非搜索引擎公布了所有蜘蛛的IP，不然很難做到全面。最簡單的辦法則是對蜘蛛的IP進行反查詢，查詢其DNS解析記錄。比如：

百度蜘蛛：DNS記錄需包括（baidu.com）

谷歌蜘蛛：DNS記錄需包括（googlebot.com）

必應蜘蛛：DNS記錄需包括（search.msn.com）

這里主要是針對模仿蜘蛛進行訪問的機器，他既然選擇模仿蜘蛛而避免被屏蔽，說明其行為的目的并不單純，大可放心攔截封禁！

二、非法UA特征

對于一些沒有模擬知名蜘蛛的普通訪問者，凡是有一些特征的UA，基本可以直接屏蔽：

AhrefsBot

AwarioBot

BLEXBot

Barkrowler

CensysInspect

Criteo

DataForSeoBot

DigExt

DnyzBot

DotBot

ExtLinksBot

Ezooms

FlightDeckReports

Go-http-client

Grapeshot

Heritrix

HttpClient

HubSpot

InternetMeasurement

Knowledge AI

Linguee Bot

MJ12bot

MauiBot

MegaIndex

RepoLookoutBot

SemrushBot

SurdotlyBot

Web-Crawler

WellKnownBot

Yellowbrandprotectionbot

ZoominfoBot

axios

fasthttp

github

libcurl

paloaltonetworks

python

seokicks

serpstatbot

webprosbot

Go-http-client

python-requests

ubuntu

Java

DataForSeoBot

MJ12bot

AhrefsBot

BLEXBot

DotBot

Barkrowler

Adsbot

SM-G900P

SemrushBot

PetalBot

GPTBot

Apache-HttpClient

ds-robot

amazonbot

msray-plus

Go-http-client

YandexBot

Python

SkyworkSpider

facebook

ChatGLM-Spider

Knowledge AI

Linguee Bot

Wordup-1

PycURL

curl/7.29.0

okhttp

ChatGLM-Spider

python

Python-urllib/3.10

Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2)

Dalvik/2.1.0

Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1)

Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)

Go-http-client/1.1

Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0

Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)

這里面有ai蜘蛛、服務器機器UA、go和python等服務UA、很多linux系統的機器UA是空，比如寶塔的linux機器訪問是空UA，所以空UA基本也是可以屏蔽掉的。當然，我這里分享的東西可能還不夠全面，也可能有重復的，其余的等待大家補充！

四川、湖北、香港、臺灣、日本、韓國、美國獨立服務器新購8折，點擊查看配置>>>

版權聲明：
作者：小藍
鏈接：http://www.beijingshangmencuiru.cn/content/4029.html
本站部分內容和圖片來源網絡，不代表本站觀點，如有侵權，可聯系我方刪除。

THE END

網站做 tags 標簽的目的和意義，你真的懂嗎？

<<上一篇

如何防范分布式拒絕服務攻擊（DDoS）？這些方法你一定要知道

下一篇>>