惡意蜘蛛或者爬蟲UA特征公布(2024版)
我們做網站,往往都是機器比真人少,不僅影響我們查看數據的真實性,也影響網站服務器的負載,其中很多未知名的機器天天爬,不知道是采集還是掃漏洞、或者是撒網式攻擊注入,讓人煩不勝煩!那么我們有什么好的辦法呢?唯一的辦法就是對該類訪問進行屏蔽。但是通過IP來訪問,實在是收效甚微,主要原因是我們沒有大量的數據來進行分析各IP的訪問行為。
對于一些高明的機器訪問,我們很難判斷是真人還是機器,但是我們可以通過UA來對某些訪問者進行限制。雖然不能全面禁止惡意機器的訪問,但是大部分無意義的訪問者是可以攔截在網站之外的。
一、判斷蜘蛛的真實性
很多機器訪問的時候會模擬百度蜘蛛、谷歌蜘蛛進行訪問,這里我們就需要對蜘蛛真實性進行有效的識別。其中最有效的辦法是通過收集各大搜索引擎的全部蜘蛛IP來進行匹配,但是要收集蜘蛛的所有IP比較困難,除非搜索引擎公布了所有蜘蛛的IP,不然很難做到全面。最簡單的辦法則是對蜘蛛的IP進行反查詢,查詢其DNS解析記錄。比如:
百度蜘蛛:DNS記錄需包括(baidu.com)
谷歌蜘蛛:DNS記錄需包括(googlebot.com)
必應蜘蛛:DNS記錄需包括(search.msn.com)
這里主要是針對模仿蜘蛛進行訪問的機器,他既然選擇模仿蜘蛛而避免被屏蔽,說明其行為的目的并不單純,大可放心攔截封禁!
二、非法UA特征
對于一些沒有模擬知名蜘蛛的普通訪問者,凡是有一些特征的UA,基本可以直接屏蔽:
AhrefsBot
AwarioBot
BLEXBot
Barkrowler
CensysInspect
Criteo
DataForSeoBot
DigExt
DnyzBot
DotBot
ExtLinksBot
Ezooms
FlightDeckReports
Go-http-client
Grapeshot
Heritrix
HttpClient
HubSpot
InternetMeasurement
Knowledge AI
Linguee Bot
MJ12bot
MauiBot
MegaIndex
RepoLookoutBot
SemrushBot
SurdotlyBot
Web-Crawler
WellKnownBot
Yellowbrandprotectionbot
ZoominfoBot
axios
fasthttp
github
libcurl
paloaltonetworks
python
seokicks
serpstatbot
webprosbot
Go-http-client
python-requests
ubuntu
Java
DataForSeoBot
MJ12bot
AhrefsBot
BLEXBot
DotBot
Barkrowler
Adsbot
SM-G900P
SemrushBot
PetalBot
GPTBot
Apache-HttpClient
ds-robot
amazonbot
msray-plus
Go-http-client
YandexBot
Python
SkyworkSpider
ChatGLM-Spider
Knowledge AI
Linguee Bot
Wordup-1
PycURL
curl/7.29.0
okhttp
ChatGLM-Spider
python
Python-urllib/3.10
Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2)
Dalvik/2.1.0
Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1)
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)
Go-http-client/1.1
Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0
Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
這里面有ai蜘蛛、服務器機器UA、go和python等服務UA、很多linux系統的機器UA是空,比如寶塔的linux機器訪問是空UA,所以空UA基本也是可以屏蔽掉的。當然,我這里分享的東西可能還不夠全面,也可能有重復的,其余的等待大家補充!
作者:小藍
鏈接:http://www.beijingshangmencuiru.cn/content/4029.html
本站部分內容和圖片來源網絡,不代表本站觀點,如有侵權,可聯系我方刪除。