Spider對(duì)網(wǎng)站抓取數(shù)量突增往往給站點(diǎn)帶來(lái)很大煩惱,紛紛找平臺(tái)想要BaiduspiderIP白名單,但實(shí)際上BaiduSpiderIP會(huì)隨時(shí)變化,所以并不敢公布出來(lái),擔(dān)心站長(zhǎng)設(shè)置不及時(shí)影響抓取效果。百度是怎么計(jì)算分配抓取頻次數(shù)量的呢?站點(diǎn)抓取頻次數(shù)量暴增的原因有哪些呢?
總體來(lái)說(shuō),Baiduspider會(huì)根據(jù)站點(diǎn)規(guī)模、歷史上網(wǎng)站每天新產(chǎn)出的鏈接數(shù)量、已抓取網(wǎng)頁(yè)的綜合質(zhì)量打分等等,來(lái)綜合計(jì)算抓取頻次數(shù)量,同時(shí)兼顧站長(zhǎng)在抓取頻次工具里設(shè)置的、網(wǎng)站可承受的最大抓取值。
從目前追查過(guò)的抓取頻次數(shù)量突增的case中,原因可以分為以下幾種:
1、Baiduspider發(fā)現(xiàn)站內(nèi)JS代碼較多,調(diào)用大量資源針對(duì)JS代碼進(jìn)行解析抓取
2、百度其他部門(如商業(yè)、圖片等)的spider在抓取,但頻次數(shù)量沒(méi)有控制好,sorry
3、已抓取的鏈接,打分不夠好,垃圾過(guò)多,導(dǎo)致spider重新抓取
4、站點(diǎn)被攻擊,有人仿冒百度爬蟲(chóng)(推薦閱讀:《如何正確識(shí)別BaiduSpider》)
如果站長(zhǎng)排除了自身問(wèn)題、仿冒問(wèn)題,確認(rèn)BaiduSpider抓取頻次數(shù)量過(guò)大的話,可以通過(guò)反饋中心來(lái)反饋,切記一定要提供詳細(xì)的抓取日志截圖。
百度蜘蛛抓取頻次,網(wǎng)頁(yè)不收錄
百度不收錄頁(yè)面的原因分析:
目前百度spider抓取新鏈接的途徑有兩個(gè),一是主動(dòng)出擊發(fā)現(xiàn)抓取,二就是從百度站長(zhǎng)平臺(tái)的鏈接提交工具中獲取數(shù)據(jù),其中通過(guò)主動(dòng)推送功能“收”上來(lái)的數(shù)據(jù)最受百度spider的歡迎。對(duì)于站長(zhǎng)來(lái)說(shuō),如果鏈接很長(zhǎng)時(shí)間不被收錄,建議嘗試使用主動(dòng)推送功能,尤其是新網(wǎng)站,主動(dòng)推送首頁(yè)數(shù)據(jù),有利于內(nèi)頁(yè)數(shù)據(jù)的抓取。
那么同學(xué)們要問(wèn)了,為什么我提交了數(shù)據(jù)還是遲遲在線上看不到展現(xiàn)呢?那涉及的因素可就多了,在spider抓取這個(gè)環(huán)節(jié),影響線上展現(xiàn)的因素有:
1、網(wǎng)站封禁:你別笑,真的有同學(xué)一邊封禁著百度蜘蛛,一邊向百度狂交數(shù)據(jù),結(jié)果當(dāng)然是無(wú)法收錄。
2、質(zhì)量篩選:百度蜘蛛spider3.0對(duì)低質(zhì)內(nèi)容的識(shí)別上了一個(gè)新臺(tái)階,尤其是時(shí)效性內(nèi)容,從抓取這個(gè)環(huán)節(jié)就開(kāi)始進(jìn)行質(zhì)量評(píng)估篩選,過(guò)濾掉大量過(guò)度優(yōu)化等頁(yè)面,從內(nèi)部定期數(shù)據(jù)評(píng)估看,低質(zhì)網(wǎng)頁(yè)比之前下降62%。
3、抓取失?。鹤ト∈〉脑蚝芏啵袝r(shí)你在辦公室訪問(wèn)完全沒(méi)有問(wèn)題,百度spider卻遇到麻煩,站點(diǎn)要隨時(shí)注意在不同時(shí)間地點(diǎn)保證網(wǎng)站的穩(wěn)定性。
4、配額限制:雖然我們正在逐步放開(kāi)主動(dòng)推送的抓取配額,但如果站點(diǎn)頁(yè)面數(shù)量突然爆發(fā)式增長(zhǎng),還是會(huì)影響到優(yōu)質(zhì)鏈接的抓取收錄,所以站點(diǎn)在保證訪問(wèn)穩(wěn)定外,也要關(guān)注網(wǎng)站安全,防止被黑注入。



皖公網(wǎng)安備 34010202600669



