1、錯(cuò)誤的(de)封禁 在百度的(de)robots.txt的(de)更新上(Ω♣β&shàng),如(rú)果多(duō)次點擊“檢測并更新”就(ji≥<ù)會(huì)出現(xiàn)時(shí)♠&€常可(kě)以更新,但(dàn)是(shì)又(yòu)時(σ↓≤shí)常無法更新的(de)問(wèn)題。β®如(rú)此一(yī)來(lái):不(bù)應當被收錄的(de)東(dōng©≠¥)西(xī),在robots.txt上(shàng)禁止的(de)被收錄δ ¶≥了(le),又(yòu)删除就(jiù)很ε (hěn)正常了(le)。那(nà)麽它的(de)問(wèn)題是(£∏≥≈shì)什(shén)麽呢(ne)?并非服務器(qì)負載過度,而是(®♣shì)因為(wèi)防火(huǒ)牆錯(cuò)誤的(de)将部分(fēn↑₽₹β)Baiduspider列入了(le)黑(hε®∏→ēi)名單。
2、服務器(qì)異常 常規的(de)服務器(qì)就(jiù)不(bù•π)說(shuō)了(le),大(dà)家(÷£"×jiā)都(dōu)知(zhī)道(dào)的(de),北(běi)上φ§∑(shàng)廣的(de)一(yī)般都(dōu)不(b'₹ù)錯(cuò)。不(bù)過有(yǒu)一(yī)✔ €些(xiē)特殊服務器(qì),想必絕大(dà)多(duō)數(shù)₩ ≠的(de)站(zhàn)長(cháng)都(dōu)不(bù)知(®≈↕zhī)道(dào)吧(ba)?例如(rú)西(x$♥☆ī)部數(shù)碼的(de)“港台服務器(qì)”≥★•就(jiù)很(hěn)有(yǒu)趣,真的(de)是(shì)✘♦港台的(de)嗎(ma)?本身(shēn)機(jī♦≈)房(fáng)在國(guó)內(nèi),還( ±✔Ωhái)算(suàn)什(shén)麽港台?為(wèi)了(le)逃避備案而用₩ ✘(yòng)一(yī)個(gè)港台的(de)IP,數↓✔¶Ω(shù)據全部在國(guó)內(nèi)。§¶
這(zhè)樣有(yǒu)什(shén✘♣<↕)麽不(bù)好(hǎo)呢(ne)?我們會(huì)發現(xiàn):₩☆§站(zhàn)點的(de)服務器(qì)是(shì)經過CDN的(✔←de),哪怕是(shì)你(nǐ)上(shàng)傳的(∏÷&de)一(yī)張圖片,都(dōu)會(huì)顯示為(wèi)“302狀态↓≤碼”,訪問(wèn)速度是(shì)提升上(shàng¶γ™¶)去(qù)了(le),可(kě)是(shì)這€•"¥(zhè)樣利于SEO嗎(ma)?
3、獲取不(bù)到(dào)真實IP 規模較大(dà)的(de)網站(zhàn)©&,一(yī)般都(dōu)會(huì)使用(yòngγαλ)CDN加速,但(dàn)是(shì)有(yǒu)些(xiē)站(z≤↓hàn)點不(bù)僅僅對(duì)“設備”¶← ×使用(yòng)了(le)CDN加速,而且還(hái)對(duì)↓σδSpider使用(yòng)了(le)加速功能(néng)。後的(de)結果εα≥©是(shì)什(shén)麽呢(ne)?如(rú)果CΩ•★DN節點不(bù)穩定,那(nà)麽對(duì)網站(zhàn)spiderε↓ ✘來(lái)講,這(zhè)個(gè)問↑∞(wèn)題将是(shì)緻命的(de)。
很(hěn)多(duō)大(dà)型站(zhàn)點÷®開(kāi)放(fàng)CDN的(de≠≈)原因就(jiù)是(shì)容易被攻擊,這(zh∑π☆♠è)個(gè)時(shí)候如(rú)果不→↑ε£(bù)做(zuò)“蜘蛛回源”就(jiù)可(k ↕€↕ě)想而知(zhī)了(le)。你(nǐελ§)的(de)站(zhàn)點做(zuò)了(®€↔le)CDN了(le)嗎(ma)?請(qǐ£∑π£ng)登錄百度站(zhàn)長(cháng)平台查看(kàn)一(yī)下(£®xià)spider是(shì)否可(kě)以抓取真實IP地(dì)址吧™¶₩÷(ba)!
4、頻(pín)繁的(de)50X類錯(cuòγλε)誤
這(zhè)樣的(de)鏈接其中一(yī)個(♦βgè)共同的(de)特點是(shì):當打開(kāi)後,×₽σ全部都(dōu)是(shì)正常的(de),那(nà)麽Spid↓↑er為(wèi)什(shén)麽會(huì)報(♠π"bào)錯(cuò)提醒呢(ne)?隻是(shì)因φ$為(wèi)在爬蟲發起抓取的(de)那(nà)一(yī₩↔)刻,httpcode返回了(le)5XX",你←✘ (nǐ)的(de)站(zhàn)點是(sσ↑₽hì)否頻(pín)繁有(yǒu)這(zhè)樣的(de)問(α<®βwèn)題呢(ne)?有(yǒu)的(de)話(huà)需要 ↔↑÷(yào)立即安排技(jì)術(shù),或者通(tōng)報(bào)ID÷∞≈φC服務商做(zuò)解決了(le)!
5、錯(cuò)誤的(de)抓取比例 任何網站(zhàn)都(dōu)做(z ®&uò)不(bù)到(dào)100%不(bù)出問(wèn)₽ ε題,但(dàn)是(shì)萬事(shì)有(yǒu)一(yī)個(₹÷gè)度:我們認為(wèi),這(zhè)個(gè)比例π ↑不(bù)超過5%,對(duì)網站(zhà≠∏∑n)基本上(shàng)是(shì)無影(yǐn•φ↔≥g)響的(de),且這(zhè)樣的(de)錯(cuò)誤不(≥€bù)應當每天都(dōu)出現(xiàn)。常見(jiàn)的(d≈☆® e)抓取錯(cuò)誤一(yī)般都(dōu)♠✘★是(shì)連接超時(shí):"抓取請(qǐ "<ng)求連接建立後,下(xià)載頁面速度過慢(màn),導緻超時&♦÷(shí),可(kě)能(néng)原因服務器(qì)過↑Ω€載,帶寬不(bù)足"這(zhè)種情況:
A:盡量在不(bù)影(yǐng)響圖片質量的(de)情β•∑δ況下(xià),對(duì)圖片進行(xí↔&✘©ng)壓縮,上(shàng)傳的(de)時(shí)候就≥α↔(jiù)進行(xíng)了(le)壓縮。☆λ
B:減少(shǎo)如(rú)JS腳本文(wén)件(jià♠¶≥✔n)類型的(de)使用(yòng),或者進行(xí✔"ng)合并
C:頁面大(dà)小(xiǎo)進行(xíng)控制(zhì),尤其是→ α(shì)一(yī)些(xiē)浏覽量、抓取量較高(≠÷₹gāo)的(de)頁面,不(bù)建議(∞∏"•yì)超過2MB。
D:增加網站(zhàn)的(de)帶寬,提升下(xià)載速度,或者更λ ₩α換服務器(qì)。
今天三好(hǎo)網絡關于網站(zhàn)收錄服務器(qì)端問(wè₩ n)題就(jiù)分(fēn)享到(dào)這∞§σ(zhè)裡(lǐ),更多(duō)網站(zhàn)↔$建設、優化(huà)等問(wèn)題可(kě)咨詢三好(hǎo)網絡技(jì)↓↑÷術(shù)團隊。