很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
點擊上方藍字@巴郎刊關(guān)注
這是巴郎刊的第063篇文章
作者|巴郎 編輯|巴郎
來源|巴郎刊(ID:balangk)
轉(zhuǎn)載請聯(lián)系授權(quán)(微信ID:g0013g)
前言
小小的robots,聚集著大大的能量
01
初次見面
大家好我是robots!很高興登場今天的SEO教程見面會,總算輪到我登場啦!和新人摸摸噠們初次見面今后還請大家多多關(guān)照呀。接下來,我詳細給大家介紹下自己。
—01—
姓啥名誰
英文名叫:robots
中文讀法:若波茨
SEO術(shù)語:網(wǎng)站爬蟲協(xié)議
官方解釋:
robots是網(wǎng)站跟爬蟲間的協(xié)議,用txt格式文本告訴對應(yīng)的爬蟲被允許的權(quán)限,同時也是搜索引擎蜘蛛進入網(wǎng)站時第一個查看的文件。
該協(xié)議不是絕對規(guī)范,只是約定俗成的一般規(guī)范。故而可遵守可不遵守。
—02—
我能干什么
爬蟲程序
在給大家介紹我的職責之前,先給大家講下啥叫【爬蟲程序】。
爬蟲程序是各大搜索引擎自主研發(fā)的一套抓爬信息與獲取數(shù)據(jù)的技術(shù)程序。
這些信息和數(shù)據(jù)被抓取以后被爬蟲帶回去存儲到搜索引擎的服務(wù)器上。這就是爬蟲程序的作用。
我的職責
當你的網(wǎng)站上線以后,各類搜索引擎的爬蟲立刻聞訊而來。它們來的目的就是搜集你網(wǎng)站上的內(nèi)容,它們把內(nèi)容打包好帶回家存進服務(wù)器里面去。
既然有一大群,一大群的蜘蛛來到咱們的網(wǎng)站抓爬,總得有個人招待它們這些小家伙。而的我的作用:接待它們,并約束它們的抓爬行為。你可以理解為導游。
抓取協(xié)議
蜘蛛這些小家伙們活奔亂跳的,它們來到網(wǎng)站抓數(shù)據(jù)必須有一個人來引導它們,因此我寫了一個抓取協(xié)議,這個協(xié)議文件叫:robots.txt。
在這個協(xié)議里面,我與爬蟲們協(xié)議約定:哪些數(shù)據(jù)可以抓,哪些數(shù)據(jù)不要抓。
這些小家伙們看到協(xié)議以后就能高效地去抓取數(shù)據(jù)了。同時這個協(xié)議在很大程度上也減輕了接待工作的壓力。這就是我的工作。
每個網(wǎng)站,理論上都應(yīng)該有個一我寫的抓取協(xié)議。但是有的網(wǎng)站并不規(guī)范,它們甚至都不寫robot.txt。這可不行喲。
因此規(guī)范robots協(xié)議對于絕大多數(shù)服務(wù)型的網(wǎng)站而言是必不可少的,因為會影響到SEO優(yōu)化,后面再說。
那么如何書寫這份協(xié)議就格外重要了,上面給大家講解了我的職責,接下來我給大家重點講robots協(xié)議的書寫格式。
robots協(xié)議是一個純文本文件,文件全名叫:robots.txt,該文本放在網(wǎng)站的根目錄下,打開的入口為:www.你的域名.com/robots.txt。
當爬蟲們進入我們網(wǎng)站以后,它會第一時間先來這里找我,給我打個招呼,然后才開始逛我們的網(wǎng)站。以知乎官網(wǎng)為例來講解。
知乎官網(wǎng)robots.txt
以知乎官網(wǎng)的robots.txt為例。如圖所示
截取第一段示例,詳細說明
a.格式與后綴
robots.txt必須放置在站點的根目錄下,且文件名必須全部小寫:robots.txt;后綴為“.txt”
b.語法說明
User-agent
定義搜索引擎蜘蛛的類型
Disallow
定義禁止搜索引擎蜘蛛抓取的對象
Allow
定義允許搜索引擎蜘蛛抓取的對象
*號
*星號,也是一個通配符,表示:任何,任意,這里表示任何種類的蜘蛛
$號
$錢幣號,也是一個通配符,表示:指定某個鏈接
?號
?問號,也是一個通配符,表示:含有?號的動態(tài)地址
c.語法范例
例1--允許百度抓取,禁止google抓取
User-agent: Baiduspider
Allow: /
User-agent: Goolebot
Disallow: /
例2--攔截以 .asp 結(jié)尾的網(wǎng)址
User-Agent: *
Disallow: /*.asp$
表示所有的搜索引擎蜘蛛都不允許抓取含有asp字符的網(wǎng)址。
例3--禁止抓取所有包含?的網(wǎng)址
User-agent: *
Disallow: /*?*
一般用于一些動態(tài)鏈接的網(wǎng)站,動態(tài)鏈接不利于蜘蛛抓取,以及SEO排名,所以要屏蔽掉。
例4--使用*號匹配字符語法
User-Agent: *
Disallow: /a*/
表示所有搜索引擎蜘蛛,不允許抓取以a開頭的所有的文件。
例5--禁止抓取除去a文件下的1以外的一切頁面
User-Agent: *
Disallow:/a/
Allow:/a/1.html
這里切記,先寫Disallow,再寫Allow。
因為Disallow是第一優(yōu)先級,Allow是第二優(yōu)先級。如果不需要Disallow,可直接寫Allow。
蜘蛛類型有上萬種,這里列出一些國外和國內(nèi)能能叫得上名字的蜘蛛種類。
百度蜘蛛:Baiduspider(這個是總稱)
百度蜘蛛其實有很多種,Baiduspider只是總稱。旗下還有Baiduspider-image(專抓圖片)、Baiduspider-video(專抓視頻)、Baiduspider-news(專抓新聞)等等。
360蜘蛛:360spider
360蜘蛛抓起來是很瘋狂的,只要它想抓你,你攔都拉不住,即使你寫的robots也沒用。
有道蜘蛛:YoudaoBot,YodaoBot
網(wǎng)易公司旗下的產(chǎn)品。
搜狗蜘蛛:Sogou News Spider
目前已被騰訊公司戰(zhàn)略控股,原先騰訊有個自己的搜索引擎叫搜搜,后來做的要死不活,和搜狗合并了。微信現(xiàn)在用的搜一搜功能就是由搜狗提供的。
可以說騰訊做移動搜索這一塊做的很棒,進軍搜索市場是板上釘釘?shù)氖虑榱恕?/span>
另外搜狗的蜘蛛類型也有很多,想要知道它們分別是那些,直接去度娘的若波茨底下去找就可以了,百度和搜狗是死磕到底的競爭正對手。
中國搜:ChinasoSpider
中國搜的爸爸很厲害,由中央七大新聞單位控股而成。如果你做自媒體,找一些官方資料和新聞去這里很好,新媒體小編不錯的選項之一。
中國搜索
一搜蜘蛛:YisouSpider
一搜可能新人朋友可能沒聽說,但是神馬搜索你應(yīng)該聽說過,一搜蜘蛛就是神馬搜索引擎的蜘蛛。
神馬搜索是專注移動互聯(lián)網(wǎng)的搜索引擎,致力于為用戶創(chuàng)造方便、快捷、開放的移動搜索新體驗。由來自微軟、谷歌、百度、360等國內(nèi)外IT公司的資深員工所組成。
如果你的產(chǎn)品受眾比較大,那么神馬搜索必須做SEO布局,也值得你花大量時間去研究。
宜sou蜘蛛:EasouSpider
深圳宜搜天下科技股份有限公司出臺一款小型搜索引擎,專注手機移動端搜索,但是相比百度和360,它真的太弱了。還是屏蔽它吧。
即刻蜘蛛:JikeSpider
“即刻搜索”是由人民搜索網(wǎng)絡(luò)股份公司于2011年6月20日推出的通用搜索引擎平臺,也建議屏蔽掉。
一淘網(wǎng)蜘蛛:EtaoSpider
一淘網(wǎng)屬于阿里旗下的一個電商網(wǎng)站,喜歡淘貨,做閑魚搬運項目賺零花錢的朋友去這個平臺還不錯,第二個是1688的一鍵代發(fā)。
國外蜘蛛太多了,本文就寫幾個知名度高點的吧。
谷歌蜘蛛:Googlebot
做外貿(mào)SEO以及海外獨立站的人都要接觸它,而且還要研究好它,百度很多排名機制都是從谷歌上借鑒而來的。
MSN蜘蛛:MSNbot
微軟公司旗下的爬蟲
俄羅斯的yandex:YandexBot
俄羅斯的LinkpadBot:LinkpadBot
瑞典:Speedy Spider
英國:MJ12bot
雅虎搜索已經(jīng)退出歷史舞臺,成為永遠的歷史了,這里就不介紹了。
上面介紹了很多,接下來要說一下我和SEO這個遠戚到底有啥關(guān)系。
網(wǎng)站中存在很多不重要的圖片,以及很多動態(tài)鏈接與冗余的文件,而這些鏈接對于蜘蛛來說抓取很困難,導致蜘蛛體驗很差。
圖片太大,導致蜘蛛無法完全抓取,那么一定程度上會浪費蜘蛛的抓爬資源。
因為抓不動,就會把這些未知的元素帶回搜索引擎。
搜索引擎無法完全識別這些頁面和圖片,那么就會對我們的網(wǎng)站產(chǎn)生不信任。
產(chǎn)生了不信任,在對網(wǎng)頁進行評分的時候分數(shù)就會特別低,進而導致頁面的基礎(chǔ)評分不及格,不給與索引,更不會收錄。最終影響我們的排名。
這就是為什么我們要壓縮圖片,不要用JS作效果圖,精簡代碼,對動態(tài)鏈接進行偽靜態(tài)處理的根本原因。
蜘蛛與用戶進入網(wǎng)站時候,都會消耗網(wǎng)站服務(wù)器的資源,具體形式就是【帶寬】。
網(wǎng)站的頁面如果很多,那么就需要更多的爬蟲來爬,爬蟲來的多,消耗的帶寬就越多。
假如網(wǎng)站的帶寬是固定的,爬蟲占用的帶寬多了,那么用戶占用的帶寬就少了。
這勢必會影響用戶瀏覽網(wǎng)頁的體驗,合理利用好robots協(xié)議對網(wǎng)站在運營層面來說意義是不言而喻的。
以上兩點請新人牢記,在網(wǎng)站上線以前,就要規(guī)劃好你的首頁,欄目頁,URL鏈接偽靜態(tài)化處理。然后書寫好robots.txt。
robots協(xié)議對于網(wǎng)站運營有很重要的運營意義,在書寫時一定要仔細檢查,要慎重使用Disallow。
如果用錯會導致網(wǎng)站的某個欄目或頁面長時間不被收錄。排名是建立在收錄基礎(chǔ)上的,沒有收錄就沒有排名。
robots協(xié)議類似于“君子協(xié)定”。并不是說你寫了,蜘蛛就不爬了。有的蜘蛛可以強行爬取,你寫了也沒用。
它只是一個約定俗稱的規(guī)范,并不是絕對規(guī)范。如果在網(wǎng)站日志分析中發(fā)現(xiàn)陌生爬蟲的足跡,你可以選擇屏蔽掉該蜘蛛以便節(jié)省網(wǎng)站資源。
網(wǎng)站上線前,要做好本地測試,寫好robots.txt最后打包上傳服務(wù)器再上線。
如果沒有做本地測試直接上線,那么第一時間是在robots.txt中屏蔽掉所有蜘蛛。第二步才是做301重定向。
最后的話
關(guān)于robots給大家寫了很多,基本詳細到點了,又要給大家說再見了。
本期的SEO教程《我叫若波茨,初次見面請多多關(guān)照》就給大家講到這,下期我們講《如何規(guī)范書寫robots》。下期再見!
做一個有趣的人,再見巴郎!
作者:巴郎
首發(fā):巴郎小站
巴郎小站:http://www.8alang.com/
-END-
作者簡介
巴郎:一個有趣的90后小哥哥,做過傳統(tǒng)銷售,后結(jié)緣SEO入行互聯(lián)網(wǎng),現(xiàn)自由職業(yè)佛系青年。
寫文不易,覺得不錯!
點個“在看”,轉(zhuǎn)給朋友!
歡迎你“關(guān)注”,感謝!
長按下圖識別二維碼關(guān)注
做一個有趣的人
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權(quán)及免責申明》 如對文章、圖片、字體等版權(quán)有疑問,請點擊 反饋舉報
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。
一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡(luò)欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應(yīng),蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治病;
2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
2)內(nèi)容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內(nèi)容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導未成年人應(yīng)援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)