找回密码
 立即注册
展开
长沙SEO 长沙SEO首页 seo经验分享 查看内容

SEO优化之搜索引擎的robots协议

admin 2017-12-26 15:39 270人围观 seo经验分享

大家好,因为昨天晚上帮别人弄电脑弄到比较晚,所以昨天晚上的博文今天上午来发。 大家一定在想,长沙SEO老铁 你分享的什么破文章,分享了半天,虽然有点与SEO沾边,但是却没有一个是真实的在做SEO的东西!于是呢, ...
大家好,因为昨天晚上帮别人弄电脑弄到比较晚,所以昨天晚上的博文今天上午来发。 大家一定在想,长沙seo老铁 你分享的什么破文章,分享了半天,虽然有点与SEO沾边,但是却没有一个是真实的在做SEO的东西!于是呢,老铁今天就给大家开始分享真实的在“做”SEO的东西。今天老铁给大家分享的是入门开始做网站时第一个应该明白的东东,同时也是蜘蛛到一个网站第一个要访问的东东,一定有人猜出来是什么东东了吧。对,就是Robots的作用与写法。 下面就听 老铁SEO 娓娓道来吧! 一、 什么是robots?有什么用? “Robots”被一些同行朋友叫作“萝卜丝”,它是搜索引擎的机器协议。全称是“网络爬虫排除协议”。网站通过Robots协议来告诉搜索引擎,哪些页面可以抓取,哪些页面不能够抓取。 因为网站的很多目录如果被抓取是有风险的,或者是因为利益原因不能被抓取,所以需要告诉蜘蛛人你网站允许与不允许的情况。 Robots是放在网站根目录下面,名称为:robots.txt 二、 Robot有哪些指令? Robots 的指令很简单,只有三个指令,一般我们也会把地图放在上面,方便蜘蛛进站抓完Robots就直接顺着地图爬。 User-agent: 此指令定义了此指令下面的内容对哪些蜘蛛有效。默认所有蜘蛛都允许抓取,如果此指令指定了特定的蜘蛛,那么此指令下跟的内容就对特定蜘蛛有效。 Disallow: 此指令定义了禁止蜘蛛抓取哪些因为,有些人可能认为,做网站当然都希望被抓取了。错,如果是后台或是隐私文件,相信谁都不愿意被抓取的。 Allow: 此指令定义了允许蜘蛛抓些哪些内容,如果是某些内容允许,其它全部拒绝,则可以用这个指令,大多数网站只用到禁止指令。 Sitemap: 顾名思义,就是我们常说的站点地图了。在这里我们就不详细介绍站点地图了,老铁WEO会在下一节给大家详细介绍 站点地图 的作用与用法。我们把站点地图放在Robots下面,可以方便蜘蛛直接在访问Robots时就访问到你的地图位置。 三、 Robots的写法 1、 User-agent: 是用来定义蜘蛛名的:常见的蜘蛛名包括:Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider、Sosospider、PangusoSpider、JikeSpider、yisouspider、EasouSpider。 2、 Disallow: 是用来定义什么内容不允许蜘蛛抓取,robots中最难用,而且最常出现问题的就是Disallow指令。或者说整个robots的精髓就在于Disallow,学好了这个指令的用法你就能写出完美的Robots.下面我就把我们最常用到的一些Disallow的用法给大家列出来。 禁止整站被抓取: Disallow: / 禁止根目录下的csseo目录抓取: Disallow: /csseo/ 禁止根目录下的csseo目录下的单个页面csseo.html被抓取: Disallow:/csseo/csseo.html 禁止全站含有?的页面被抓取: Disallow: /*?* 禁止全站含有csseo的页面被抓取: Disallow: /*csseo* 禁止全站后缀为.aspx的页面被抓取: Disallow: /*.aspx$ 禁止全站后缀为.jpg的文件被抓取: Disallow:/*.jpb$ 3. Allow: 允许命令一般不单独拿来使用,允许命令一般是先允许某个目录被抓取,然后再禁止其它所有页面被抓取。 允许所有页面被抓取: Allow: / 允许csseo的目录被抓取: Allow: /csseo/ 允许抓取.html的页面: Allow: /*.html$ 允许抓取.jpg的图片: Allow: /*.jpg$ 四、 Robots的应用 老铁自己的网站的robots文件是这样写的: User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /tag/Disallow: /wp-config.phpAllow: / sitemap:http://www csseo.cc/sitemap.xml 禁止所有搜索引擎抓取所有页面: User-agent: * Disallow: / 这种情况一般用在新站建好还没正式上线,不希望蜘蛛抓取时。 禁止百度蜘蛛抓取所有页面: User-agent: Baiduspider Disallow: / 淘宝就因为与百度的利益关系,从2008年就禁止百度抓取它所有页面了。 仅允许百度蜘蛛抓取所有页面: User-agent: Baiduspider Allow: / User-agent: * Disallow: / 禁止所有蜘蛛抓取特定的目录和页面,允许其它所有: User-agent: * Disallow: /sys-admin/ Disallow: /aboutwoniu.html Allow: / 仅允许蜘蛛抓取.html的页面与.jpg的图片: User-agent:* Allow: /*.html$ Allow: /*.jpg$ Disallow:/ 禁止所有动态的页面的抓取,允许其它: User-agent: * Disallow: /*?* Allow: / 允许某个目录下某个目录被抓取,禁止其它 User-agent: * Allow: /csseo/csseo/ Disallow:/csseo/ 五、 关于robots的网络大事件 淘宝封杀 2008年9月8日,淘宝网宣布封杀百度爬虫,百度忍痛遵守爬虫协议。因为一旦破坏协议,用户的隐私和利益就无法得到保障,搜索网站就谈不到人性关怀 京东封杀 2011年10月25日,京东商城正式将一淘网的搜索爬虫屏蔽,以防止一淘网对其的内容抓取。 BE违规抓取Evay 美国BE拍卖公司无视Ebey公司网站 robots协议,终于2000年2月被告上法庭,最终被判Be侵权。 360搜索无视robots协议 2012年8月,360综合搜索被指违反robots协议,被业内指为“违规”警告。 如果大家看完上面的指令还有疑问一话,请大家访问“老铁SEO博客”留言或者直接加入 老铁SEO博客 的官方群,找博主来看大家的Disallow应该怎么写才对。关于Robots的用法还有很多很多,老铁SEO 在这里没法一一列举出来,如果大家对Robots还有疑问。请大家访问“老铁SEO博客”。在这里,我会给大家量解答大家的疑问。另外我也会在自己的博客里面分享更多SEO相关的知识,希望能够对大家SEO的道路有一点帮助。
二维码
欢迎关注,微信 【www_csseo_cc】