指教我一下使用robot,有没有简单直接的方式呢。求经验。。。。

如题所述

  robots.txt的写法(语法)

  robots.txt就是一个记事本文件(txt格式文件),存放在网站根目录下。
  那么robots.txt语法到底有哪些呢?
  robots.txt语法有三个语法和两个通配符。
  三个语法:
  1.首先要定义网站被访问的搜索引擎是那些。
  User-agent:(定义搜索引擎)
  语法:User-agent: * 或 搜索引擎的蜘蛛名称
  例子:User-agent:Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
  User-agent:Baiduspider (定义百度,只允许百度蜘蛛爬取)
  User-agent:*(定义所有搜索引擎)
  2:屏蔽搜索引擎爬去语法
  Disallow禁止语法) 用来定义禁止蜘蛛爬取的页面或目录。
  写法:DisAllow:/文件夹目录/ (表示禁止蜘蛛爬取网站的其中一个目录)
  或 DisAllow:/文件名称 (表示禁止蜘蛛爬取网站的其中一个页面)
  例如isallow:/ (禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下)
  Disallow:/admin (禁止蜘蛛爬取admin目录)
  Disallow:/abc.html (禁止蜘蛛爬去abc.html页面)
  Disallow:/help.html (禁止蜘蛛爬去help.html页面)
  整套语法示范:
  User-agent: *
  Disallow:/目录1/ (禁止所有搜索引擎的蜘蛛爬取站点的目录1)
  Disallow:/目录2/ (禁止所有搜索引擎的蜘蛛爬取站点的目录2)
  3:允许搜索引擎爬去语法
  Allow允许语法) 用来定义允许蜘蛛爬取的页面或子目录
  例如: Disallow:/ (禁止蜘蛛爬取网站的所有目录)
  Disallow:/admin (禁止蜘蛛爬取admin目录)
  Allow:/admin/abc.html(“/” 表示根目录下,允许蜘蛛爬去admin目录中的abc.html页面)
  两个通配符:
  匹配符”$”和 “*”
  $ 通配符:匹配URL结尾的字符; * 通配符:匹配0个或多个任意字符;
  例子1:
  允许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址,代码如下:
  User-agent: *
  Allow: .htm$ 说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)
  例2:
  设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,代码如下:
  User-agent: *
  Disallow: /*.htm 说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有以”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)

  希望能够帮助你!
温馨提示:答案为网友推荐,仅供参考
相似回答