资讯中心

网站优化

首页 >技术资讯 > 网站优化 >

网站SEO

  Robots.txt是一个小文本文件,位于网站的根目录中。它告诉抓取工具是否要抓取网站的某些部分。该文件使用简单的语法,来告诉爬虫哪些内容可以抓哪些不能抓。

  当然robots.txt对正经搜索引擎(百度、google)是有用的,要是有些人想要恶意爬你的网站还是防不住的。

  如果想看看robots.txt的格式是什么样的,非常简单,找几个热门网站在它的域名后面加上/robots.txt就可以了,比如豆瓣,

  Robots.txt路径

  可以使用任何纯文本编辑器制作robots.txt文件,但它必须位于站点的根目录中,并且必须命名为“robots.txt”。

  如豆瓣域名是的路径就是[

  (

  )

  robots.txt内容

  以豆瓣的robots.txt为例,内容如下:(

  User-agent:*

  Disallow:/subject_search

网站SEO

  Disallow:/amazon_search

  Disallow:/search

  Disallow:/group/search

  Disallow:/event/search

  Disallow:/celebrities/search

  Disallow:/location/drama/search

  Disallow:/forum/

  Disallow:/new_subject

  Disallow:/service/iframe

  Disallow:/j/

  Disallow:/link2/

  Disallow:/recommend/

  Disallow:/doubanapp/card

  Sitemap:

  Sitemap:

  #Crawl-delay:5

  User-agent:WandoujiaSpider

  Disallow:/

  user-agent

  HTTP规范将“user-agent”定义为发送请求的东西(与接收请求的“服务器”相对)。严格来说,用户代理可以是请求网页的任何内容,包括搜索引擎抓取工具,Web浏览器或模糊的命令行实用程序。

  使用通配符"*",可设置对所有robot的访问权限。

  User-agent:*

  表明:允许所有搜索引擎访问网站下的所有内容。

  disallow

  禁止访问某些资源,下面是一些实例:

  User-agent:*

  Disallow:/

  表明:禁止所有搜索引擎对网站下所有网页的访问。

  User-agent:*

  Disallow:/cgi-bin/Disallow:/images/

  表明:禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。

  User-agent:fucker

  Disallow:/

  表明:禁止fucker访问网站上的任何文件。

  User-agent:Googlebot

  Disallow:unknown.htm

  表明:禁止Google的Googlebot访问其网站下的unknown.htm文件。

  详情:

顶部