例如,http://www.baidu.com/robots.txt是一个有效的位置,楼主您好:robots.txt是要放在根目录下的,当搜索机器人robots(有些称为搜索蜘蛛或爬虫)访问一个站点时,它会首先检查robots.txt是否存在于该站点的根目录中,robots.txt文件必须位于域的根目录中,并命名为“robots.txt”。
楼主您好:robots.txt是要放在根目录下的。所谓根目录,就是你的网站程序所在的目录。一般根目录好像是一个叫web或者www的文件夹。robots.txt文件必须位于域的根目录中,并命名为“robots.txt”。位于子目录下的robots.txt文件无效,因为漫游器只在域的根目录下。例如,http://www.baidu.com/robots.txt是一个有效的位置。然而,http://www.baidu.com/mysite/robots.txt不是。如果您无权访问域的根目录,可以使用受限访问机器人元标记。
搜索引擎蜘蛛访问一个网站时,会先检查网站目录中是否有一个名为robots.txt的明文文件,用来指定蜘蛛在你的网站上爬行的范围。简单来说,就是你想让他爬哪个部位,你不想让他爬哪个部位。当搜索机器人robots(有些称为搜索蜘蛛或爬虫)访问一个站点时,它会首先检查robots.txt是否存在于该站点的根目录中。如果存在,搜索引擎爬虫会根据文件内容确定访问范围;如果文件不存在,搜索引擎爬虫会沿着链接爬行。User-agent:(不允许)此项的值用于描述搜索引擎机器人的名称。
robots.txt是一个纯文本文件,用来声明这个网站中你不希望被机器人访问的部分,或者指定搜索引擎蜘蛛只抓取指定的内容。Robots.txt不是规定,而是约定,要求搜索引擎蜘蛛自觉遵守一种道德习俗。当搜索引擎蜘蛛访问一个站点时,它会首先检查该站点的根目录中是否存在robots.txt。如果找到,搜索引擎蜘蛛会根据文件的内容来确定抓取的范围。如果文件不存在,搜索机器人将沿着链接爬行。
{3。