如何写蜘蛛只让允许抓取sitemap文件

 时间:2024-10-20 07:42:18

要想一个网站能更快的被搜索引擎收录,可以使用一系列的搜索引擎协议让互联网蜘蛛(spider)发现并抓取。

工具/原料

robots.txt文件

方法/步骤

1、首先,确保你拥有网站的实际控制权,可以操作到根目录的文件。比如你的网站是demo.com,那么需要能够操作到demo.com/something这个维度。

2、在根路径下创建robots.txt文件,当然也可以在别的路径下,但是确保访问到demo.com/robots.txt是对应的文件。

3、robots的协议有非常多种,这里只介踏群拆虮绍最基础的语法。整个文件可以是这样的:“User-agent:”代表对应的蜘蛛,一般可溅局柑氍以是baidu/google等,每个蜘蛛会有对应的说明,可以直接查看。“Allow”或者“Disallow”代表行为,后头需要跟具体的path,一般为最左匹配。

4、举个例子,希望百度抓取你的网站锾哩菸谷全部内容,而别的网站不允许抓取任何内容,需要这样写:User-agent:baiduAllow:/User-agent:*Disallow:/

5、如果希望一个搜索引擎只收录你的站点地图,假设文件放在/sitemap/目录下,那么应该这样来操作:User-agent:*Allow:/sitemap/Disallow:/

6、当然,现在robots协议之外,还有更多资源提交的方法,比如各大搜索引擎均有对应的站长平台,可以在上面提交自己的sitemap文件,更加定制化的提示蜘蛛抓取方案,具体操作不再赘述。

王者荣耀神威什么时候出 我的世界工业2怎么合成金属成型机怎么使用 百度敏感操作保护设置怎么开启? 如何点亮QQ里的摄像头图标? QQ宠物怎样找Q宠连连看
热门搜索
朋友图片带字 关于消防的手抄报图片 安全文明手抄报图片 盼盼防盗门图片 评分最高的电影