网站用robots文件禁止抓取还会被索引收录吗

作者: [db:作者] 分类: seo技术 发布时间: 2020-01-21 00:26
网站用robots文件禁止抓取还会被索引收录吗

编辑:网络日期:2019-10-09 15:22:28


一些基本的seo东西总是容易被忽略,比如机器人文件。这份文件的重要性在以前的文章中已经多次提到。网站的优化诊断之一是检查该文档是否被制作以及它是否是标准的。前一篇文章提到了这句话:如果网站的机器人协议文件禁止搜索引擎蜘蛛,那么无论你如何优化它,它都不会被包括在内。


写这篇文章时,请改正这个句子,请仔细阅读并理解它。如下所示:


如果您的网站添加了机器人协议文件并设置了禁止搜索引擎蜘蛛的指令,那么您的网站内容将不会被爬网,但可能会被包含(编入索引)。


有些人可能会怀疑搜索引擎蜘蛛会抓取网址页面,而网页需要先展示内容并反馈给蜘蛛,然后才能被包含进来。那么,如果内容被禁止,它还会被包括在内吗?这是什么意思?这个问题将不在这里解释。让我们先看看下面的图片。

如图所示,以上是淘宝网站域名列表的结果。从网站结果中,我们可以清楚地看到淘宝上有很多页面,显示2.6159亿页。然而,我们不知道我们是否发现了问题。这些页面捕获的描述内容都表示一个文本:由于本网站robots.txt文件中的限制指令(搜索引擎捕获的限制),系统无法提供该页面的内容描述。


为什么机器人在禁止搜索引擎蜘蛛后被包括在内?


这里有一个认知错误,也可能是惯性逻辑思维的错误思维。每个人都认为蜘蛛不能抓取内容,也不会被包括在内。事实上,爬行、爬行和索引(包括)是不同的概念。当许多人学习搜索引擎优化时,他们经常混淆搜索引擎优化的一些概念,这导致了以下搜索引擎优化过程的不良结果。


首先,让我们谈谈机器人协议真正在做什么。既然是协议,那就必须是双方都同意并认可的规则。这自然是网站和搜索引擎(或搜索引擎蜘蛛)之间的协议。机器人文件将被放在根目录下。蜘蛛一进入网站就会访问这个文件,然后看看协议中是否有禁止这些页面被抓取的规定。如果有的话,它们就不会再爬行了。


一个页面要去搜索引擎索引(包括蜘蛛爬行和爬行),既然没有爬行,自然会被认为这个页面不会被包括在内。这种想法是错误的,不需要抓取就可以被索引(包括在内)。例如,淘宝就是一个典型的例子。该网站增加了一项禁令协议,并最终被纳入其中。原因是百度从其他渠道平台推荐的外部链接中了解到了这个网站。虽然禁止抓取,但它仍然可以从标题和推荐链接的数据中判断与该页面对应的内容信息。


如果觉得我的文章对您有用,您的支持将鼓励我继续创作!

标签云