站长爱看

如何吸引百度蜘蛛常来关注?

小猪站长 发表于 2019-08-15 21:45

搜索引擎会爬进你的网站,把内容放到它的索引中。站点越大,爬行所需的时间就越长。抓取站点所需的时间非常重要。如果你的网站有1000页或更少,那这不是你需要考虑的话题。如果你计划发展你的网站,请继续阅读。尽早养成一些好习惯,避免将来遇到大麻烦。在本文中,我们将研究爬行效率和您可以做的针对措施。 所有的搜索引擎都以相同的方式爬行。在本文中,我们将引用百度。

搜索引擎会爬进你的网站,把内容放到它的索引中。站点越大,爬行所需的时间就越长。抓取站点所需的时间非常重要。如果你的网站有1000页或更少,那这不是你需要考虑的话题。如果你计划发展你的网站,请继续阅读。尽早养成一些好习惯,避免将来遇到大麻烦。在本文中,我们将研究爬行效率和您可以做的针对措施。

所有的搜索引擎都以相同的方式爬行。在本文中,我们将引用百度。

爬虫如何抓取您的网站?

百度会在网络上找到你网站的链接。此时,URL是虚拟堆的开始。然后这个过程非常简单:

百度spider从该堆中获得一页;

它抓取页面和索引所有在百度中使用的东西;

然后,它将页面上的所有链接添加到堆中。

在爬行过程中,百度蜘蛛可能会遇到重定向。重定向到的URL位于堆上。

您的主要目标是确保百度spider能够访问站点上的所有页面。第二个目标是确保快速抓取新的和更新的内容。一个好的网站架构将帮助你实现这一点。不过,你仍然可以很好地维护你的网站。

爬行深度

爬行的一个重要概念是爬行深度。假设你有一个链接,从一个网站到一个页面。这个页面链接到另一个、另一个、另一个等等。百度蜘蛛将继续爬行一段时间。但在某一时刻,它将决定不再需要继续爬行。当这种情况发生时,它取决于链接到第一页的重要性。

这似乎是理论性的,让我们看一个实际的例子。如果您有10,000篇文章,那么所有的文章都在同一个类别中,每页显示10篇文章。这些页面只链接到“下一个”和“上一个”。百度需要抓取1000页才能获得这10,000篇文章中的第一篇。在大多数网站上,它不会这样做。

这就是为什么:

使用类别/标签和其他分类法进行更细粒度的分割。不要过度使用它们。根据经验,标记只有在连接超过3个内容时才有用。此外,一定要优化这些类别文件。

链接到更深层的带有数字的页面,这样百度spider可以更快地到达目的地。假设您将第1页链接到第1页的第10页,并继续这样做。在上面的例子中,最深的页面距离主页只有100次点击。

保持你的网站快。站点运行得越慢,爬行所需的时间就越长。

XML站点地图和爬行效率

您的站点应该有一个或多个XML站点地图。这些XML站点映射告诉百度站点上有哪些url。好的XML站点地图还将指示您上次更新某个特定URL的时间。大多数搜索引擎比其他搜索引擎更频繁地抓取XML站点地图中的url。

在百度搜索控制台中,XML站点映射为您提供了额外的好处。对于每个站点地图,百度将显示错误和警告。您可以通过为不同类型的url创建不同的XML站点地图来实现这一点。这意味着您可以看到站点上哪种url类型的问题最多。

导致爬行效率低

许多404和其他错误

当它抓取你的网站,百度遇到一个错误。它通常只是从堆中选择下一页。如果在爬行过程中站点上有很多错误,百度Spider将会减速。这样做是因为它担心爬行太快会导致错误。为了防止百度爬行器减速,您需要尽可能地修复错误。

百度将在其网站管理员工具,以及360和搜狗中向您报告所有这些错误。我们之前已经在百度搜索控制台和360网站管理员工具中引入了bug。

您不会是我们看到的第一个客户端,它在百度搜索控制台中有3,000个实际url和20,000个错误。不要让你的网站变成那个网站。这些错误至少每月定期修正一次。

太多301重定向

我最近咨询了一个刚刚完成域名迁移的网站。这个网站很大,所以我使用我们的一个工具来运行一个完整的爬行网站,看看我们应该修复什么。显然我们有一个大问题。这个站点上的大量url始终链接到没有尾斜杠的位置。如果您使用这样一个不带斜杠的URL,它将重定向301。您将被重定向到带有斜杠的版本。

如果您的站点上有一个或两个url有问题,这并不重要。事实上,这通常是主页的一个问题。如果您的站点上有250000个url,这是一个问题,那么这将成为一个更大的问题。百度爬行器不是爬行250,000个url,而是爬行500,000个url。这不是很有效。

这就是为什么当您更改url时,应该始终尝试更新站点中的链接。如果不这样做,随着时间的推移,您将得到越来越多的301重定向。这将降低您的爬行速度和用户速度。大多数系统需要一秒钟来重定向服务器。这将为页面加载时间增加另一秒。

蜘蛛陷阱

如果你的网站在百度看来更权威,那么有趣的事情就会发生。即使很明显这个链接没有意义,百度也会抓取它。给出百度虚函数等价于一个无限旋转的楼梯。

这就是我们所说的“蜘蛛陷阱”。像这样的陷阱会让搜索引擎非常低效地爬行。在自然搜索中,修复它们几乎总是会得到更好的结果。你的网站越大,就越难找到。即使对于有经验的SEO也是如此

评论 (0人参与

最新评论

暂无评论
小猪站长


文章:191
推荐阅读
   1715   
   1615   
   1568   
   1694   
   1542   
小猪站长   2019-06-12 21:03:45
   1534   
   1544   
   1956