搜索引擎的智能化对于百度、360、搜狗无疑是巨大的技术更新

作者: [db:作者] 分类: seo技术 发布时间: 2020-02-05 00:30
搜索引擎的智能化对于百度、360、搜狗无疑是巨大的技术更新

编辑:网络日期:2019-09-21 09:50:06


总的来说,搜索引擎面临以下挑战。

1.页面爬行需要快速和全面

互联网是一个动态的内容网络。每天,无数的页面被更新和创建,无数的用户发布内容并相互交流。为了返回最有用的内容,搜索引擎需要抓取新页面。然而,由于页面数量庞大,搜索引擎蜘蛛需要很长时间来更新数据库中的页面。当搜索引擎诞生时,捕获和更新周期通常是以月为单位计算的,这就是为什么谷歌直到2003年每个月都有大的更新。

现在主流搜索引擎已经能够在几天内更新重要页面,并在几小时甚至几分钟内在高权重网站上包含新文档。然而,这种快速的包含和更新只能限于高权重的网站,而且许多页面在几个月内没有被再次爬网和更新也是非常常见的。

为了返回更好的结果,搜索引擎必须尽可能全面地抓取页面,这需要解决许多技术问题。有些网站不利于蜘蛛爬行和搜索引擎的爬行。例如,网站链接结构的缺陷、flash和java脚本的广泛使用,或者用户在访问这一部分之前必须登录的内容都增加了搜索引擎搜索内容的难度。

2.海量数据存储

一些大型网站在一个网站上有数百万、数千万甚至上亿个页面。你可以想象网络上所有网页的数据总和。搜索引擎蜘蛛抓取页面后,还必须有效地存储数据。数据结构必须合理,具有很高的可扩展性和对写入和访问速度的高要求。

除了页面数据,搜索引擎还需要存储页面和大量历史数据之间的链接,这是用户无法想象的。据估计,百度拥有340多万台服务器,谷歌拥有数十个数据中心和数百万台服务器。如此大规模的数据存储和访问将不可避免地面临许多技术挑战。

我们经常看到搜索结果排名波动,没有明显的原因。我们甚至可以刷新页面,查看不同的排名。有时,网站数据会丢失,这可能与大规模数据存储和同步的技术困难有关。

3.索引处理快速、有效且可扩展

搜索引擎抓取并存储页面数据后,还需要进行索引处理,包括链接关系计算、正向索引、反向索引等。由于数据库中有大量页面,执行pr等迭代计算既耗时又费力。为了提供相关和及时的搜索结果,只爬行是没有用的,同时需要大量的索引计算。因为新的数据和页面会随时添加,所以索引处理也应该具有良好的可伸缩性。

4.快速准确的查询处理是普通用户唯一能看到的搜索引擎步骤。

当用户在搜索框中输入查询并点击“搜索”按钮时,他通常会在不到一秒钟的时间内看到搜索结果。最简单的表面处理实际上涉及非常复杂的背景处理。在最后的查询阶段,更重要的问题是如何在不到一秒钟的时间内从数十万、数百万甚至数千万个包含搜索项的页面中快速找到合理且相关的页面,并根据相关性和权威性的程度进行排列。

5、判断用户意图和人工智能

应该说,搜索引擎的前四个挑战已经得到了较好的解决,但对用户意图的判断仍处于初级阶段。不同的用户搜索相同的查询词可能会找到不同的内容。例如,当搜索“苹果”时,用户想知道苹果的果实、苹果电脑还是关于电影“苹果”的信息?还是他想听“苹果”?没有上下文和对用户个人搜索习惯的理解,他无法判断。

搜索引擎目前正在判断搜索意图,理解文档的真正含义,并根据用户的搜索习惯、历史数据的积累和语义搜索技术返回更相关的结果。

如果觉得我的文章对您有用,您的支持将鼓励我继续创作!

标签云