百度、Google、搜搜等搜索引擎是怎样工作的?为什么速度这么快?

如题所述

谷歌为例... 获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。

全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。

分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、百度、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”( http://www.hao123.com/)。

在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类:

⒈元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎”( http://www.hsfz.net/fish/),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。

⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,比如“搜啊聚合搜索”( http://www.sooua.com/?tn=s)。

二、搜索引擎的工作原理

全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2014-02-17
说白了 搜索引擎就是一个动态的网站 它主要通过大量的服务器来存储信息 然后在php程序的引导下 你搜索什么 就得相关方面的知识; 速度快是因为那些信息都是在百度服务器里面预先保存好的 自然速度就快了
第2个回答  2014-02-17
4楼说的很对,我补充下,各个搜索引擎的“蜘蛛”可以看作是一个小程序,比如他来到了qq.com的首页他就开始抓取网页内容并且根据此网页显示的超连接跳到另一个网页,再次抓取,不断的循环,当qq.com的首页有外站的链接,蜘蛛就到另一个网站继续抓取,这样就可以将几乎整个互联网的内容抓取下来,并且根据网页内容创建关键字,当用户搜索时,就可以得出相应的结果。。对于哪些没有加外链的新站,可以通过提交网站的方式让搜索引擎抓取。本回答被网友采纳
第3个回答  2014-02-17
云计算
相似回答