艾巴生活网

您现在的位置是:主页>热点 >内容

热点

搜索引擎分类有哪些 搜索引擎是什么

2023-07-08 22:04:34热点帅气的蚂蚁
许多网友对搜索引擎分类有哪些,搜索引擎是什么不是很了解,下面让艾巴小编为大家介绍下引言:我们现在处于一个信息过载的时代。全球每年产

搜索引擎分类有哪些 搜索引擎是什么

许多网友对搜索引擎分类有哪些,搜索引擎是什么不是很了解,下面让艾巴小编为大家介绍下

引言:我们现在处于一个信息过载的时代。全球每年产生1EB到2EB (1EB1018B)的信息,相当于地球上每个人每年产生的信息量约250MB。其中,纸质信息仅占全部信息的0.03%。静态网页有几百亿,动态和隐藏的网页至少是静态网页的500倍。汤姆兰道尔认为,人的大脑只能储存200MB左右的信息,一生只能接触6GB左右的信息。

近年来,大数据技术的出现和发展,深度学习和神经网络计算能力的提高,加速了我们处理信息的能力,但并没有缓解信息过载带来的影响。搜索引擎已经成为我们获取信息的主要手段之一。作者:刘玉钊刘泓宇舒斌孙明珠来源:华章科技

01什么是搜索引擎和搜索系统的信息检索(IR)是从文档集合中返回符合用户需求的相关信息的过程。它是一门研究信息获取、表示、存储、组织和存取的学科。

检索来源于检索,有人翻译成习得。原意是获得与输入要求相匹配的输出。而搜索来源于搜索,就是带着目的去寻找。信息检索不仅仅是搜索,信息检索系统也不仅仅是搜索引擎。

狭义的信息检索是指信息搜索;广义的信息检索包括搜索引擎、问答系统、信息抽取、信息过滤、信息推荐等。

搜索引擎是指按照一定的策略,使用特定的计算机程序,从互联网上收集信息。对信息进行组织和处理后,显示用户检索到的相关信息,为用户提供检索服务。搜索引擎包括四个界面,即搜索器、索引器、检索器和用户界面。

搜索器的功能是在互联网上漫游,寻找和收集信息。索引器的作用是理解搜索者搜索到的信息,从中提取索引项,输出用来表示文档的索引表,生成文档库。检索器的功能是根据用户的查询,在索引数据库中快速检出文档,评估文档与查询的相关性,对结果进行排序输出,并实现某种用户相关性反馈机制。

用户界面的功能是输入用户查询,显示查询结果,并提供用户相关反馈机制。

具体的搜索引擎架构图如图2-1所示。图2-1搜索引擎架构示意图搜索系统的概念可以从以下两个方面来解释。

系统角度。从系统的角度来看,搜索系统是一个更广泛的概念,包括搜索引擎。所有具有相关性计算和分析的系统都可以归类为搜索系统。除了我们常说的搜索引擎,搜索系统还应该包括外部支持的业务场景和应用领域。用户角度。

从用户的角度来看,搜索系统的输出是用户需求的投影,所以我们在设计搜索系统时需要观察用户对搜索结果的反应。此外,我们还得考虑相应的应用场景和搜索项目。

搜索引擎的发展史20世纪90年代,蒂姆伯纳斯李开启了互联网时代,并使其大规模发展。1990年,蒂姆伯纳斯李开发了世界上第一台网络服务器和第一个网络客户端,并命名为万维网(WWW)。

次年,世界上第一个WWW网站info.cern.ch建立,伴随着HTTP传输协议和相应的HTML等Web服务技术的诞生。1993年,NCSA发明了第一个显示图片的浏览器Mosaic,随后客户端浏览器逐渐成熟。这些技术为互联网的快速发展奠定了基础。

互联网的快速发展使得搜索引擎的出现成为必然。1990年,第一个互联网搜索引擎Archie出现,主要用于搜索FTP服务器上的文件。Archie可以在用户准确输入文件名的前提下,准确的告诉用户文件的位置。阿奇搜索的内容虽然不是网页,但其工作原理与网页搜索类似:自动搜索信息资源,建立索引,提供检索服务。

1995年,Excite搜索引擎正式上线,是早期流行的搜索引擎之一。Excite最早可以追溯到1993年2月,因为六个斯坦福大学的学生想要通过分析单词关系来有效地搜索互联网上的大量信息。Excite以概念检索闻名,是搜索引擎技术的代表——文本检索。文本检索一般包括布尔模型、向量空间模型等。主要用于计算用户查询关键词与网页文本内容的相似度。

1995年4月,雅虎正式成立。它是由斯坦福大学的杨致远博士和大卫费罗博士创立的。随着访问量和链接数的增加,雅虎对互联网上重要网站的目录进行了分类整理,迎合了用户的需求,从而快速增长。雅虎也成为“目录导航”搜索引擎技术的代表。这种技术提高了收录网站的质量,但是不容易扩展,收录网站数量少。

1998年9月,拉里佩奇和谢尔盖布林共同创建Google公司,其以PageRank链接分析等新技术大幅度提高搜索质量,成为占有搜索引擎市场份额最大的公司。Google是PageRank链接分析技术的代表,其充分利用网页之间的链接关系,考虑网页链入的数量和质量,从而计算网页的排名,提升搜索质量。

2000年1月,中国最大的搜索引擎公司百度成立,并一举成为国内最大的搜索引擎。目前,百度不再只是某一搜索引擎技术的使用,其试图通过用户查询、地理位置以及历史行为(搜索、点击、浏览)去理解用户此刻真正的需求。

STATCOUNTER统计的2019年1月12月全球搜索引擎市场份额中,Google占比高达92.63%,微软的Bing和雅虎分别位居第二和第三,百度排在第四位。

STATCOUNTER统计的2019年1月12月中国国内搜索引擎市场份额占比中,百度依靠本地化优势,以67.51%的占比排在第一位,搜狗和神马排在第二和第三。

在互联网快速发展的今天,信息正呈爆炸式增长,如何在信息过载的环境下快速有效地定位到目标信息成为关键问题。搜索是解决信息过载较为有效的方式。搜索引擎通过对互联网资源整理和分类,并将其存储在数据库中为用户提供查询服务,包括信息搜集、信息分类、用户查询等。

因此,作为互联网网站和应用的入口,搜索引擎的地位越来越重要。

03 搜索引擎的分类搜索引擎可以分为以下4类:全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎。下面对这4类搜索引擎进行具体介绍。

1. 全文搜索引擎

计算机通过扫描文章中的每个词,对每个词建立索引,记录词汇在文章中出现的次数和位置信息。当用户进行查询时,计算机按照事先建立好的索引进行查找,并将结果反馈给用户。按照数据结构的不同,全文搜索可以分为结构化数据搜索和非结构化数据搜索。

对于结构化数据,全文搜索一般是通过关系型数据库的方式进行存储和搜索,也可以建立索引。

对于非结构化数据,全文搜索主要有两种方法:顺序扫描和全文检索。

顺序扫描,顾名思义,按照顺序查询特定的关键字,这种方式耗时且低效;全文检索需要提取关键字并建立索引,因此,搜索到的信息过于庞杂,用户需要逐一浏览并甄别所需信息。在用户没有明确检索意图情况下,全文检索方式效率稍显不足。Google和百度都是典型的全文搜索引擎。

2. 元搜索引擎

按照功能划分,搜索引擎可以分为元搜索引擎(Meta Search Engine)和独立搜索引擎(Independent Search Engine)。

元搜索引擎是一种调用其他独立搜索引擎的搜索引擎,其能对多个独立搜索引擎进行整合、调用并优化结果。独立搜索引擎主要由网络爬虫、索引、链接分析和排序等部分组成;元搜索引擎由请求提交代理、检索接口代理、结果显示代理三部分组成,不需要维护庞大的索引数据库,也不需要爬取网页。

元搜索引擎具体实现逻辑如图2-2所示。

图2-2 元搜索引擎实现逻辑

请求提交代理就是将请求分发给独立搜索引擎。元搜索引擎可以按照用户需求和偏好请求实际需要调用的独立搜索引擎,该方式能够有效提升用户查询的准确率和响应效率。

检索接口代理是将查询内容转化成独立搜索引擎能够接受的模式,并且保证不会丢失必需的语义信息。结果显示代理是元搜索引擎按照用户的需求采用不同的排序方式对结果进行去重、排序。元搜索引擎常用的排序方式有:相关度排序、时间排序、搜索引擎排序等。

元搜索引擎的整体工作流程如下:

用户通过网络访问元搜索引擎并向服务器发出查询,服务器接收到查询内容后,先访问结果数据库,查询近期记录中是否存在相同的查询,如果存在,返回结果;如果没有,将查询进行处理后分发到多个独立搜索引擎,并集中各搜索引擎的查询结果,结合排序方式对结果进行排序,生成最终结果并返给用户,同时保存现有结果到数据库中,以备下次查询使用。

保存的查询结果有一定的生存期,超过一定时间的记录就会被删除,以保证查询结果的时效性。

3. 垂直搜索引擎

垂直搜索引擎是针对某个行业的专业搜索引擎,是搜索引擎的细分和延伸,对特定人群、特定领域、特殊需求提供服务。它的特点是专业、精确和深入。垂直搜索引擎将搜索范围缩小到极具针对性的具体信息。

垂直搜索引擎的结构与通用搜索系统类似,主要由三部分构成:爬虫、索引和搜索。但垂直搜索的表现方式与Google、百度等搜索引擎在定位、内容、用户等方面存在一定的差异,所以它不是简单的行业搜索引擎。

用户使用通用搜索引擎时,通常是通过关键字进行搜索,该搜索方式一般是语义上的搜索,返回的结果倾向于文章、新闻等,即相关知识。垂直搜索的关键字搜索是放到一个行业知识的上下文中,返回的结果是消息、条目。对于有购房需求的人来说,他们希望得到的信息是供求信息而不是关于房子的文章和新闻。

4. 目录搜索引擎

目录搜索引擎是网站常用的搜索方式,类似于书本章节目录。该搜索方式是对网站信息整合处理并分目录呈现给用户,整合处理的过程一般需要人工维护,更新速度较慢,而且用户需要事先了解网站的基本内容,熟悉主要模块,所以应用场景越来越少。

关于作者:刘宇,清华大学硕士,现就职于一家跨境电商公司,任技术总监,主要负责该公司搜索推荐业务以及广告的相关技术开发。目前工作的重点是落地算法在搜索系统、推荐系统、对话系统等具体业务场景下的应用。对机器学习、深度学习、大数据应用与开发等颇有研究。合著有《聊天机器人:入门、进阶与实战》 一书。

赵宏宇,本科毕业于东北大学;研究生毕业于RIT,主修AI方向。现就职于猎聘网,主要负责猎聘网推荐排序相关的工作。

刘书斌,本科毕业于东北大学,现就职于美团,资深系统开发工程师。曾在唯品会任职,主要负责搜索工程的架构设计与实现等相关工作,在Elasticsearch方面有丰富的工程实践经验。

孙明珠,硕士毕业于南京航空航天大学,现就职于猎聘网,担任高级算法工程师,负责查询理解、解析、扩展等NLP相关的工作。

以上就是小编整理的关于搜索引擎分类有哪些及搜索引擎是什么的相关知识,希望能帮助到你。