麦都-平台开发组

搜索引擎简报

写作时间:2018-05-24

###昨天参加了公司渠道组关于搜索引擎的一场分享会,这涉及到了知识的盲区。所以在这边做了一点课后功能,做了一份简报。

        广义上的搜索引擎含义是,搜索引擎(英语:search engine)是一种信息检索系统,旨在协助搜索存储在计算机系统中的信息。这意味着凡是能够提供在计算机中检索信息的技术都可以归类到搜索引擎的范畴。 显然,这样的搜索引擎具备两个显著的特征,信息的存储于信息的检索。

         我们常见常用的搜索引擎为互联网搜索引擎,比如Google,Baidu,Bing等等。互联网搜索引擎提供的主要功能是检索互联网主机上存在的内容,因为互联网搜索引擎是搜索引擎的一个子集,因此它也具备信息的存储和检索的基本特征。此处需要注意的是信息的存储并不意味着将信息完整的保存在特定的存储空间里,有可能是保存的信息的索引。 

        索引是搜索引擎能够快速响应检索信息的关键所在。关于索引我们并不陌生,我们在小学第一次学习新华字典的使用时就是在使用索引技术检索信息。索引技术是一种信息空间的压缩技术,任何信息都是带有一定的噪音的,不同的载体对信息的荷载能力又有所不同,声音图像语言甚至不同国家地区的语言都拥有不同的荷载能力,比如用中文(尤其是古文文法)表达一段信息,可能换成其他语言则需要更多的信息才能表达同样的意思,这说明中文具有很强的信息荷载能力。在对信息的检索中,一开始我们并不需要掌握信息的全貌,只需要掌握信息的部分关键特征,直接检索关键特征即可。

        假设你的头发是红色的,而我已经掌握了你这一信息,那么在教室里我需要寻找你时我可以首先选择那些红色头发的个体,这样不符合要求的信息噪音被快速的排除,大大缩小了检索范围,因此大大提高了效率。显然,对特征的提取成了关键一步。在字典中,我们可以通过拼音字母,偏旁部首等来检索内容,拼音字母偏旁部首就是对文字内容的特征提取,通过提取出科学合理的信息特征,使得快速在海量信息中寻找目标信息得得以实现。 对信息的特征提取,就是建立索引的过程。

        在互联网搜索引擎中使用了通用的信息提取方式,用某种算法去评估信息,然后通过合理科学的数据结构,创建索引。 互联网搜索引擎展示搜索结果的方式通常是使用列表的方式,这里涉及的问题是被检索出的结果通过怎样的顺序进行先后排序,言外之意,怎么做到最先展示的信息就是用户所需要寻找的信息。可以看到,快速的检索出信息并不是互联网搜索引擎的关键所在,它的关键在于,快速的检索出用户所寻找的信息。 可以看到,互联网搜索引擎所面临的挑战是多方位的,既要创建索引,又要『理解』语义,这里每一个步骤都是复杂的挑战,互联网信息繁杂且更新频繁,因此对索引的创建充满挑战,创建索引的过程通常是对网页文本的处理,设计到诸如分词,词干提取,词性,识别命名实体等等,这些操作生成的信息都需要被存储,然后通过合理的构造才能生成最终的索引,有了索引,然后通过访问机制配合,就能通过单词找到对应的结构。

        所谓访问机制,其核心就是某种数据结构,比如b-tree和hash table等。而解决排序方式的手段就是给网页内容进行评分。这个评分被称为所谓的『信息检索得分』,存储的『文档』对每个查询的搜索词都有一个对应的检索得分。评分过程包含了丰富的公式,以及另有其他算法来弥补评分过程中所引入的弊端,如知名的PageRank就是为了解决这些权重弊端所引入的算法。 

        互联网搜索引擎是一个复杂的算法和工程实现的组合,新的搜索技术日新月异,总的宗旨就是解决人们在互联网上寻找他们想要获取信息的功能。 

        其实除了我们常见的互联网搜索引擎外,还有一些『领域内搜索引擎』,其中典型的有WolframAlpha,其发明者Stephen Wolfram的说法,W|A是一个计算知识引擎,而不是像百度或者谷歌那样的搜索引擎。简单地说来,它其实是一个绘图计算器、参考书图书馆、以及搜寻引擎的综合体。因为这不是通用型的互联网搜索引擎,因此在某些方面它可以做到极致的定制与优化,比如,这是一个读得懂你提问的搜索引擎。比如你搜索『What's Liu Bocheng's age in 1955』(1955年刘伯承的年龄是多少),它会直接告诉你答案。而百度谷歌等只是将这句话中的关键词的相关信息进行检索罗列。如果互联网上本来不存在相关的既有信息,那么互联网搜索引擎是不会为你『计算的』,也就是说互联网搜索引擎是检索既有信息。即使这些既有信息中存在显然的逻辑关联,但是引擎并不会为你进行推导计算。因此你也可以将这样的搜索引擎称为『知识搜索引擎』,它不仅能提供既有知识(常识)也能通过计算与逻辑推导,『回答问题』。它与互联网搜索引擎一样,也是搜索引擎的一个子集。 现在是人工智能的时代,在这个时代搜索引擎在AI的加持下如虎添翼。而『知识图谱』这一技术,必将开辟一个全新的搜索时代。