当前位置:文档之家› 智能搜索技术发展态势分析

智能搜索技术发展态势分析

论文引用格式:王冲.智能搜索技术发展态势分析[J].现代电信科技,2017,47(3):75-78.WANG Chongjing.Analysis of development trend on intelligent search technology [J].Modern Science &Technology ofTelecommunications,2017,47(3):75-78.智能搜索技术发展态势分析王冲(中国信息通信研究院,北京100191)摘要:搜索引擎作为高级脑机界面的雏形或初级状态,是人工智能技术的重要方向,当前已成为学术界和产业界高度关注并持续研究的领域。

针对智能搜索技术发展情况,分析提出智能搜索技术取得的重要突破,研判发展趋势,并给出发展重点和举措。

关键词:智能搜索;搜索引擎;人工智能中图分类号:TP393.09文献标识码:AAnalysis of development trend on intelligent search technologyWANG Chongjing(China Academy of Information and Communication Technology,Beijing 100191)Abstract :As the embryonic form or primary state of the advanced brain computer interface,search engine is an important direc⁃tion of artificial intelligence technology.Academia and industry pay great and continuous attention to the field of search engine.In view of the development of intelligent search technology,this paper analyzes and puts forward the important breakthrough of intelligent search technology,and comprehensively reviews the development trend,and at last gives suggestions about the em⁃phasis and measures for developing intelligent search technology.Keywords:intelligent search;search engine;artificialintelligence1引言近年来,全球新一代信息技术创新浪潮迭起,人工智能成为全球公认的尖端领域和创新前沿,能够推动多领域的变革和跨越式发展,对传统行业可能产生颠覆性影响,并催生新产品、新业态、新模式。

人工智能技术取得突飞猛进的发展,产业化应用迅速拓展,在各行各业各个领域迅速渗透。

自然语言处理是人工智能研究的一个重要方向。

自然语言处理是分析、理解和生成自然语言,研究人与计算机之间用自然语言进行有效通信的各种理论和方法,以方便人和计算机设备进行交流,也方便人与人之间的交流。

自然语言处理包括语音识别、语言翻译、文本分析、搜索引擎、语义理解等。

搜索引擎作为自然语言处理的重要方向,是学术界和产业界高度关注并持续研究的领域。

随着深度学习技术在搜索引擎领域的应用,传统搜索引擎技术逐步走向更优性能的智能搜索引擎。

我们将搜索引擎视为未来高级脑机界面的雏形或初级状态,也就是说,目前的搜索引擎是当前最有希望进化成脑机界面、实现人工智能的互联网服务形态。

2传统搜索引擎与智能搜索引擎搜索引擎是通过特定计算机程序,根据一定策略和规则,从互联网上搜集信息,对信息进行处理后,将相关信息以多种形式展示,为用户提供检索服务。

搜索引擎是人类主动意识与互联网之间最重要的连接方式,是用户和信息源之间的沟通桥梁,能够为用户迅速、方便地获取有效信息提供检索服务,起到信息导航的目的。

传统搜索模式是被动式搜索,依靠关键词索引技术,对关键词的相关网站进行机械呈现,让用户自己挑选需要的信息。

传统搜索只提供网站链接结果,无法实现语音、图片、视频搜索,无法解决词汇的“忠实表达”和“表达差异”问题,更无法做到个性化;智能搜索技术是主动式搜索,结合人工智能技术,除了提供传统的快速检索、相关度排序等功能,还能提供用户兴趣自动识别、内容语义理解、信息过滤和推送等功能,可以进行语音、图片、视频搜索,搜索结果更加人性化、更贴近用户需求,响应速度更快、搜索效率更高,注重提供知识和服务。

智能搜索引擎技术和人工智能技术相辅相成,相互促进。

搜索引擎具备的天然数据优势,极大地促进了人工智能技术的发展;同时,人工智能算法的性能提升,又带动了智能搜索引擎准确率和效率的大幅提升。

3智能搜索技术全球现状3.1技术在算法层面,智能搜索引擎涉及到自然语言处理、机器学习、计算机视觉、人机交互、数据挖掘和信息检索等人工智能技术。

其中涉及的关键技术有多个方面。

自然语言处理:理解用户的搜索组合,甚至是准确理解用户的口语化表述,这是人工智能领域最核心的技术;多模交互:用户可以通过文本、图片、语音等方式进行人机交互;多轮交互:模仿人与人的多轮沟通方式,精准理解用户的需求;机器学习:通过与用户的沟通,越来越了解用户,为用户提供更强体验的服务。

当前主流搜索引擎大都在算法层面融合了上述技术,如百度的智能搜索、谷歌的Rank-Brain、Facebook的Deep Text、雅虎的CaffeOnSpark 和微软的RankNet等。

3.2市场格局全球搜索引擎市场竞争格局稳定。

截至2017年5月底,在全球搜索引擎市场份额比拼中,Google 排名第一,份额为77.98%;微软必应搜索Bing以7.81%的份额排名第二;百度以7.71%的市场份额排名第3[1]。

而截至2016年6月底,我国搜索引擎用户规模达5.93亿,使用率为83.5%,用户规模较2015年底增长4.7%;手机搜索用户数达5.24亿,使用率为79.8%,用户规模较2015年底增长9.7%。

在整体网民、手机网民中,搜索引擎均为第二大互联网应用[2],成为互联网服务形态的重要组成部分。

4智能搜索技术重要进展或突破近年来,搜索引擎技术并未出现变革性突破,搜索引擎与人工智能技术的深度结合,使搜索引擎技术步入承前启后、智能化升级的快速发展阶段。

4.1机器学习算法驱动智能搜索引擎从低精度走向高精度机器学习算法尤其是深度学习算法,能够高效模拟人脑的注意机制和记忆原理。

基于深度学习算法的搜索引擎技术,其特征提取过程由原始数据层向抽象语义层逐层递进,并实现了全局特征和上下文信息的同步优化,使得对搜索内容的分析和知识表达更加结构化,从而大幅提升了搜索的精度。

新一代搜索系统大规模应用了人工智能技术,其检索规则从人工设计规则过渡到机器自主学习规则,技术应用从排序层扩展到召回层,且在线检索架构具备大数据分析能力,从而使搜索系统的精细相关性计算能力提升数个数量级。

Google搜索服务中深度集成RankBrain[3]机器学习算法,可理解用户输入的各种冗长复杂或者模棱两可的口头的查询语句,Google Assistant语音助手可实现跟用户对话,联系上下文语境,甚至帮用户做出决策,它强调自然语义和对话式搜索,还可以连接智能设备。

百度提升大数据检索能力的“赤兔”项目,将人工智能技术全面应用到在线检索领域,其在冷门长串词句上表现尤其突出,用户体验显著提升。

雅虎的CaffeOnSpark 人工智能引擎,以深度学习为基础,不依赖上传图片的人所输入的描述和关键词,而是教会计算机识别图片的某些特点,测定不同图片的内容,优化Flickr 搜素结果。

4.2自然语言处理技术帮助智能搜索引擎从文本化走向语义化自然语言处理技术利用人工智能技术自动挖掘隐藏在用户搜索行为背后的关联和规律,处理用户复杂的搜索请求(文字、图像、音频、视频、问答等),并准确理解用户真正需求,能够为用户提供更智能、更人性化的服务。

该技术通过模式分析、语义理解、语义变换及翻译、内容生成和关联性分析等环节,有效解决计算机与人类语言之间的交互问题。

其中,多模交互技术为用户提供文字、语音、图片、基于位置服务(LBS:Location Based Service)等多种输入形式,多轮交互技术实现系统多轮问答训练和学习解析。

谷歌当前的自然语言处理能力也已初步具备直接回答复杂问题的能力。

百度通过多模交互和多轮交互的方式来逐步澄清和满足用户需求,完成深度决策型的搜索任务。

Facebook发布的Deep Text,理解用户发布消息和声明背后的意义,可推荐人们可能会感兴趣的内容,并剔除垃圾消息,为用户提供个性化搜索结果,现在用户在Facebook的搜索量每天已达20亿次以上。

4.3知识图谱推动搜索特征从无序化走向知识化知识图谱[4]作为智能搜索引擎的重要组件,能够保证搜索引擎结果联想出相关结构化信息。

知识图谱对语义理解技术要求高,对社会化开源内容有很强的支撑需求,凭借建立丰富的索引维度将信息和服务的特征从无序化转为知识化。

知识图谱的建立,是通过统计每条数据中按照时间线出现的关键词内容,运用大数据分析技术建立海量数据之间的关联索引,并保持动态推理及时更新。

百度知识图谱“知心”已建立拥有上亿实体量的知识图谱,目前涵盖数十个领域和类别。

谷歌的“Knowledge Graph”[5]已包含超过5亿个事物和不同事物之间超过35亿条的关系。

搜狗搜索连接社交沟通、专业问答等互联网应用,强化对专业优质内容的吸收力度。

5发展趋势搜索引擎呈现出智能化、个性化、场景化和交互便捷化的发展趋势。

一是搜索请求的理解方式,从传统的文字识别向图像识别、音频识别、视频识别等多模态自然语言处理转变;二是主流搜索终端设备,从PC端向移动终端(手机、平板、可穿戴设备等)泛化;三是搜索方式,由传统的网页输入向基于位置的场景化自动感知拓展,使得搜索服务无处不在,搜索引擎成为不可或缺的用户助手;四是搜索结果的呈现技术,从传统的网页排名技术向智能化感知用户需求的用户导向技术过渡,能够个性化、智能化、高效化展示信息流。

总体来讲,全球搜索领域发展态势就是从传统搜索向智能搜索的转变,搜索引擎从流量平台向内容平台进化,构建内容生态服务体系,从传统的“即搜即得、即搜即用”到现在的智能化感知用户需求的“不搜既得”和个性化的信息流。

6发展重点与举措6.1持续优化搜索技术,提升搜索引擎智能化水平优化深度学习算法在搜索引擎中的应用,提高其对数据挖掘、推理和联想的精度,实现准确理解用户的属性、状态、兴趣、情感状态等语义信息;提高自然语言处理能力,解析多种复杂搜索请求,准确判断用户真正需求,提升理解的准确度和效率,特别针对口语化表达展开深度研究;继续完善知识图谱,对全网大数据进行挖掘、抽取、清洗、融合、关联、推理,从亿万级知识碎片中深度挖掘知识关联,将无序数据转化为高效知识网络。

相关主题