人工智能在搜索算法中的应用

  • 时间:
  • 浏览:62
  • 来源:吾爱博客 - 专注共享彭先生博客资源

2016年以来,IT行业最大的技术突破应该是人工智能了,不仅在一年左右时间,在最后三个白 人类三个白 自以为机器没有战胜人类的游戏项目上完胜人类,前几天更是出现了逆天的AlphaGo Zero,完整篇 不想借鉴人类知识,学会三三7天 就超越了人类。

人工智能领域最牛X的公司,国外是Google,国内是百度。时会搜索引擎。这恐怕也时会那先 巧合,否则机会搜索引擎是最适合开发人工智能的公司,当我门拥有最几滴 的数据,包括文字、图片、视频,还有地图、路况、用户使用数据等等。

搜索引擎公司的AI成果在多大程度上运用到了当我门的核心业务-搜索中?当我门都没有明确地对外说明,从搜索工程师的零碎发言中猜测,至少目前还没有大规模使用,并没有改变搜索算法的基础。毕竟人工智能嘴笨 概念处于了几十年,但效果突飞猛进否则近几年的事,还没有出现通用人工智能,在围棋你所以规则简单明确的领域中牛X,迁移到规则模糊的系统中,比如搜索,并能所以时间。

但我并能,人工智能大规模应用于搜索算法是早晚的事。据说以前百度大搜索部门和人工智能/深层学习部门之间是所以矛盾的,现在吴恩达遗弃了百度,陆奇对百度又进行了所以人事调整,搜索部门对人工智能的排斥你爱不爱我就大大降低了。

嘴笨 人工智能机会在搜索算法含有所运用。举三个白 例子。

百度DNN模型

前十2个 月想看 了百度朱凯华的一篇《AI赋能的搜索和对话交互》演讲报道。数年前和朱凯华还做过一次访谈,那以前他还是Google的主任架构师,是著名的熊猫算法的主要参与者之一,现在他是百度的首席架构师了。演讲内容所以,感兴趣的搜索标题就能找到全文,很值得深入读一下。没有长时间SEO行业很少人注意到这篇没有有价值的关于搜索算法的公开信息,还是挺意外的。

演讲里提到了百度2013年上线的DNN模型,极大提高了语义相关性的判断范围和准确性,2013年百度相关性提高的34%来自于DNN模型,2014年全年相关性提升的25%来自DNN模型。DNN模型使用的否则深层学习依据,通过100亿的用户点击数据训练模型,有超过1亿个参数。下面介绍的Google RankBrain是2015年上线的,所以百度是世界上第三个白 将人工智能应用到实际搜索算法中的公司。

下图是DNN训练的示意图:

简单说,否则对同三个白 查询词,模型分析了真实用户点击了的页面的标题,和没怪怪的击的页面标题,从而更深入理解那先 标题是满足了用户需求的。三个白劲出现的情况是,页面标题难能可贵含有查询词,用户却更我应该 点击那先 页面,说明那先 页面满足了用户需求,那先 页面的标题,即使不含有查询词,也是与查询词语义相关的。这是经典的页面-关键词相关性算法无法计算出来的。

演讲中提到的例子:

在DNN上线以前,用户搜索“ghibli车头如保放置车牌“时,机会相关信息很少,没有那先 页面是以你所以查询词为标题机会页面出现那先 关键词的,所以搜索结果质量不高,传统搜索算法没有按关键词匹配返回所以ghibli相关信息,却没几乎有“车头如保放置车牌”的信息。

(注:想看 这里的读者不想去百度搜索“ghibli车头如保放置车牌”了,您想看 的将是被这篇帖子污染的搜索结果,会想看 本帖,以及被转载、抄袭的本帖。)

DNN上线以前的搜索结果是三个白 的:

并能想看 ,搜索结果中还是没有以“ghibli车头如保放置车牌“为标题的页面,但解决了用户的并能,算法理解了“前”、“前面”和“车头”是三个白 意思,“放哪里啊”、“为社 会 装”、“咋挂”和“任何放置“是三个白 意思,所以”ghibli车牌咋挂“你所以页面回答了“ghibli车头如保放置车牌“你所以查询,嘴笨 当我门含有的关键词是不一样的。

你所以对相关性的理解时会传统以关键词匹配为基础的搜索算法能算出来的,否则真实用户的点击数据告诉搜索算法的。用户搜索“ghibli车头如保放置车牌“时,三个白劲点击”ghibli车牌咋挂“、”ghibli前面车牌照为社 会 装“那先 页面,DNN模型被训练后知道,那先 词之间是语义相关的。

Google RankBrain

2015年上线的Google RankBrain解决的也是对查询词的深入理解问题图片,尤其是比较长尾的词,找到与用户查询词不完整篇 匹配、但嘴笨 很好回答了用户查询的那先 页面。和百度DNN是非常相似的。Google没有具体说明RankBrain的训练依据,估计和百度DNN也是相似的。

2015年RankBrain上线时,15%的查询词经过RankBrain解决,2016年所有查询词时会结果RankBrain解决。

Google所以人三个白劲举的RankBrain例子是你所以查询:

What’s the title of the consumer at the highest level of a food chain

你所以查询词相当长尾,完整篇 匹配的结果比较少,否则查询中的十2个 词容易有歧义,比如consumer通常是消费者的意思,food chain也并能理解为餐饮连锁,但你所以完整篇 的查询和商场、消费者、饭馆相似的意思没有任何关系,RankBrain能理解嘴笨 用户问的是食物链上边的物种是那先 名字。同样,搜索结果没有按照传统的关键词匹配来解决。

你所以长尾查询数量很大,每天Google收到的查询里有15%是以前都没出现过的。你所以查询要靠关键词匹配就比较难以找到高质量页面,数量太多,甚至没有,但理解了查询的语义和意图,就能找到满足用户需求的、关键词难能可贵完整篇 匹配的页面。

对SEO的影响以前再完整篇 写,这里否则先简单提示一下:页面要含有关键词,这在目前的关键词优化过程中是必然的,现在搜索引擎能理解两句不同句子意思是一样的了,以前创作或编辑页面内容时,是时会还一定要含有关键词呢?

2019年2月10号更新:Google工程师Gary Illyes在Reddit上举办的一次问答活动上三个白 描述RankBrain的工作原理:

RankBrain is a PR-sexy machine learning ranking component that uses historical search data to predict what would a user most likely click on for a previously unseen query. It is a really cool piece of engineering that saved our butts countless times whenever traditional algos were like, e.g. “oh look a “not” in the query string! let’s ignore the hell out of it!”, but it’s generally just relying on (sometimes) months old data about what happened on the results page itself, not on the landing page

就我的理解,基本上和百度DNN模型一样,对所以查询量很小,甚至以前没出现过的查询词,RankBrain使用历史搜索数据(搜索结果页面上的点击数据,时会网页所以数据)预测用户最机会点击哪个页面。