在2021云栖大会“预训练与对话前沿论坛”上,夸克App资深算法专家王筱钊发表演讲,分享了预训练技术在搜索引擎中的最新应用进展,通过持续升级夸克语义模型,为用户提供更精准、更高效的搜索体验。
(图:夸克App资深算法专家、夸克通用搜索技术团队负责人 王筱钊)
作为阿里智能信息事业群旗下一款智能搜索App,夸克主打轻、简、快捷的产品体验,内置了AI相机、网盘等丰富的智能工具,聚合了海量内容,受到了年轻用户的青睐。阿里智能信息事业群总裁吴嘉曾表示,技术是业务的翅膀,产品因技术而不同,要通过技术创新给用户提供最佳体验。
据介绍,搜索引擎中,语义匹配具体应用在用户查询词和文章标题的匹配,是保证用户搜索结果精准、高效的核心技术能力。传统的语义匹配实现方式是通过设定规则来区分,如果面对表达多样化的冷门查询词,则很难设计统一的规则。
随着技术解决方案的升级,语义匹配经历了从规则到大规模深度语义模型的变革。其中,预训练语义模型的优势,首先是基于大规模非监督数据预训练,其次是模型结构复杂,学习能力很强,能够学习到一些很难的语义表示。
王筱钊介绍,夸克选择的技术实现方式是在一个标准预训练语言模型之上,基于搜索领域文本的特征,设计了二次预训练,然后用少量的人工标注样本做微调。考虑到性能,夸克会基于teacher模型对大量自动样本进行“知识蒸馏”。
创新预训练在搜索引擎中的应用,夸克有三方面的技术亮点:一是把通用语言模型升级为领域语言模型,大大提升了语义匹配的效果。二是通过微调处理复杂匹配,得到teacher模型结合知识蒸馏技术,同时解决了具体场景下提升模型效果和落地性能两个难点。第三是针对整个搜索链路的不同场景,设计了差异化的蒸馏技术方案。
展望预训练技术的应用远景,王筱钊认为,在新的变革技术到来之前,预训练技术仍将是语义匹配的关键技术,更大参数、更多数据的预训练技术将保持主航道,多模技术快速发展和新硬件出现值得期待。
“未来,夸克将展开新硬件与软件性能优化,上线更大规模模型;融合向量召回与关键词召回技术,实现更高效的召回等技术探索,落地更多预训练在搜索引擎中的创新应用。”王筱钊表示。