本地生活服务内容搜索算法优化的探索与实践

时间:2024-10-21 阅读:1 评论:0 作者:admin

建筑师(JiaGouX)

我们都是建筑师!

构筑未来,你来吗?

本文编译自美团技术沙龙第80期《美团内容智能分发的算法实践》。分享内容主要包括三个部分。第一部分介绍大众点评内容搜索的场景特征和面临的挑战;第二部分介绍了技术团队为了应对这些困难和挑战在链接的各个环节所做的实际优化,包括内容消费和搜索满意度的优化。 ETC。;第三部分是总结与展望。希望对大家有所帮助或者启发。

3 总结与展望

1 现状与挑战

美团多年来深耕本地生活服务领域。在帮助用户完成交易的同时,积累了丰富的图文视频内容供给。依托这些内容供给,我们可以满足更广泛的用户需求,从交易环节延伸到交易前的种草和交易后的经验分享,将大众点评打造成当地吃喝玩乐的社区。

大众点评用户中有很高比例使用搜索来查找本地信息,内容搜索是辅助用户决策、提升社区氛围的重要工具。例如,当用户搜索“火锅”时,除了看到火锅相关的商家和团单外,还可以看到图片、视频、评论、笔记等多种形式和类型的供货展示;在搜索“圣诞活动”时,直接以两栏内容的形式呈现搜索结果,可以更加形象生动。

通过不断优化内容搜索体验,我们可以带来更多的内容消费流量,从而吸引更多的用户成为作者,鼓励更多内容的创作。通过更多的内容,我们可以进一步改善体验。最终形成良性循环。

从实际效果来看,内容搜索的价值也得到了用户的认可。下图是用户采访的原声。可以看出,内容搜索结果逐渐扩大了用户对搜索功能的了解。

与网页搜索、电商搜索、商家搜索等典型搜索类型相比,内容搜索有以下区别:

从以上对比来看,内容搜索在各个维度上都与典型搜索类型有很大不同,需要根据自身特点进行相应的技术选型和方案设计。

我们总结了我们面临的困难和挑战,主要包括以下四个方面:

多种类型的供给并存,供给中既包含结构化信息,也包含非结构化信息。

内容供给量大、更新频繁,导致用户行为分散。单条内容很难获得足够的用户行为数据。在分发过程中还存在较强的地域限制,形成蜂窝状的消费模式,进一步加剧了用户行为。稀疏行为的问题。

在优化过程中,不仅要带动内容消费指标,还要考虑搜索满意度。在推进过程中,需要综合平衡多个维度。

在最终的搜索结果中,内容、商家、团单等以混合的形式呈现,需要与其他类型的搜索结果共同发挥价值,共同满足用户需求。

2 内容搜索优化实践

接下来,我们将从我们面临的问题和挑战出发,分享如何通过各个环节不断优化内容搜索体验。

| 2.1 提供理解

面对用户持续创造和生产的海量内容,我们需要充分理解它,包括显性标签和隐性表征。显性标签系统主要包括:

服务类目怎么填写_服务类目是什么_生活服务类目

除了显式标签之外,分发链路的许多方面还需要更广义的隐式表示。结合实际场景的特点,我们通过引入对比度损失将图像和文本表示对齐到统一的特征空间,并结合自监督对比学习训练范式、掩模学习、图像和文本,开发了多模态预训练模型匹配等优化,提升跨模态交互效果。

| 2.2 召回过程

作为最高级的链接,召回率决定了一次搜索查询中可以获得的候选者总数,这直接影响后续链接的效果天花板。搜索场景的召回主要包括:

语义和个性化回忆的很大一部分是隐式实现的。语义回忆更侧重于描述搜索词本身的信息,而个性化回忆还融入了用户偏好、上下文等大量信息。

| 2.3 排序过程

排序包括粗排序、精排序、多目标融合排序、异构混合排序等环节。通过逐层过滤,评分幅度减小,可以使用结构更复杂、尺度更大的模型。

召回率和精细排名之间的粗排名过程需要兼顾准确性和全面性,权衡评分能力和延迟性能,起到承上启下的作用。为此,我们引入全域用户行为样本,实现系统级修正;我们通过表征蒸馏、分馏、序贯蒸馏等方法提高模型表达能力;在常见的Query-Doc双塔结构的基础上,我们引入跨塔(如交叉点击率、时长等)来提高特征交互能力。

精细规划环节重点关注输入表示层、多目标建模层和输出层的相关工作。

第一个是模型输入表示层。为了从Query、用户、Doc、上下文等多维度、多粒度、多来源准确表征输入信息,我们从以下几个方面进行表征。

接下来是多目标建模层。由于点击次数、时长、交互等目标行为量级不同,优化过程中很容易出现拉锯问题。为此,从模型结构、优化方法等方面进行了相关探索。

最后是模型输出层。为了促进新内容和长尾内容的分发,保证模型输出的估计分数的稳定性和准确性,我们从探索结构和学习目标上做了相应的优化。

| 2.4 满意度优化

搜索场景除了优化点击、互动、时长等内容消费指标外,还非常重视满意度优化。用户对搜索结果是否满意可以从结果是否相关、是否足够新鲜、是否对应地域、内容质量等显性维度来表征。

相关性是搜索满意度最基本、最重要的维度。大众点评的很多内容都与商家相关,比较容易获得很多清晰的结构化信息,比如商家类别、地区等,可以用来辅助判断相关性。然而,噪音也可能是由内容与商家的错误关联引起的。为此,需要从图像、文本和商户信息中提取关键信息作为关联模型的输入。

除了相关性之外,搜索结果的及时性也会影响用户体验。例如,迪士尼的疯狂动物城公园已经开始向公众开放,并突然成为热门景点。通过敏锐捕捉突发热点,在搜索“迪士尼”时优先搜索相应结果,可以给用户带来惊喜。另一类查询词如“平安夜”是周期性的、时间敏感的热点,每年这个时间段都会有这样的热点。为了更好地建模时效性,我们多方挖掘建立热点事件数据库,获取商家自行上报的最新事件,建立独立的召回渠道接受,并结合线上点击反馈纠正错误识别。

上述满意度评价通常更多地依赖于人工标注。最近,人们对自动注释进行了探索。对比分析如下:

在具体实现上,我们通过分步推理来实现自动化标注。我们首先分析用户当前的意图,然后结合当前的搜索查询、搜索意图、搜索结果等信息,从多个维度对搜索结果进行分析,最终综合判断当前的搜索结果满足您的需求的程度。

| 2.5 多目标融合

在获得内容点击、互动、时长、满意度等多个维度的预估分数后,多目标融合层负责对各个维度的分数进行融合和排序。

服务类目是什么_服务类目怎么填写_生活服务类目

| 2.6 非均相混合

前面步骤的动作集中在内容搜索链接本身,最终的内容与商家、团单等不同类型的结果混合作为搜索结果的一部分,以最大化整体搜索收入。为此,需要多次异质混合。排。业界常见的混合建模方法包括端到端建模、价值融合公式、序列生成与评估等。

此外,本地生活领域的流量分布也具有独特的特点。在用户快速决策和慢速决策的场景下,对内容的需求是不同的。午餐和晚餐高峰时段内容点击量较低,下午茶和夜宵时段内容点击量相对较低。消费意愿更强。结合内容和商户峰谷差异,依托流量价值预估、模型算力、服务稳定性监控等工程能力,进行算力动态适配,保证整体搜索结果能够更好地满足用户需求。

3 总结与展望

综上所述,大众点评内容搜索通过优化用户体验不断提高渗透率,进入快速增长阶段。除了商户系统外,还构建了基于内容的搜索和分发能力,并根据网站的需求和供给特征进行了专项建设。

后续工作中,希望建立经验问题自动发现机制,助力生产运输促供应促生产,推动大车型各环节扎实落地,提高整个环节的时效性和绩效,使内容能够高效、准确、及时地分发,进而形成本地生活信息领域的体验优势,助力打造本地吃喝玩乐社区。

参考

[1]李生,吕峰,金涛,等。基于嵌入的淘宝搜索商品检索[C].第 27 届 ACM SIGKDD 知识发现和数据挖掘会议论文集。 2021:3181-3189。

[2]Ai Q,Hill DN,Vishwanathan SVN,等。个性化产品搜索的零注意力模型[C].第 28 届 ACM 国际信息和知识管理会议论文集。 2019:379-388。

[3] 常杰,张春,惠艳,等。 Pepnet:用于注入个性化先验信息的参数和嵌入个性化网络[C]。第 29 届 ACM SIGKDD 知识发现和数据挖掘会议论文集。 2023 年:3795-3804。

[4]Wang Z,She Q,Zhang J. MaskNet:通过实例引导掩模将特征乘法引入CTR排名模型[J]。 arXiv:2102.07619,2021。

[5]常杰,张春,惠艳,等。 Pepnet:用于注入个性化先验信息的参数和嵌入个性化网络[C]。第 29 届 ACM SIGKDD 知识发现和数据挖掘会议论文集。 2023 年:3795-3804。

[6] Burges CJ C. 从 RankNet 到 LambdaRank 再到 LambdaMART:概述; 2010[R]. MSR-TR-2010-82。可用日期: ,2010 年。

[7]盛晓荣,高继,程勇,等。情境化混合模型的排序和校准联合优化[C]。第 29 届 ACM SIGKDD 知识发现和数据挖掘会议论文集。 2023:4813-4822。

[8] 白A,贾格曼R,秦Z,等。用于二元相关性校准排名的回归兼容列表目标[C]。第 32 届 ACM 国际信息和知识管理会议论文集。 2023:4502-4508。

- - - - - 结尾 - - - - -

如果您喜欢这篇文章,请点击右上角将文章分享到您的朋友圈

如果您想了解学习的技术要点,请留言给若飞安排分享。

由于公众号更改了推送规则,请点击“关注”并加“星”,以便第一时间获得精彩的技术分享

·结尾·

相关阅读:


作者:一帆、陶然、陶峰、盛宇,均来自大众点评部。

本文链接: http://01280.cn/2024/10/4797/ 转载请注明出处!