Agoda 构建多模态内容系统,链接图片和评论
点击查看原文>
Agoda 构建了一个多模态内容系统,将酒店图片和客人评论整合到了一个基于主题的共享结构中。该系统的目标是将视觉内容与文字反馈相结合,使用户能够同时通过图片和评论来更好地了解酒店的各项特征。该系统的规模庞大,需要处理超过 7 亿张图片以及涉及 40 多种语言的评论。
Flyshop 副总裁 Aditya Kumar Ray 在 LinkedIn 上写道:
在现代旅游科技领域,数据已经不再仅仅关乎目录和价格,更关乎如何大规模地理解内容背景。
这次核心重构引入了共享主题分类,用统一的语义层取代了分散的处理流程。此前,图片和评论采用独立的排序与检索逻辑分别处理,难以将用户在照片中看到的内容与评论中的描述联系起来。这会导致不同模态对酒店特征的解读不一致。通过将“泳池”、“早餐”、“房间质量”和“位置”等主题作为共享锚点,该系统将视觉和文本信号映射到了同一个表示空间中。
/filters:no_upscale()/news/2026/05/agoda-multimodal-content-system/en/resources/1agodamultimodal-1778985846978.jpeg)
将图片标签和评论标签映射到一个共享主题分类中(图片来源: Agoda 博客)
图像通过分类模型进行处理。该模型会生成诸如“泳池”、“海景”和“早餐区”等语义标签,这些标签随后会被规范化为标准主题。与此同时,评论则通过自然语言处理(NLP)管道进行处理,从中提取关键短语、代表性片段和情感信号,并将所有内容对齐到同一主题分类。这使得每个主题都能充当预聚合的多模态包,其中包含精选图片、多语言评论摘录以及情感元数据。提前离线计算关联关系,并通过低延迟的检索层提供服务,有效地避免了运行时的连接操作。
该系统通过由 Kubeflow 托管的 PySpark 作业进行编排,实现对数百万条评论和数亿张图片的数据采集以及增强型工作负载的大规模分布式处理。生成的主题级数据结果存储在 Couchbase 中,该系统作为生产环境的低延迟服务层。
/filters:no_upscale()/news/2026/05/agoda-multimodal-content-system/en/resources/1Screenshot%202026-05-16%20at%206.20.21%E2%80%AFPM-1778985846978.png)
多模态图片管道(图片来源:Agoda 博客)
该设计通过将相关性逻辑转移至离线计算,并依托主题分类的稳定性,在内容时效性与系统性能之间实现了清晰的权衡。虽然这提升了系统的响应速度和可扩展性,但也需要严格地管理主题定义,避免跨语言、跨领域的概念漂移。涵盖多语言的标准化层可以确保 40 多种语言中语义等价内容的一致映射,这对保持全球范围内的数据一致性至关重要。
Agoda 工程团队表示,该架构具有可扩展性,可将结构化属性元数据和用户生成内容等多元信息源整合到同一个主题框架中,从而增强长期语义覆盖能力。
原文链接:https://www.infoq.com/news/2026/05/agoda-multimodal-content-system/
本文来源:InfoQ