javascript - 旅行打卡还能互动？ShotMatch 让照片连接全球旅行者｜GMI Cloud Inference Engine 实践 - 个人文章

【人工智能主题日 Party Nights · 任务式 AI 创新工作坊】黑客松活动于 3 月 25 日至 3 月 29 日在北京 AI 原点社区开展，吸引了众多 AI 爱好者与参赛选手。GMI Cloud 作为本次黑客松「AI × Agent 超级个体」出海赛道的主办方，以 GMI Cloud Inference Engine 为官方算力与技术支撑，全程提供高性能推理引擎、模型服务与开发资源，让参赛团队能够更快把创意推进到可验证的产品形态。

对于很多海外用户来说，旅行早已不只是看景点。在一个陌生城市中，如何找到有趣的目的地，如何更主动地参与当地体验，如何把一次普通打卡变成更有记忆点的互动过程，正在成为旅行产品新的机会点。

ShotMatch 正是从这个场景出发。它面向海外用户在外旅行中的城市探索和景点打卡需求，将**“旅行 + 拍照 + AI 评分”结合**起来，让用户根据一张参考照片，前往真实地点寻找相似机位，拍摄自己的复刻照片，再由 AI 判断还原程度并给出评分。

ShotMatch 出自智慧熊猫团队，由周磊、Fiona Wang 打造。团队希望通过这种方式，把传统的浏览观光式旅行转变为一种可参与、可互动、可量化的真实体验。用户不再只是观看目的地照片，而是通过一次复刻拍摄真正参与到旅行场景中，让打卡变成一场可以完成、可以重试、可以分享的挑战。

➡️体验链接在这里：shotmatch.pandahoho.com

欢迎来到【优秀实践合集】第三篇🎉🎉🎉

这一期，我们为大家带来本次黑客松优秀作品：ShotMatch。

ShotMatch 介绍

The Introduction

ShotMatch 是一个面向海外旅行用户的 AI 打卡拍照挑战应用，聚焦陌生城市探索、景点互动和旅行分享等出海场景。用户选择一张目标照片后，前往真实地点寻找相似机位，拍摄复刻照片并上传，系统会通过 AI 对两张照片的相似度进行评分。它的核心不是提供景点介绍，也不是美化照片，而是把一张目的地照片转化成一次可参与的旅行任务。用户通过观察参考图、寻找地点、调整构图和完成拍摄，获得分数、结果反馈和分享素材，让普通打卡变成有目标、有反馈、有传播性的互动体验。

对海外旅行用户来说，ShotMatch 降低了陌生目的地的探索门槛；对平台和文旅运营方来说，它可以将城市景点、旅行路线和品牌活动设计成可挑战、可排名、可分享的内容单元，形成“挑战—拍摄—评分—分享”的参与闭环。

ShotMatch 的搭建逻辑

How it works

ShotMatch 的产品搭建并不是把两张图片直接丢给模型，让 AI 简单判断“像”或“不像”，而是将整个过程拆成 AI 识别层、后端服务层和评分系统层三部分。这样的设计既保留了大模型对图像的语义理解能力，也让评分过程可以被结构化、规则化和产品化。

在 AI 识别层，ShotMatch 使用具备视觉能力的大模型对参考照片和用户上传照片进行分析。模型通过 GMI Cloud 调用，输入为图片 URL，输出为结构化 JSON，用来描述图片中的主体、场景、构图、颜色等关键视觉特征。也就是说，AI 在这里承担的不是直接打分的角色，而是先把照片看懂，并把主观视觉信息转化为后续系统可以处理的数据。

在后端服务层，ShotMatch 通过 Replit 承载核心业务逻辑。后端负责存储挑战数据、调用 LLM API、接收并校验模型返回的 JSON，同时处理模型输出异常，确保识别结果可以进入后续评分流程。这个环节相当于连接 AI 能力和产品体验的中枢：前端上传的是照片，AI 返回的是结构化结果，而后端要把这些结果整理成稳定、可用、可反馈的评分依据。

在评分系统层，ShotMatch 将 AI 输出的图像特征进一步转化为分数。系统以 100 分为满分，围绕主体、构图、颜色等维度进行综合判断，并结合重叠比例与相似度计算，最终返回用户可理解的结果，包括分数、通过/接近/失败判断和匹配分析。这样一来，两张照片像不像不再只是主观评价，而是被拆解成可计算、可反馈、可重试的产品机制。

通过这三层架构，ShotMatch 把海外用户旅行中的拍照打卡行为，转化成了一套完整的互动挑战流程：用户上传照片，AI 理解图像，后端处理结果，评分系统给出反馈。它既利用了大模型的视觉理解能力，又避免把全部判断交给模型黑盒，从而让产品更适合持续迭代和规模化扩展。

GMI Cloud Inference Engine 如何支撑这套体系

How to support

在 ShotMatch 中，GMI Cloud Inference Engine 提供的是统一推理服务。团队通过 GMI Cloud Inference Engine 调用 GPT-4o，用于完成图片的语义级理解和结构化输出。作为一个面向全球模型统一接入与在线使用的高性能推理引擎平台，GMI Cloud Inference Engine 底层搭载 H100/H200 芯片，集成全球近百个前沿大语言模型与视频生成模型，能够为开发者和企业提供更快、更稳定、质量更高的模型服务。

ShotMatch 需要的不是普通聊天能力，而是让模型像“AI 裁判”一样，对参考照片和用户上传照片进行语义级理解，并输出可用于评分系统处理的结构化结果。具体来说，团队通过 GMI Cloud Inference Engine 调用 GPT-4o，分析两张照片中的主体、场景、构图、颜色等关键视觉特征，并按照预设 prompt 输出结构化 JSON。后端会对这些结果进行校验和处理，再交给评分系统计算相似度。也就是说，GMI Cloud Inference Engine 支撑的是 ShotMatch 从看懂图片到形成评分依据的关键环节。

这对 ShotMatch 很重要。两张旅行照片是否相似，并不是简单比较像素，而是要判断主体是否一致、拍摄角度是否接近、构图关系是否相似、场景元素是否匹配。借助 GMI Cloud Inference Engine 平台提供的各类模型，ShotMatch 可以把这些主观视觉判断转化为更稳定的结构化描述。同时，GMI Cloud Inference Engine 的统一推理能力也为后续扩展留下空间。当前系统通过 GMI Cloud Inference Engine 调用 openai/gpt-4o，未来如果需要切换其他视觉模型、优化不同旅行场景下的识别效果，团队也不需要重构整体业务逻辑。

因此，对 ShotMatch 来说，GMI Cloud Inference Engine 不只是模型调用入口，而是支撑“用户上传照片—AI 理解图像—系统完成评分—用户获得反馈”这一产品闭环的关键基础设施。

ShotMatch 展示了一种轻巧而有温度的 AI 应用方式。它没有把 AI 放在炫技的位置，而是把视觉理解和即时评分融入旅行中最自然的拍照行为里，让用户在看到目标照片后，自然而然地产生寻找地点、调整角度、完成拍摄的动力。对于海外旅行场景来说，照片本身就是一种跨语言的交流方式，用户不需要复杂说明，也能通过画面理解任务、参与挑战，并通过 AI 评分获得反馈。

它的亮点在于，把线上看到的目的地内容和线下真实行动连接起来，让一张照片不只是被浏览，而是成为用户走向真实地点、参与城市探索的理由，也为 AI 出海应用提供了一个清晰而有启发性的方向。

平台近期上线多款模型，GPT5.5、Kimi K2.6、DeepSeek-V4...多款模型等你来体验～

旅行打卡还能互动？ShotMatch 让照片连接全球旅行者｜GMI Cloud Inference Engine 实践

GMICloud

引用和评论

VibeHost LiveRoom：海外虚拟主播 Agent丨GMI Cloud Inference Engine 实践

我的面试之旅

为什么我不建议普通前端盲目卷全栈？

React Hooks原理：为什么不能写在if里？揭开Hook的“魔法”面纱

javascript 值深复制

四强同台！DeepSeek-V4-Pro/GPT-5.5/GLM-5.1/MiniMax M2.7 横评

Windows + Git Bash 下用 hdc 推文件到鸿蒙应用私有沙箱的四个连环坑