旅荐网

您现在的位置是:首页 > 国内旅游目的推荐 > 正文

国内旅游目的推荐

用AI做旅行攻略,靠不靠谱

admin2026年06月01日 19:06:13国内旅游目的推荐1
用AI做旅行攻略,靠不靠谱
本文由AI辅助整理,核心观点和案例由作者人工完成。

---

一、之前与现在

以前用百度搜东西,有个好处:你能一眼看出哪条是广告,那个小小的"广告"标签,虽然烦,但它告诉你——这条信息背后有人付钱了,你看着办。

现在AI来了。你跟它说“帮我做一份杭州三天两夜的攻略,它搜了整理了列好了,很方便,但是不知道它读的那些“攻略”里面,有多少是广告和软文了。

事情变简单了,但分辨真假变难了。

我一直在想这个问题:当我们把搜索交给AI之后,谁来替我们分辨搜索结果的真假?最近读到了一篇论文,有一些思考。

---

二、论文关键点

这篇论文叫 VeriTrip,作者是中科院信息工程研究所和阿里高德团队,arXiv 编号 2605.28683,今年5月底刚出来。

它做了什么?不是测"给干净数据能不能排出合理的行程",而是做了一件更像人活做的事:给真实网页。 从携程、12306、小红书抓了8,210份文档和4,146张图片,覆盖15个旅游城市。然后故意保留了真实网页上的噪音——过时评论、矛盾信息、广告残留,就是看看模型是不是和人一样会去判断和筛选

VeriTrip构建流程

更有意思的是测试设计。给AI的不是"请规划杭州三日游"这么干净的指令,而是:一张故意裁过的模糊照片(让AI看图猜目的地),再加一堆约束——预算、人数、天数、饮食偏好。AI必须自己看图认出"这是哪里"→在噪音文档里搜交通和酒店→综合成一份满足所有约束的行程。

这跟我们自己做攻略一模一样——面对的不是干净数据库,是真实网页的垃圾场。

然后论文建了一套严格到每个单元格的验证系统。AI输出的航班号、酒店名、门票价格、时间,每个单元格都要跟标准答案逐条对照。编一个,扣一分。

测了11个模型。结果呢?最好的是 Claude-4.5-Sonnet,事实可靠性 68.6%,偏好满足率 50%。

也就是说,哪怕是最好的模型,交出来的攻略里一半信息不可靠,一半偏好没满足。

更有意思的是论文发现的两种失败模式。

错误类型分布

第一种,刚性事实错误——交通ID、发车时间、票价。这种最致命但不是最普遍的。第二种更隐蔽:软约束处理失败——比如"推荐游览时间2小时"这种柔性指导,AI经常生成偏离官方建议的时间安排。

论文管最核心的问题叫"启发式默认"缺陷:第一次搜没搜到想要的信息,AI不是换个关键词重搜,而是直接凭记忆编。搜不到航班号?编一个。不知道酒店价格?猜一个。搜不到就放弃搜索,开始编。

论文还发现一个关键现象:AI有没有工具"看"图片,结果天差地别。 上图展示了同一个模型在同一个任务上的表现。有视觉搜索工具时,AI能正确识别出模糊图片里的青铜器,定位到目的地,顺利完成行程规划。关掉视觉工具后,AI虽然认出了"这是个青铜器",但无法定位到具体地点,反复循环推理,直到超时失败。

---

三、人和AI,其实差不多

但更有意思的不是错误类型,是一个现象——它跟人一模一样。

一面是:为了满足你,它会编。 论文发现一个反直觉的事——简单任务上,几乎所有模型的事实可靠性反而更低。为什么?因为简单任务让AI觉得"不需要搜",直接凭记忆写。一凭记忆,就开始瞎编。到了复杂任务,逼它去搜索核实,事实可靠性反而提升了。

人也是这样。汇报材料缺一个数据,找不到来源,你可能就"大概"填了一个。目标是交出一份完整的材料,找不到怎么办?编一个看起来合理的。

反过来,还有另一面。

OpenAI 的 o3 是"会思考"的模型——能把推理过程摊开给你看。但在复杂任务上,它的偏好满足率从 55.38% 暴跌到 27.57%,掉了将近28个百分点。论文管这个叫 process over-fixation——花了太多精力逐条核实"这班高铁几点开""那家酒店离景点多远",忘了用户想吃法餐不是兰州拉面。

为了核实每条信息,忘了当初为什么要做这件事。 这不就是我们自己吗?打开一篇论文,看到一个不懂的术语,去查。查的时候又发现一篇相关论文,点进去看。一个小时过去了,你才想起来——当初我只是想读完这篇论文而已。

论文里有几个堪称经典的错误案例。

AI的典型错误:格式错误和事实错误

左边这个:GPT-4o 做了一份行程,乍看没问题。但仔细看——它把 prompt 里的格式说明直接抄进了输出结果里。AI 分不清"别人给我的指令"和"我应该输出的内容"。

右边这个更典型:Qwen-VL-Max 搜到的高铁信息日期不对。正常人的反应是"日期不对,重新搜"。AI 的反应是"有就行,直接用"。直接把错误日期的高铁号塞进了行程计划,导致全部交通信息被判错误。

还有一个地理认知案例。用户给了一张格里菲斯天文台的照片,但让规划的是波士顿的行程。AI识别出这是"天文台",但没有发现地理矛盾——格里菲斯天文台在洛杉矶,不在波士顿。然后它硬说"波士顿的 Prudential Center Skywalk 就是你要的天文台"。为了逻辑自洽,把洛杉矶的地标硬塞进波士顿的行程里。

核心结论就一句话:检索和推理在抢同一块认知资源,把算力花在核实事实上,就没算力花在理解你要什么上了。

---

四、反思

到这里,论文就结束了。它是一篇基准测试论文——告诉了你问题在哪,但没告诉你怎么办。

但我更深入想想:人自己是怎么处理这个问题的?

我们做旅行攻略的时候,也不会有一份完美的信息放在面前。小红书上前几条笔记可能是同一个酒店买的,携程评论里有刷的,你也不知道那家餐厅今天还开着没有。

如果是我,我会怎么办?从我的角度,我会大致看了一下,心里有个数,背上包就走了。

去之前做了攻略,到了之后发现攻略上的店关门了,或者那条路在修。怎么办?换一个地方试试,发现了一个攻略上没写的小巷子,巷子里有个别样的风景,回来之后把这个发现写在游记里——下一批搜到这个目的地的游客,就会看到你这条。

攻略是一张纸,旅行是人走出来的。

人做攻略的真正流程不是"找到全部正确信息然后排计划"。是:大概看一下,出发,边走边看边调,回来分享。攻略在你出发的那一刻就已经开始失效了——它给了你一个大概的方向,但没有告诉你路上会遇到什么。路上遇到的那些才是旅行。

那为什么要用 AI 做攻略?因为需要有人在出发前帮你扫一眼那几万篇小红书笔记,帮你排除掉最明显的坑(关门了、差评太多、路线不通),帮你搭一个粗糙的骨架。然后——你走出去,走你自己的。

AI 只是骨架,肉要自己长。

---

五、写在最后

回到开头那个问题:用AI做旅行攻略,靠不靠谱?

答案是:AI做简单重复工作,靠谱还是要你。

AI 给你的是一个起点,它的骨架可能有错——酒店名可能不对、票价可能过期、那条街上其实没有好吃的。但它帮你跨过了"从零到一"最累的那一步——你不用再看几千篇帖子了。AI 能给你一份60分的骨架,剩下的40,是你走出去之后,自己挣的。这才是人机协同在旅行规划里真正的样子。

是“AI帮我扫了路,我把路走出来。


参考来源:

  1. VeriTrip 论文:https://arxiv.org/abs/2605.28683
  1. TravelPlanner 基准:https://osu-nlp-group.github.io/TravelPlanner
  1. ChinaTravel 基准:https://arxiv.org/abs/2412.13682

发表评论

评论列表

  • 这篇文章还没有收到评论,赶紧来抢沙发吧~