您现在的位置是：首页 > 国内旅游目的推荐 > 正文

国内旅游目的推荐

用AI做旅行攻略,靠不靠谱

admin2026年06月01日 19:06:13国内旅游目的推荐1

用AI做旅行攻略,靠不靠谱

本文由AI辅助整理，核心观点和案例由作者人工完成。

---

一、之前与现在

以前用百度搜东西，有个好处：你能一眼看出哪条是广告，那个小小的"广告"标签，虽然烦，但它告诉你——这条信息背后有人付钱了，你看着办。

现在AI来了。你跟它说“帮我做一份杭州三天两夜的攻略”，它搜了整理了列好了，很方便，但是不知道它读的那些“攻略”里面，有多少是广告和软文了。

事情变简单了，但分辨真假变难了。

我一直在想这个问题：当我们把搜索交给AI之后，谁来替我们分辨搜索结果的真假？最近读到了一篇论文，有一些思考。

---

二、论文关键点

这篇论文叫 VeriTrip，作者是中科院信息工程研究所和阿里高德团队，arXiv 编号 2605.28683，今年5月底刚出来。

它做了什么？不是测"给干净数据能不能排出合理的行程"，而是做了一件更像人活做的事：给真实网页。 从携程、12306、小红书抓了8,210份文档和4,146张图片，覆盖15个旅游城市。然后故意保留了真实网页上的噪音——过时评论、矛盾信息、广告残留，就是看看模型是不是和人一样会去判断和筛选。

VeriTrip构建流程

更有意思的是测试设计。给AI的不是"请规划杭州三日游"这么干净的指令，而是：一张故意裁过的模糊照片（让AI看图猜目的地），再加一堆约束——预算、人数、天数、饮食偏好。AI必须自己看图认出"这是哪里"→在噪音文档里搜交通和酒店→综合成一份满足所有约束的行程。

这跟我们自己做攻略一模一样——面对的不是干净数据库，是真实网页的垃圾场。

然后论文建了一套严格到每个单元格的验证系统。AI输出的航班号、酒店名、门票价格、时间，每个单元格都要跟标准答案逐条对照。编一个，扣一分。

测了11个模型。结果呢？最好的是 Claude-4.5-Sonnet，事实可靠性 68.6%，偏好满足率 50%。

也就是说，哪怕是最好的模型，交出来的攻略里一半信息不可靠，一半偏好没满足。

更有意思的是论文发现的两种失败模式。

错误类型分布

第一种，刚性事实错误——交通ID、发车时间、票价。这种最致命但不是最普遍的。第二种更隐蔽：软约束处理失败——比如"推荐游览时间2小时"这种柔性指导，AI经常生成偏离官方建议的时间安排。

论文管最核心的问题叫"启发式默认"缺陷：第一次搜没搜到想要的信息，AI不是换个关键词重搜，而是直接凭记忆编。搜不到航班号？编一个。不知道酒店价格？猜一个。搜不到就放弃搜索，开始编。

论文还发现一个关键现象：AI有没有工具"看"图片，结果天差地别。 上图展示了同一个模型在同一个任务上的表现。有视觉搜索工具时，AI能正确识别出模糊图片里的青铜器，定位到目的地，顺利完成行程规划。关掉视觉工具后，AI虽然认出了"这是个青铜器"，但无法定位到具体地点，反复循环推理，直到超时失败。

---

三、人和AI，其实差不多

但更有意思的不是错误类型，是一个现象——它跟人一模一样。

一面是：为了满足你，它会编。 论文发现一个反直觉的事——简单任务上，几乎所有模型的事实可靠性反而更低。为什么？因为简单任务让AI觉得"不需要搜"，直接凭记忆写。一凭记忆，就开始瞎编。到了复杂任务，逼它去搜索核实，事实可靠性反而提升了。

人也是这样。汇报材料缺一个数据，找不到来源，你可能就"大概"填了一个。目标是交出一份完整的材料，找不到怎么办？编一个看起来合理的。

反过来，还有另一面。

OpenAI 的 o3 是"会思考"的模型——能把推理过程摊开给你看。但在复杂任务上，它的偏好满足率从 55.38% 暴跌到 27.57%，掉了将近28个百分点。论文管这个叫 process over-fixation——花了太多精力逐条核实"这班高铁几点开""那家酒店离景点多远"，忘了用户想吃法餐不是兰州拉面。

为了核实每条信息，忘了当初为什么要做这件事。 这不就是我们自己吗？打开一篇论文，看到一个不懂的术语，去查。查的时候又发现一篇相关论文，点进去看。一个小时过去了，你才想起来——当初我只是想读完这篇论文而已。

论文里有几个堪称经典的错误案例。

AI的典型错误：格式错误和事实错误

左边这个：GPT-4o 做了一份行程，乍看没问题。但仔细看——它把 prompt 里的格式说明直接抄进了输出结果里。AI 分不清"别人给我的指令"和"我应该输出的内容"。

右边这个更典型：Qwen-VL-Max 搜到的高铁信息日期不对。正常人的反应是"日期不对，重新搜"。AI 的反应是"有就行，直接用"。直接把错误日期的高铁号塞进了行程计划，导致全部交通信息被判错误。

还有一个地理认知案例。用户给了一张格里菲斯天文台的照片，但让规划的是波士顿的行程。AI识别出这是"天文台"，但没有发现地理矛盾——格里菲斯天文台在洛杉矶，不在波士顿。然后它硬说"波士顿的 Prudential Center Skywalk 就是你要的天文台"。为了逻辑自洽，把洛杉矶的地标硬塞进波士顿的行程里。

核心结论就一句话：检索和推理在抢同一块认知资源，把算力花在核实事实上，就没算力花在理解你要什么上了。

---

四、反思

到这里，论文就结束了。它是一篇基准测试论文——告诉了你问题在哪，但没告诉你怎么办。

但我更深入想想：人自己是怎么处理这个问题的？

我们做旅行攻略的时候，也不会有一份完美的信息放在面前。小红书上前几条笔记可能是同一个酒店买的，携程评论里有刷的，你也不知道那家餐厅今天还开着没有。

如果是我，我会怎么办？从我的角度，我会大致看了一下，心里有个数，背上包就走了。

去之前做了攻略，到了之后发现攻略上的店关门了，或者那条路在修。怎么办？换一个地方试试，发现了一个攻略上没写的小巷子，巷子里有个别样的风景，回来之后把这个发现写在游记里——下一批搜到这个目的地的游客，就会看到你这条。

攻略是一张纸，旅行是人走出来的。

人做攻略的真正流程不是"找到全部正确信息然后排计划"。是：大概看一下，出发，边走边看边调，回来分享。攻略在你出发的那一刻就已经开始失效了——它给了你一个大概的方向，但没有告诉你路上会遇到什么。路上遇到的那些才是旅行。

那为什么要用 AI 做攻略？因为需要有人在出发前帮你扫一眼那几万篇小红书笔记，帮你排除掉最明显的坑（关门了、差评太多、路线不通），帮你搭一个粗糙的骨架。然后——你走出去，走你自己的。

AI 只是骨架，肉要自己长。

---

五、写在最后

回到开头那个问题：用AI做旅行攻略，靠不靠谱？

答案是：AI做简单重复工作，靠谱还是要你。

AI 给你的是一个起点，它的骨架可能有错——酒店名可能不对、票价可能过期、那条街上其实没有好吃的。但它帮你跨过了"从零到一"最累的那一步——你不用再看几千篇帖子了。AI 能给你一份60分的骨架，剩下的40，是你走出去之后，自己挣的。这才是人机协同在旅行规划里真正的样子。

是“AI帮我扫了路，我把路走出来。”

参考来源：

一
VeriTrip 论文：https://arxiv.org/abs/2605.28683

二
TravelPlanner 基准：https://osu-nlp-group.github.io/TravelPlanner

三
ChinaTravel 基准：https://arxiv.org/abs/2412.13682

上一篇
从写成长感悟,到做旅行攻略:一个普通人想“先活下来”的真实想法

发表评论

评论列表

这篇文章还没有收到评论，赶紧来抢沙发吧~

旅荐网

国内旅游目的推荐

用AI做旅行攻略,靠不靠谱

一、之前与现在

二、论文关键点

三、人和AI，其实差不多

四、反思

五、写在最后

从写成长感悟,到做旅行攻略:一个普通人想“先活下来”的真实想法

相关文章

发表评论

评论列表