旅荐网

您现在的位置是:首页 > 国内旅游目的推荐 > 正文

国内旅游目的推荐

【数据分享-42】SD | 基于在线旅游博客构建的中国游客流动网络数据集

admin2026年02月27日 23:30:58国内旅游目的推荐1
【数据分享-42】SD | 基于在线旅游博客构建的中国游客流动网络数据集

编辑 | 疯子同学

排版 | 疯子同学

论 文 信 息

英文标题:A dataset of tourist mobility networks across China derived from online travel blogs

中文标题:基于在线旅游博客构建的中国游客流动网络数据集

期刊:Scientific Data (Nature Portfolio 期刊)

时间:13 February 2026

作者:Yunhao Zheng, Jinhua Wang, Yi Zhang*, Naixia Mou, Yu Liu

机构:北京大学地球与空间科学学院遥感与地理信息系统研究所;山东科技大学测绘与空间信息学院;西南联合研究生院

Received:26 September 2025

Accepted:31 January 2026

DOI:https://doi.org/10.1038/s41597-026-06780-9

CODE:https://opensource.org/license/mit

DATA:https://creativecommons.org/licenses/by/4.0/

摘    要

Nowadays, tourism practices face increasingly intensified flows of people, making it imperative to explore the tourism space through the lens of mobility. To examine nationwide tourist mobility, this study collected online travel blog data from Qunar.com, a leading travel services platform in China, to construct tourist mobility networks across China. In these networks, attractions are represented as nodes, while tourist movements between them, derived from blog data, are represented as weighted and directed edges. To capture different travel contexts, the study also develops mobility networks categorized by departure season and travel partners. All networks are released in a simple, accessible format to support future research.

如今,旅游活动面临着日益加剧的人口流动,这使得通过流动性的视角来探索旅游空间变得势在必行。为了研究全国范围内的游客流动性,本研究收集了中国领先的旅游服务平台去哪儿网(Qunar.com)上的在线游记数据,以构建全中国的游客流动网络。在这些网络中,旅游景点被表示为节点,而从游记数据中提取的游客在景点间的移动则被表示为有向加权边。为了捕捉不同的旅行情境,本研究还开发了按出发季节和同行伴侣分类的流动网络。所有网络数据均以简单、易获取的格式发布,以支持未来的研究工作

引    言

随着游客流动的日益频繁,从流动性视角研究旅游空间变得至关重要。传统的问卷和实地调查受限于地理范围,难以捕捉全面的流动模式,而众包大数据(如旅游博客)因其易获取性成为理想的数据源

本论文致力于构建并公开一个基于中国全国范围的游客流动网络(Tourist Mobility Networks)数据集。

问题定义如何从半结构化的在线旅游博客中自动提取海量游客轨迹,并将其转化为标准化的复杂网络数据格式 。

(1)Input:包含游客时间顺序访问景点的博客轨迹序列

(2)Output:以节点文件(记录景点地理与属性信息)和边文件(记录有向加权转移量)形式存储的流动网络集合,数学上对应加权邻接矩阵

相关领域工作

关键工作包括使用UGC(照片、GPS日志、博客)构建旅游网络 。代表性应用如 Leung 等人、Jin 等人、Zheng 等人以及 Haris 等人的研究,他们广泛使用博客数据提取流动语义与模式

小 编 总 结

尽管在线旅游博客存在用户群体偏差(如偏向休闲游、年轻白领),但其海量数据聚合后依然能够有效反映真实世界宏观与中观层面的游客空间流动结构与拓扑特征。

作者没有陷入使用复杂深度学习模型去强行解析无结构游记文本的泥潭,而是精准锁定了“去哪儿网”自带半结构化时间线和POI绑定功能的博客系统。这使得从海量文本中提取精确的时空轨迹变成了一项高效的规则匹配工程,从而成功将研究尺度从单点城市拉升到了全国制图的维度。

疑问/不足

(1)一种替代方案是使用基于大语言模型(LLMs)的通用信息抽取技术,这有望在未来融合携程、马蜂窝等多源异构游记,但计算成本会呈指数级上升。
(2)缺乏用户的真实轨迹驻留时间(游记只记录了顺序),且覆盖的人群广度不如电信信令数据客观。
(3)透明披露了数据清洗中被丢弃的无效数据量(从最初8.2万篇清洗至5.2万篇有效网络构建博客)。
(4)可结合数据集中提供的标签属性(Label_ZH/EN),进行“语义图神经网络”建模;或者引入重力模型(Gravity Model),预测两个从未被关联的景区之间产生游客流动的概率。
(5)带孩子的家庭出游网络,其平均最短路径是否比独自出行的网络更短、聚集度更高(倾向于高密度核心景区)?提供的情境子集直接为回答此类问题铺平了道路。
(6)未来类似工作可能扩展至外卖骑手轨迹、物流微观配送网络等领域的开源构建。
(7)一个遗憾是“去哪儿”博客功能已趋于停滞,导致该截面数据集难以像气象数据那样持续滚动更新 。此外,博客自述的“出发时间”与实际访问单一景点的精确日期仍有时间粒度上的模糊,这限制了微观时间序列预测应用。

代表性参考文献

(1)Shoval, N. & Isaacson, M. (2009). Tourist Mobility and Advanced Tracking Technologies. Routledge(奠定旅游流动性理论基础)

(2)Asero, V., Gozzo, S. & Tomaselli, V. (2016). Building Tourism Networks through Tourist Mobility. J TRAVEL RES, 55, 751(引入网络分析范式)

(3)Jin, C., Cheng, J. & Xu, J. (2018). Using User-Generated Content to Explore the Temporal Heterogeneity in Tourist Mobility. J TRAVEL RES, 57, 779(使用旅游博客研究时空行为的前置工作)

(4)Zheng, Y., et al. (2021). Chinese tourists in Nordic countries: An analysis of spatio-temporal behavior using geo-located travel blog data. COMPUT ENVIRON URBAN, 85, 101561(核心技术:Louvain社区发现算法)

(5)Blondel, V. D., et al. (2008). Fast unfolding of communities in large networks. J STAT MECH-THEORY E, 2008, P10008(信令轨迹与流动网络对比).

关 键 图 表

End

- 本推文用于记录学习分享交流,版权归原作者所有。笔记难免疏漏,诚挚建议您阅读原文献,以获取完整信息。若有不当或侵权,请留言联系小编,将第一时间删除或修改!-

点点赞

点分享

点在看

点击 阅读原文 了解更多详情

发表评论

评论列表

  • 这篇文章还没有收到评论,赶紧来抢沙发吧~