专栏名称: 中国地理资源期刊网
致力于促进和服务于中国地理科学的创新与发展。
目录
相关文章推荐
财宝宝  ·  我家婆娘是60.35公斤。也没什么。关键看肉 ... ·  20 小时前  
财宝宝  ·  你怎么称呼你家那个120斤的美美哒? ... ·  3 天前  
财宝宝  ·  这还要你教?滚!-20250208223758 ·  3 天前  
51好读  ›  专栏  ›  中国地理资源期刊网

网络游记文本中旅游行程链提取方法

中国地理资源期刊网  · 公众号  ·  · 2024-05-20 10:21

正文

引用格式:
阮陵,葛军莲,张翎,等.网络游记文本中旅游行程链提取方法[J].地球信息科学学报,2024,26(2):477-487. [ Ruan L, Ge J L, Zhang L,et al. A method of itinerary chain extraction from online travel notes[J]. Journal of Geo-information Science, 2024,26(2):477-487.]
DOI: 10.12082/dqxxkx.2024.230570


引言

旅游行程链是按照时间顺序线性排列的旅游者停留节点有序集合,而网络游记文本正是旅游行程链的自然语言描述和表达。从网络游记文本中提取旅游行程链,分析行程结构,能给游客的行程制定、线路设计提供重要的参考。然而,网络游记文本中,语句逻辑关系不严谨,部分信息表达模糊、上下文相互关联,如何准确的自动提取行程信息,是一个值得深入研究的问题。现有研究提出了生成树算法、隐马尔科夫模型等方法,但是依赖于大量的数据标注、外部先验知识或者历史行程统计模型,方法的应用普适性还有待提升。

当前深度学习类方法在地理实体识别、属性抽取等方面已经取得了极高的准确率,但在复杂文本地理信息提取任务中,规则匹配仍然是一种效率较高的方法。本文在深入分析网络游记文本段落结构和表达特点的基础上,归纳行程节点和节点次序关系的句法表达规则,提出了基于句法规则的旅游行程链提取方法,涵盖了行程节点的识别、节点次序关系的识别和旅游行程链的生成。同时,本文采集了蚂蜂窝平台17226篇南京市网络游记文本数据,采用最长公共子序列算法,开展了本文方法的试验验证。通过对比分析,本文方法提取的旅游行程链和人工识别的真实行程链相似度达到86.14%,高于实体关系抽取领域的BERT-BiLSTM-CasRel深度学习模型的83.1%。相比实体关系抽取深度学习模型依赖于大量的信息标注,本文方法具有较强的适用性,仅需要构建区域旅游点名录,就能完成游记文本的行程重构。对比“文言一心”语言大模型,其在短文本行程节点识别中准确率高,但存在上下文关联不足、提取信息冗余等问题,还需要进一步的筛选和处理。但是,本文方法基于句法规则,有一定的局限性,灵活度较差,准确率提升有一定的上限。

阮 陵



作者简介



阮陵 博士

安徽师范大学地理与旅游学院讲师,硕士生导师,主要从事旅游地理、旅游情感、旅游时空大数据等方面的研究。主持国家自然科学基金青年项目1项,参加2项国家标准、2项旅游行业标准、6项江苏省地方标准的编制,获得国家发明专利2项,发表学术论文10余篇。


全文请在中国知网或学报官网下载



















































































请到「今天看啥」查看全文