正在加载数据...
欢迎来到兰州大学应急管理研究中心!

[硕]基于 RoBERTa-DCNN 的电力新闻关系抽取---高心萌(2024届 应用统计专业)

文章来源: 作者: 发布时间:2024年09月07日 点击数: 字号:【

基于RoBERTa-DCNN 的电力新闻关系抽取

高心萌

2024届 应用统计专业

中文摘要:近年来,随着互联网和信息技术的迅猛进步,人们逐渐展现出对处理庞杂碎片化信息的需求,这一趋势在电力行业尤为明显。该领域充斥着大量复杂的专业术语和信息密集型内容,如何高效提取所需信息成为了一个亟待解决的难题。常见的解决方案就是基于实体关系抽取构建知识图谱,但传统方法中,领域专家需手动构建实体关系三元组,这种方式既耗时又费力。此后,随着深度学习技术的发展,预训练模型成为关系抽取研究者的首选工具,但传统的预训练模型因其对词向量的单向处理和对元素的固定映射,性能瓶颈明显。因此,亟需探索更为先进的方法,以应对电力行业信息处理的挑战。

为了探究解决目前电力行业信息处理的问题,本文首先在电力行业相关新闻网上,人工爬取了2000条新闻数据,并参照专业电力领域知识,对新闻内容中的实体关系进行了手动标注。在建立良好数据集的基础上,本文提出了一种融合了RoBERTa和膨胀卷积神经网络的架构——RoBERTa-DCNN,创新性地在特征提取阶段就引入了膨胀卷积神经网络,辅以词嵌入编码向量的方式,使得模型能够提取到更为丰富和准确的输入特征。同时为了验证模型的优越性,本文还训练了许多其它相似架构的模型,进行了详细的对照实验。在完成实体关系抽取任务的基础上,本文还构建了电力知识相关的知识图谱,并展示了知识图谱技术是如何解决电力行业信息处理的挑战的。

经过一系列严谨的实验验证,本文提出的方法在电力领域实体关系抽取任务上取得了令人满意的效果,与其他模型相比,本文的方法展现出了独特的优越性,这充分证明了RoBERTa预训练模型与膨胀卷积神经网络结合的有效性。本文提出的模型很好地兼顾了准确率和训练效率,具体而言,RoBERTa-DCNN模型在准确率方面,以0.7794超越了常见的BERT-CNN模型、RoBERTa-BiLSTM模型。同时,在保持相近的准确率下,在训练效率上打败了主流的RoBERTa-CNN模型。这一研究结果不仅为电力行业新闻的自动化实体关系抽取和知识图谱构建提供了新的技术路径,同时也为电力行业的数字化转型和智能化升级提供了有力的技术支持。

  关键词:关系抽取,RoBERTa,卷积神经网络,电力新闻,知识图谱