知识图谱 | 论文导读之隐式篇章关系识别


本次论文导读给大家介绍3篇基于论元对交互(Argument Pair Interaction)的隐式篇章关系识别论文:

[1] Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network (ACL, 2016)

[2] Working Memory-Driven Neural Networks with a Novel Knowledge Enhancement Paradigm for Implicit Discourse Relation Recognition (AAAI, 2020)

[3] On the Importance of Word and Sentence Representation Learning in Implicit Dis-course Relation Classification (IJCAI, 2020)

任务介绍

篇章(Discourse)是指由一系列连续的子句、句子或语段构成的语言的整体单位。一篇文章、一段会话都可以看成是篇章。一个篇章内的各个文本单元(子句或句子)之间不是简单的排列堆叠,而是具有一定的层次结构和语义关系。

篇章分析(Discourse Parsing)旨在研究篇章的内在结构,并理解文本单元之间的逻辑关系,从而挖掘出自然语言文本内丰富的层次结构和语义信息[1,2]

篇章关系识别(Discourse Relation Recognition)是篇章分析的核心任务之一,旨在识别篇章中两个文本单元之间的逻辑关系[3],并对识别出的关系对进行分类,例如“时序关系、因果关系”等等。

篇章分析和篇章关系识别对自然语言的理解和生成起着至关重要的作用,在知识图谱构建、自动问答系统、机器自动文摘等自然语言处理任务上具有广泛的潜在应用价值。例如,可以将篇章关系作为连边,构建以事件为中心的知识图谱;因果关系可以为自动问答系统提供事实型的答案等等。

知识图谱 | 论文导读之隐式篇章关系识别
知识图谱 | 论文导读之隐式篇章关系识别

篇章关系识别包括显式篇章关系识别和隐式篇章关系识别两种类型[4,5]。图1展示了宾州篇章树语料库中(Penn discourse treebank,PDTB)的显式篇章关系和隐式篇章关系的标注示例。在PDTB语料库中,篇章的文本单元定义为论元(Argument),即陈述了一个问题、事件或观点的句子、从句或连续的句子/从句序列,并且包含至少一个谓词[4,5]

显式篇章关系的论元间存在连接词(connective), 如because, but,so等。显式篇章关系识别任务通常对连接词直接进行分类和消歧来判断两个论元间存在何种逻辑关系。隐式篇章关系的论元间没有连接词,需要根据论元的语义及其上下文内容推理出论元间是否存逻辑关系以及何种逻辑关系。

知识图谱 | 论文导读之隐式篇章关系识别
知识图谱 | 论文导读之隐式篇章关系识别

图1:显式篇章关系和隐式篇章关系标注示例

论元对交互

(Argument Pair Interaction)

篇章关系中的词对(Word-pair)是指分别来自两个不同论元A1和A2的词语,所形成的词语对(wi, wj) ∈ A1 × A2。两个论元中的某些词对,可能明确的指示了某一种篇章关系。如图2中的词对

(rain,wet),暗示两个论元间可能存在因果关系。

知识图谱 | 论文导读之隐式篇章关系识别
知识图谱 | 论文导读之隐式篇章关系识别

图2:因果关系的词对示例

一些研究将两个论元中的所有词语按照笛卡尔乘积的形式生成词对交互矩阵,再通过神经网络转换为论元交互对的向量表示进行关系分类,如图3所示结构。

知识图谱 | 论文导读之隐式篇章关系识别
知识图谱 | 论文导读之隐式篇章关系识别

图3:使用词对交互矩阵进行隐式篇章关系识别示例

实验结果表明,这种基于词对交互矩阵的论元对交互向量表示可以有效的提升隐式篇章关系识别的性能,因此被广泛的关注和研究。本文介绍了3篇最新发表在自然语言处理顶级会议上,基于论元对交互的隐式篇章关系识别论文。

论文介绍

[1] Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network (ACL, 2016)

1)简介

本文利用双向长短期记忆神经网络(Bi-LSTM)捕获论元的上下文语义,并基于门控相关网络(Gated Relevance Network, GRN)构建词对交互矩阵,进行隐式篇章关系分类,方法结构如图4所示。

知识图谱 | 论文导读之隐式篇章关系识别
知识图谱 | 论文导读之隐式篇章关系识别

图4:提出方法的框架结构

2)模型介绍

首先,利用Turian等人[6]提供的预训练词向量,将一对论元中的每个词语用低维稠密的向量表示:X =(x1, x2,…, xn,)和Y=(y1, y2,…, ym)。

接着,以词向量表示作为输入,通过Bi-LSTM网络捕获论元的上下文语义表示Xh =(xh1, xh2,…, xhn)和Yh=(yh1, yh2,…, yhm)。(模型训练时,所有论元被补充为一致的长度)

然后,使用Bi-LSTM输出的每个词的向量构建词对交互矩阵,矩阵中每个词对的相关性分数通过门控相关网络计算得出,公式如下:知识图谱 | 论文导读之隐式篇章关系识别

其中,MV为参数矩阵,f是应用了哈达玛乘积的标准非线性函数。网络包含了双线性模型:知识图谱 | 论文导读之隐式篇章关系识别

和单层神经网络:知识图谱 | 论文导读之隐式篇章关系识别

g为合并上面两个模型的门控机制:知识图谱 | 论文导读之隐式篇章关系识别

随后,应用最大池化策略,在矩阵中所有3×3的子区域选取分数最大的数值并拼接为向量,最后输入多层感知器(全连接层和softmax)进行分类。

3)实验结果

如表1所示,实验结果表明:1)本文提出的方法(Bi-LSTM+GRN)在PDTB语料上的4种篇章关系识别中均优于同期其他模型;2)仅使用LSTM和Bi-LSTM捕获论元的上下文信息,而没有使用论元对交互捕获两个论元之间的交互信息的模型性能最低;3)用LSTM(+NTN)和Bi-LSTM(+NTN)替代词嵌入(Word+NTN)构建的论元对交互模型,性能有显著的提升;4)使用基于神经张量网络(NTN)改进的门控相关网络(GRN)的模型(Bi-LSTM+GRN),在实验中取得最优结果。

知识图谱 | 论文导读之隐式篇章关系识别
知识图谱 | 论文导读之隐式篇章关系识别

表1:实验结果对比

[2] Working Memory-Driven Neural Networks with a Novel Knowledge Enhancement Paradigm for Implicit Discourse Relation Recognition (AAAI, 2020)

1)简介

现有隐式篇章关系识别模型仅仅利用了句子内部的文本信息,而忽略了篇章外部丰富的知识。本文提出了一种知识增强的注意力神经网络(Knowledge-Enhanced Attentive Neural Network, KANN)进行隐式篇章关系识别。

知识图谱 | 论文导读之隐式篇章关系识别
知识图谱 | 论文导读之隐式篇章关系识别

图5:KANN网络框架结构

2)模型介绍

本文提出的知识增强的注意力神经网络模型分为两个模块:即时记忆模块利用互相注意力集中捕获论元间的互动信息,长期记忆模块捕获外部知识。

a)即时记忆模块

首先,利用预训练的GloVe词向量,将一对论元中的每个词语用低维稠密的向量表示X=(x1, x2,…,xn)和Y=(y1, y2,…, ym)。以论元的词向量表示作为输入,通过Bi-LSTM网络捕获论元的上下文语义表示R1=(xh1, xh2,…, xhn)和R2=(yh1, yh2,…, yhm)。(模型训练时,所有论元被补充为一致的长度)

 然后,使用Bi-LSTM输出的每个词的向量作为输入,构建论元对交互矩阵,公式如下:知识图谱 | 论文导读之隐式篇章关系识别

矩阵G即为即时记忆模块的输出:互相注意力矩阵。

b)长期记忆模块

首先,分别识别两个论元中的实体并获得实体集E1和E2,然后采用与词对互动矩阵相同的方式,基于实体对(e1i, e2j)∈ E1 × E2构建实体互动矩阵。使用TransE[7]模型计算每个实体对中两个实体词嵌入间的语义关系作为该实体对的知识嵌入,构建包含了外部实体知识的知识矩阵K,矩阵中每个实体对向量的计算公式如下:知识图谱 | 论文导读之隐式篇章关系识别

接着,在知识矩阵K上应用注意力机制和激活函数,获得相关知识注意矩阵K‘。

c)知识增强的注意力神经网络

将即时记忆模块输出的论元对交互矩阵G和长期记忆模块输出的知识注意矩阵K‘相加获得知识增强的注意力矩阵G。在矩阵G上采用行平均池化和列平均池化分别获得论元1和论元2的价值向量(Importance Vector),然后分别与对应的论元上下文语义表示R1和R2点乘,作为两个论元的隐式增强表示。显式增强表示则通过计算知识矩阵K中实体对的权重获得。

最后,两个论元的隐式增强表示与显示增强表示被拼接起来,经过多层感知器(全连接层和softmax)进行隐式篇章关系分类。

3)实验结果

如表2所示,本文提出的KANN模型在PDTB语料上进行隐式篇章关系4分类时,结果优于其他现有模型。

知识图谱 | 论文导读之隐式篇章关系识别
知识图谱 | 论文导读之隐式篇章关系识别

表2:4分类实验结果对比

另外,针对每种隐式篇章关系进行2分类时,本文提出的KANN模型在Comparison关系和Expansion关系分类中要优于其他模型。

知识图谱 | 论文导读之隐式篇章关系识别
知识图谱 | 论文导读之隐式篇章关系识别

表3:2分类实验结果对比

[3] On the Importance of Word and Sentence Representation Learning in Implicit Discourse Relation Classification (IJCAI, 2020)

1)简介

本文提出结合上下文模块、双边匹配模块和全局信息模块构建隐式篇章关系识别模型,并通过实验验证了这种多层次的表示学习模型在本任务中性能优异。具体来说,上下文模块将句子中的上下文信息整合到论元里词语的表示中,双边匹配模块学习两个论元间的交互信息,全局信息模块融合了注意力机制和门控机制深入理解文本。

知识图谱 | 论文导读之隐式篇章关系识别
知识图谱 | 论文导读之隐式篇章关系识别

图6:提出方法的框架结构

2)模型介绍

图3展示了提出模型的框架结构,包括6个组成部分,自下而上分别为:

a)混合表示层分别将两个论元中的词语用Liu等人[8]提出的一种混合字级嵌入和词级嵌入的模型RoBERTa进行表示,并作为下一层的输入;

b)上下文表示层采用BERT预训练模型中的Next Sentence Prediction (NSP)任务训练,学习词语在论元中的上下文信息增强混合词嵌入的表示。

c)双边匹配层采用Wang等人[9]的方法,计算当前词语与另一个论元中所有词语的余弦相似度,如图7所示,包括全匹配、最大池化匹配、注意力匹配、最大注意力匹配四种方式。每种计算过方式分别输出一个结果,拼接起来作为双边匹配层的输出。

d)信息融合层将(b)和(c)的输出拼接起来作为输入,利用门控机制和注意力机制给论元中的每个词语分配不同的权重。

e)聚合层用卷积神经网络(CNN)和最大池化策略,将每个论元聚合为长度相同向量。

f)输出层用Highway network神经网络预测隐式篇章关系的概率分布,并用softmax进行分类。

知识图谱 | 论文导读之隐式篇章关系识别
知识图谱 | 论文导读之隐式篇章关系识别

图7:余弦相似度计算方法

3)实验结果

如表5所示,本文提出的模型在PDTB语料上进行隐式篇章关系实验结果交其他现有模型有显著提升。

知识图谱 | 论文导读之隐式篇章关系识别
知识图谱 | 论文导读之隐式篇章关系识别

表5:本文的实验结果对比

参考文献

[1] Nianwen Xue, Hwee Tou Ng, Sameer Pradhan, Rashmi Prasad, Christopher Bryant and Attapol Rutherford. 2015. The conll-2015 shared task on shallow discourse parsing. In Proceedings of the Twentieth Conference on Computational Natural Language Learning-Shared Task (CoNLL ’16). The Association for Computational Linguistics, Stroudsburg, PA, USA, 1-19.

[2] Nianwen Xue, Hwee Tou Ng, Sameer Pradhan, Attapol Rutherford, Bonnie Webber, Chuan Wang and Hongmin Wang. 2016. The conll-2016 shared task on shallow discourse parsing. In Proceedings of the Nineteenth Conference on Computational Natural Language Learning-Shared Task (CoNLL ’15). The Association for Computational Linguistics, Stroudsburg, PA, USA, 1-16.

[3] Emily Pitler, Mridhula Raghupathy, Hena Mehta, Ani Nenkova, Alan Lee and Aravind K. Joshi. 2008. Easily Identifiable Discourse Relations. In 22nd International Conference on Computational Linguistics (COLING ’08). The Association for Computer Linguistics, Stroudsburg, PA, USA, 87-90.

[4] Eleni Miltsakaki, Rashmi Prasad, Aravind K. Joshi and Bonnie L. Webber. 2004. The Penn Discourse TreeBank. In European Language Resources Association (LREC ’04). The Association for Computational Linguistics, Paris, France, 1-4.

[5] Rashmi Prasad, Nikhil Dinesh, Alan Lee, Eleni Miltsakaki, Livio Robaldo, Aravind K. Joshi and Bonnie L. Webber. 2008. The Penn Discourse TreeBank 2.0. In European Language Resources Association (LREC ’08). The Association for Computational Linguistics, Paris, France, 1-8.

[6] Joseph Turian, Lev Ratinov, and Yoshua Bengio. 2010. Word representations: a simple and general method for semi-supervised learning. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL ’10). The Association for Computational Linguistics, Paris, France, 384-394.

[7] Bordes, Antoine, Usunier, Nicolas, Garcia-Duran, Alberto, Weston Jason and Yakhnenko Oksana. 2013. Translating Embeddings for Modeling Multi-relational Data. In 27th Annual Conference on Neural Information Processing Systems 2013(NeurIPS ’13). MIT Press, Cambridge, MA, USA, 2787-2795.

[8] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer and Veselin Stoyanov. 2019. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.

[9] Zhiguo Wang, Wael Hamza and Radu Florian. 2017. Bilateral multi-perspective matching for natural language sentences. In Proceedings of the 26th International Joint Conference on Artificial Intelligence (IJCAI ’17). Elsevier, Amsterdam, Netherlands, 4144-4150.

[10] Chen, J., Zhang, Q., Liu, P., Qiu, X., & Huang, X. J. (2016, August). Implicit discourse relation detection via a deep architecture with gated relevance network. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 1726-1735).

[11] Guo, F., He, R., Dang, J., & Wang, J. (2020, April). Working memory-driven neural networks with a novel knowledge enhancement paradigm for implicit discourse relation recognition. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 34, No. 05, pp. 7822-7829).

[12] Liu, X., Ou, J., Song, Y., & Jiang, X. (2020). On the Importance of Word and Sentence Representation Learning in Implicit Discourse Relation Classification. arXiv preprint arXiv:2004.12617.

来源:MINS,本文观点不代表自营销立场,网址:https://www.zyxiao.com/p/136011

发表评论

登录后才能评论
服务中心
服务中心
联系客服
联系客服
侵权联系 投诉举报
返回顶部
河南,挺住!郑州,挺住!一起为他们加油!!