Understanding Attention for Text Classification
type
Post
status
Published
date
Apr 29, 2022
summary
本文从极性分数和注意力分数出发讨论了在哪些条件下注意力机制可能变得更容易解释,并展示了这两个指标之间的相互作用如何影响模型的性能。
tags
Machine Learning
paper summary
category
阅读笔记
password
slug
icon
- ACL2020
- Xiaobing Sun , Wei Lu
- 10.18653/v1/2020.acl-main.312
注意机制(Bahdanau等人,2015)已被用作广泛的NLP模型的一个重要组成部分。通常情况下,注意力层产生一个要关注的输入表征的分布。这种分布随后被用于构建输入的加权组合,然后被某些下游模块所采用。
What are the Research Questions?
在某些情况下,许多具有较大注意力权重的token是形容词或副词,它们传达了关于label的明确信号;另一方面,在其他一些情况下,我们也注意到,这些有用的词可能并不总是能够得到显著的关注权重,特别是在某些超参数的配置下,这使得关注机制的可解释性降低。作者提出以下问题:
- 一个词的注意权重可以看作对其重要性的测量,且在很大程度上是局部的和特定于实例的(local and instance specific),是否有一个与实例无关的,用来评估一个语料库中某个token的重要性的指标?如果有的话,这样的数在解释整个注意机制方面会起到什么作用?
- 当注意力机制解释性变差时,性能方面会受到怎样的影响?
What are the Academic Insights?
通过研究梯度更新过程来了解注意力的内部机制(实证文本分类任务),检查其在训练期间接近局部最小值时的行为。文章对每个token分析它的极性分数与注意力分数、并讨论了在哪些条件下注意力机制可能变得更容易解释,两个分数之间的相互作用如何影响模型的性能
衡量token和label关系,f为某个token在正面或负面实例出现频率,若γ∈ (0.5, 1) 且频率大于5,则token为正面
第j个token的attention score计算公式如下,λ为后文进一步研究的超参数
- 注意力分数(而不是注意力权重)能够捕捉到语料库中单词标记的整体绝对重要性,一个token和标签之间的关联程度可能影响它们的注意力得分。
- 与特定标签密切相关的极性标记仍有可能比中性标记有更大的注意力得分,就注意力权重而言,正面的标记似乎比负面的标记得到的分数要低。正面标记的注意分数普遍低于负面标记的分数
- 中性标记物有一些权重较大的离群值(出现在方框外的圆圈是离群值)
- 在不同标签的实例中均匀出现的中性标记很可能被分配到较小的注意力分数和极性分数,使它们的影响相对较小
- 对超参数λ,即使λ很大,积极和消极的标记最后的积极注意力分数一般都比中性标记的分数大。然而,从经验上看,我们并没有观察到测试成绩的明显改善。
- 当某些超参数被适当设置时(例如d^1/2),注意力机制倾向于将较大的注意力分数分配给那些与特定标签实例有密切联系的标记(强极性token,与特定标签关联度高)。这种标记的极性分数往往会产生大的绝对值,这对预测是有帮助的。
Why does it matter?
- 本文从注意力分数和极性分数角度研究了注意力机制,让我们更好地理解模型的基本工作原理。分析还揭示了可能影响注意力机制可解释性的因素,提供了关于为什么即使在注意力分数似乎不太可解释的情况下,模型仍然是稳健的理解。
The Most Important Chart from the Paper:



Abstract
注意力已被证明在许多自然语言处理(NLP)任务中是成功的。最近,许多研究人员开始研究NLP任务中注意力的可解释性。许多现有的方法都集中在研究局部注意力权重是否能反映输入表征的重要性。在这项工作中,我们提出了一项研究,通过研究梯度更新过程来了解注意力的内部机制,检查其在训练期间接近局部最小值时的行为。我们建议对每个单词标记分析以下两个数量:它的极性分数和它的注意力分数,其中后者是对该标记的重要性的一个全面评估。我们讨论了在哪些条件下注意力机制可能变得更(或更)容易解释,并展示了这两个数量之间的相互作用如何影响模型的性能。
Method
考虑以下三种不同类型的token。
- 正面标记:只在正面训练实例中经常出现的标记,
- 负面标记:只在负面训练实例中经常出现的标记
- 中性标记:在正面和负面训练实例中都均匀出现的标记。
我们也称前两种类型的标记为极性标记。为了便于分析和讨论,我们假设每个标记属于这3种类型中的任何一种,并且我们假设数据集是平衡和对称的,虽然这些假设有的看起来很强,但有了这些假设会大大简化我们的分析。
正如我们在后面的实验中所看到的,即使上述的一些假设在一些真实的数据集中不成立,我们的发现在实践中仍然有效。使损失最小化的梯度下降算法`可以解释为使用欧拉方法对梯度流方程进行整合,写为:
考虑词汇中的标记e,其向量表示为e。让我们对标记e的极性得分se进行分析。这个标记可能出现在训练集的某个地方。我们把e (t) j≡e写成当且仅当这个标记e作为第t个实例中的第j个标记出现时。梯度更新迭代将被表示为。