X-Class: Text Classification with Extremely Weak Supervision

type

Post

status

Published

date

Jun 24, 2022

summary

序言

在本文中，我们探讨了极弱监督下的文本分类，即只依赖类名的表面文本。这是一个比种子驱动的弱监督更具挑战性的设置，因为种子驱动的弱监督允许每个类别有几个种子词。我们选择从表征学习的角度来解决这个问题--理想的文档表征应该导致聚类和所需分类之间几乎相同的结果。特别是，人们可以对同一个语料库进行不同的分类（例如，基于主题和地点），所以文档表征应该对给定的类名有适应性。

我们提出了一个新的框架X-Class来实现自适应表示。具体来说，我们首先通过在每个类别中逐步增加最相似的词来估计类别表征，直到出现不一致。

在一个量身定做的混合类注意机制之后，我们通过上下文词表征的加权平均来获得文档表征。随着每个文档的先验被分配到其最接近的类别，我们再将文档聚类并对准类别。最后，我们从每个聚类中挑选出最有信心的文档来训练一个文本分类器。广泛的实验表明，X-Class可以在7个基准数据集上与种子驱动的弱监督方法相媲美，甚至优于后者。

定义问题：

输入为一组文档Di , i∈{1, ..., n}和一串类名cj , j∈{1, ..., k}。

考虑到不同的标准（如主题、情感和位置）可以对同一组文档进行分类，这里的类名有望提供关于所需分类目标的提示。

我们的目标是建立一个分类器，根据类名将一个（新）文件归入其中一个类。

技术基础：BERT、ATTENTION、GMM

X-Class框架

整个框架分为三大步骤：

(1)估计class-oriented的文档表示

(2)通过聚类进行文档类别对齐

(3)对置信区间内的标签进行有监督文本分类器训练

（1）Class Representation Estimation类别向量

首先，对于每个词，我们通过对其在输入语料库中所有出现的上下文表征进行平均化来获得其静态表征（对于那些被分割成词片的词，我们将所有的词片表征平均为该词的表征）。

然后，我们将一个词w的静态表示定义为：

其中Di,j是文档Di中的第j个单词，ti,j是其上下文的单词表示。

我们将一个类l的综合表征xl定义为基于关键词Kl的排名列表的【加权】平均表征

根据Zipf法则，我们将第i个关键词的权重定义为1/i。也就是

排名靠前的关键词预计会有与类表征更相似的静态表征

对于一个给定的类，这个列表中的第一个关键词是始终是类的名称。

在第i次迭代中，我们检索出与当前类表示法最相似的列表外的词静态表示 与当前的类表示最相似。然后，我们计算一个新的类表示基于所有的i+1个词。如果我们已经有足够多的（例如，T=100）关键词，或者【新的类表示不能产生与我们列表中的前i个关键词相同的集合】，我们就停止这个循环。在我们的实验中，有些类别确实在达到100个关键词之前就停止了

（2）Document Representation Estimation文档向量

我们假设文档中的【每个词】要么与它所期望的类的代表相似，要么与所有的类不相关。

具体来说，我们遵循流行的注意力机制，根据词与类表征的相似性为其分配权重

考虑Di,j，第i个文档第j个词 w，有两种可能的表示：

(1)上下文的词表示ti,j

(2)这个词的静态表示sw。

上下文的表示通过考虑语境来消除具有多种意义的词的歧义，而静态版本则考虑到文档中可能存在的离群值。

因此，使用它们中的任何一个作为注意力机制的单词表征e都是合理的。

给定一个类表征xc，我们定义了两种注意机制。

1、one-to-one: hi,j = maxc{cos(e, xc)}. 它能捕捉到与一个类别的最大相似度。这对于检测与一个类别特别相似的词是很有用的，例如NBA与体育的相似性。

2、one-to-all: hi,j = cos(e, avgc {xc}) 这是与所有类别的平均值的相似度。这是按它与关注类别的一般集合的相关程度对词进行排名的。

结合两个e的选择和两个注意力机制的选择，总共有4种方法来计算每个词的注意力权重。

我们以一种无监督的方式进一步融合这些注意力权重。我们没有直接使用相似度值，而是依靠排名。具体来说，我们根据注意力权重对单词进行递减排序，以获得4个排名的列表。

按照以前的工作（Mekala和Shang，2020；Tao等人，2018），我们利用每个词的这些排名的几何平均值，然后形成一个统一的排名列表。与类表征估计一样，我们遵循Zipf定律，给最后排在第r位的词分配1/r的权重。最后，我们用这些权重从ti,j中获得文档表示Ei

Document-Class Alignment无监督文档分类

一个直接的想法是将文档与类别对齐，即简单地根据它们的表征找到最相似的类别。然而，文档的表征并不一定围绕着类的表征呈球状分布--表征中的维度可以自由地相互关联。为了应对这一挑战，我们利用高斯混合模型（GMM）来捕捉集群的协方差。具体来说，我们将聚类的数量设定为与类的数量k相同，并根据每个文档Di被分配到其最近的类Li的先验知识来初始化聚类参数，如下所示

推广模型

通过上面的步骤，我们获得了高质量的伪标签。

为了将这种知识推广到未见过的文本文件，我们使用这些伪标签作为基础来训练文本分类器。这是一个经典的噪声训练场景（Angluin和Laird，1987；Goldberger和Ben-Reuven，2017）。

由于我们知道我们对每个实例的信心如何（即在GMM中对其分配的集群的后验概率），我们选择最有信心的实例来训练文本分类器（例如，BERT）。默认情况下，我们设置了一个信心阈值δ=50%，也就是说，选择前50%的实例进行分类器训练。