【ML Tips】长文本处理方法
type
Post
status
Published
date
Jul 27, 2022
summary
tags
category
阅读笔记
password
slug
icon
方法 | 描述 | 是否丢失信息 | 计算开销(1最低) |
截断 | 从头或尾选取一个最大长度,将多余文本删除 | 是 | 1 |
头部+尾部按比例截断 | 根据一定比例从头部尾部选取文本 | 是 | 1 |
分割、嵌入、拼接 | 将长文本分割为多个短文本,用文本嵌入方法对每个部分进行嵌入,最后将嵌入拼接 | 否 | 5 |
提高transformer模型的NTA | 提高模型的NTA极限 | 如果文本仍高于NTA则丢失 | 3-4 |
编码器解码器模型进行句子选择 | 单独使用一个编码解码器模型从长文本中选择更相关的部分 | 是,但更少 | 3 |
MemRecall | 使用另一个transformer模型判断文本中哪些部分与NLP任务更相关 | 是,但更少 | 3 |
方法1-2是会损失信息,但计算成本最低。
方法3和方法4没有损失信息,但是计算成本很高,因为必须多次应用基础语言模型,并且需要额外的步骤,以便将部分提取的信息合并到一个单一的实例级表示。
在transfomer模型领域,研究人员提出将NTA从512个增加到4096个标记,并对核心关注机制进行了大量的修改
最后,表1中最后两个方法允许损失信息,但旨在以智能的方式选择原始文本实例的一部分,以保留最相关的元素。由于其深度学习的性质,这些方法很复杂,其计算成本大大高于普通截断方法。
总而言之,寻求实现更好的长文本分类的研究人员都在关注信息损失和计算成本之间的权衡。