本篇原论文《Towards Generalized Offensive Language Identification》

这篇论文探讨了如何识别网络上的恶意言论和网络欺凌,并评估了现有的自动检测系统在不同环境下的通用性。作者提出了一个名为GenOffense的新基准测试,以检验这些系统的普适性。他们通过实验回答了三个关于通用性的问题,并得出了一些有用的结论,可以帮助开发更加稳健的现实世界中的恶意语言检测系统。关键词包括:恶意语言、大型语言模型、通用性。

论文方法

方法描述

本文提出的GenOffense是一个通用的攻击性语言检测基准测试集,由八个不同的数据集组成,并使用OLID(Offensive Language Identification)级别A的标签映射到OFF(攻击性)和NOT(非攻击性)。其中,TwitterFacebookReddit等不同社交媒体平台的数据被包含在内,涵盖了2017年至2021年不同时期的语言变化,以及针对仇恨言论、攻击性行为等多种任务的数据。此外,GenOffense还考虑了不同话题的差异,使得模型能够在不同领域中表现良好。

为了解决缺乏标准基准测试集的问题,作者构建了GenOffense,以支持通用攻击性语言识别模型的研究。该方法采用了OLID级别的标签映射,将数据集分为OFFNOT两类。此外,GenOffense还包括来自不同社交媒体平台、不同时间段和不同主题的数据,以确保模型具有更好的泛化能力。

方法改进

GenOffense提供了多个公共API和模型供研究人员评估,包括Google Jigsaw开发的Perspective APIToxicBERT,以及基于BERTfBERTHateBERT等。这些模型通过将句子分类为OFFNOT来识别攻击性语言。此外,还可以使用无监督的transformer模型,如BERT和多域特定的transformer模型,如fBERTHateBERT,在攻击性语言识别上进行实验。最后,作者还探索了如何利用大型预训练语言模型(LLMs)进行攻击性语言识别。

解决的问题

GenOffense解决了之前缺乏标准基准测试集的问题,使研究人员能够更好地研究通用攻击性语言识别模型。此外,GenOffense还考虑了不同社交媒体平台、不同时间段和不同主题的数据,以提高模型的泛化能力。

论文实验

本文主要介绍了在GenOffense基准测试中使用不同的机器学习模型对不同类型的攻击性语言进行分类的实验结果。作者首先比较了公共API和自定义模型在GenOffense中的表现,并指出最近的自定义模型(如Davinci-003Falcon-7B)在该基准测试中具有竞争力。然后,作者通过训练LSTMtransformer等不同类型的机器学习模型来解决攻击性语言分类问题,并采用了多种策略来回答三个研究问题,以考虑与训练和测试数据的一般化能力。具体来说,作者采用了以下三种策略:

  1. 一对一策略:针对每个训练集单独训练一个机器学习模型,并在相应的测试集上进行评估;
  2. 所有到一策略:将所有训练集除一个以外的所有集合合并为一个,训练一个单一的机器学习模型,并在留出的那个测试集上进行评估;
  3. 所有策略:将所有训练集合并为一个,训练一个单一的机器学习模型,并在所有八个测试集上进行评估。

此外,作者还进行了少量样本测试,即从每个训练集中随机选择1000、2000、3000等实例,训练多个机器学习模型,并在相应的测试集上进行评估。

最后,作者还比较了不同训练集上的模型性能,并发现OLIDTCCAHSD这三组数据集在测试集上的表现最好,而OHS则表现最差。同时,作者还比较了在单个测试集上使用BERT模型的效果,并发现OLID在该测试集上的表现最佳,而OHS的表现最差。

模型性能

  1. 不同模型的表现:研究展示了各种模型在GenOffense基准测试中的宏F1分数。结果表明:

    • Perspective API 整体表现最佳。
    • Davinci-003 在大模型中表现最佳,紧随其后的是Falcon-7B
    • 模型在不同数据集上的表现差异显著,表明通用性存在挑战。
  2. 通用性:尽管公共API表现优异,大模型也具有竞争力。然而,不同任务和数据集上的表现不一致,显示出需要更加稳健的模型。

实验配置

  • 训练攻击性语言检测模型:研究还探索了在GenOffense基准测试中训练LSTMtransformer模型。LSTM模型的配置包括批次大小、训练轮数、学习率和LSTM单元数等参数。

论文总结

论文特点

  1. 填补了目前缺乏对攻击性文本检测系统和数据集的一般化评估的研究空白。
  2. 构建了一个通用的攻击性文本检测基准——GenOffense,并对其进行了全面的评估。
  3. 使用了不同的训练设置(如完全监督、少样本和零样本)来训练各种机器学习模型,并在不同数据集上进行了评估。
  4. 回答了三个研究问题:一般性、数据集大小和领域特定性,并提供了相关结论。

方法创新点

  1. 定义了一般性为在不同数据集之间保持一致性能的能力,并构建了一个包含八个来自不同社交媒体平台的数据集的通用攻击性文本检测基准——GenOffense
  2. 评估了公开可用的应用程序端点和模型,包括最新的预训练语言模型(LLMs),并讨论了结果。
  3. 通过使用不同的训练设置(如完全监督、少样本和零样本)来训练各种机器学习模型,并在不同数据集上进行了评估。

未来展望

  1. 作者计划将GenOffense扩展到支持多语言攻击性文本数据集,并在不同语言下进行实验。
  2. 作者希望进一步探索使用流行的增强技术(如随机插入和删除)构造对抗测试集的机会,以探索攻击性文本检测模型的探测能力。
  3. 作者认为需要进一步调查Reddit数据集(OHS)的低性能,因为它们的源材料(Reddit)的特殊性可能导致性能下降。
论文中出现的相关链接
  1. GenOffense
  2. ToxicBERT
  3. MPT-7B-Instruct
  4. Falcon-7B-Instruct
  5. T0-3B