2025-05-29 21:31来源:本站
陈强尼(Johnny Chan)
被掩盖的有害信息让用户——尤其是弱势群体——暴露在它们的负面影响之下。
分析-决心在网上传播有害信息的人已经采取掩盖他们的话来绕过自动审核过滤器。
用户可能会用数字或符号代替字母,例如,将“You're st00pid”写成“You're stupid”。
另一种策略是将单词组合起来,比如“白痴脸”。这样做掩盖了系统寻找个别有毒词语的有害意图。
类似地,可以用空格或附加字符改变有害的术语,例如“ha te”或“h@te”有效地通过基于关键字的过滤器。
虽然意图仍然是有害的,但传统的审核工具往往会忽略这些信息。
这使得用户——尤其是弱势群体——暴露在它们的负面影响之下。
为了解决这个问题,我们开发了一种新的预处理技术,旨在帮助调节工具更有效地处理隐藏毒性的微妙复杂性。
我们的工具与现有的审核一起工作。它充当智能助手,通过重组和精炼输入文本,为更深入、更准确的评估准备内容。
通过解决用户用来掩饰有害意图的常见技巧,它确保审核系统更有效。
该工具执行三个关键功能。
它首先简化了文本。不相关的元素,如过多的标点符号或多余的字符,被删除,使文本直接和准备e估值。
然后,它对所写的内容进行标准化。解决了拼写、措辞和语法上的差异。这包括解释故意的拼写错误(将“hate”写成“h8te”)。
最后,它寻找模式。反复出现的策略,如分解有毒词语(“我不想这么做”),或将它们嵌入良性短语,都被识别和规范化,以揭示潜在的意图。
这些步骤可以分解像“白痴脸”这样的复合词,或者规范像“你很笨”这样的修饰短语。
这使得有害内容对传统过滤器可见。
重要的是,我们的工作不是重新发明轮子,而是确保现有的轮子尽可能有效地发挥作用,即使面对伪装的有毒信息。
该工具的应用程序扩展到各种在线环境。
对于社交媒体平台来说,它增强了检测有害信息的能力,为用户创造了一个更安全的空间。这对保护年轻观众尤其重要,因为他们可能更容易受到网络暴力的伤害。
通过捕捉微妙的毒性形式,该工具有助于防止欺凌等有害行为不受控制地持续存在。
企业也可以使用这项技术来保护他们的在线形象。
负面活动或对品牌的隐蔽攻击通常采用微妙和伪装的信息来避免被发现。
通过在内容被审核之前处理这些内容,该工具可以确保企业能够迅速应对任何声誉威胁。
此外,监督公共话语的政策制定者和组织也可以从这一体系中受益。
潜在的毒性,尤其是在两极分化的讨论中,可能会破坏维持建设性对话的努力。
该工具提供了一种更强大的方式来识别有问题的内容,并确保辩论保持尊重和富有成效。
我们的工具标志着内容审核的重要进步。
通过解决传统的基于关键字的过滤器的局限性,它为隐藏毒性的持久问题提供了一个实用的解决方案。
重要的是,它证明了微小但集中的改进如何能在创造更安全和更具包容性的在线环境方面产生巨大的影响。
随着数字通信的不断发展,像我们这样的工具将在保护用户和促进积极互动方面发挥越来越重要的作用。
虽然这项研究解决了检测文本中隐藏毒性的挑战,但旅程远未结束。
未来的进展可能会更深入地研究上下文的复杂性,分析意义如何根据会话动态、文化细微差别和意图而变化。
在此基础上,下一代内容审核系统不仅可以发现言论内容,还可以发现言论的环境,从而为更安全和更具包容性的网络空间铺平道路。
陈强尼-讲师,商学院,奥克兰大学,Waipapa Taumata Rau
这个故事最初出现在The Conversation上