副业还是骗局?关于数据注释工作要知道什么

2024-11-04 22:36来源:本站

  

  

  在TikTok、Reddit和其他网站上,用户声称他们在闲暇时间在DataAnnotation等网站上完成一些小任务,每小时赚20美元甚至更多,帖子层出不穷。科技,Taskup。ai、Remotasks和Amazon Mechanical Turk。

  随着企业纷纷建立人工智能模型,对“数据标注”和“数据标签”工作的需求也在增加。工人完成写作和编码等任务,然后科技公司用这些任务开发人工智能系统,这些系统使用大量示例数据点进行训练。一些模型要求所有输入数据都由人类标记,这种技术被称为“监督学习”。虽然“无监督学习”(即向人工智能模型提供未标记的数据)正变得越来越流行,但使用无监督学习训练的人工智能系统仍然经常需要涉及人类标记数据的最后一步。

  对于有多少人从事数据注释工作,没有精确的估计。一份2022年的谷歌研究报告估计,这一数字将达到数百万,未来可能会增长到数十亿。2021年的一项研究估计,1.63亿人在在线劳动力平台上建立了个人资料,其中1400万人至少通过该平台找到过一次工作,其中330万人至少完成了10个项目或至少赚了1000美元。(尽管这个数字可能高估了数据注释,因为并非所有在线劳动平台上进行的工作都是数据注释工作。)

  数据注释网站通常是大公司的子公司,可以提供合法的赚钱途径。随着人工智能行业的不断发展,对人工标签员的需求也随之增长。但潜在用户应该意识到,数据标签行业监管不力,而且由于该行业不透明,很难驾驭。以下是你需要知道的。

  为了有资格参加这些项目,工人们必须先完成一份评估。初始评估的持续时间可能会有所不同,但用户通常报告的时间短至一小时,长至三小时。如果用户通过了评估,他们应该开始通过站点接收有偿工作的邀请。如果用户没有被纳入该计划,他们通常在评估完成后不会听到任何内容。

  评估任务的性质各不相同。非营利组织人工智能伙伴关系(Partnership on AI)的人工智能、劳工和经济项目负责人索南·金达尔(Sonam Jindal)表示,目前的趋势是,数据注释工作的技能越来越高。她说:“我们将开始看到,当你需要更高质量的人工智能模型时,你也需要更高质量的数据。”“我们可以分辨出某物是猫还是狗,这很棒。在更高级的任务中,要让更先进的人工智能在更专业的现实世界场景中发挥作用,你将需要更专业的技能。”

  在美国,给照片贴标签和完成写作练习等任务,网站通常每小时收费20美元左右。更专业的数据标注工作可以提供更高的报酬。例如DataAnnotation。tech为编码任务提供40美元,Outlier提供40美元。Ai提供每小时60美元的化学任务。

  金达尔说,在美国以外,数据标注员的薪水通常要低得多。不过,尽管价格较高,但公司可能有理由更青睐美国员工,比如一些需要特定文化知识或技能的任务,而这些知识或技能在美国很普遍

  在在线讨论板上,用户报告了各种数据注释工作的经验。许多人描述了积极的经历——简单的入职流程、充足的任务供应和丰厚的薪酬。

  “我一直在[DataAnnotation]工作。一名用户写道:“我已经在科技行业呆了快两年了。”“你可以按任务或按小时赚钱,这取决于项目。他们通过PayPal支付。在过去的几年里,我只做过非常兼职的工作,现在我的年薪已经接近3000美元了。老实说,我在全职工作期间辞职了很长一段时间,但现在又回来了。我目前正在做两个项目,一个是每小时20美元,另一个是每小时25美元。我每周大约挣400到500美元。这不是永久性的,因为任务来来去去,但如果你需要在笔记本电脑或电脑上做额外的工作,这是一项很好的额外收入。”

  但有些人则报告了不那么积极的经历,比如被告知他们已经通过了评估,但之后却从未被分配任何任务。更令人担忧的是,一些用户报告说,他们的账户被停用,而大量收入尚未支付。一名用户写道,他们的账户被停用了,价值2,869美元的工作没有得到支付,他们给两家公司的支持联系人发了邮件,但没有收到回复。

  柏林weizenbaum研究所数据、算法系统和伦理研究小组的负责人Milagros Miceli说,数据注释网站经常使用算法管理来保持低成本,这可能导致许多工人受到不公正的待遇。她说,由于数据注释行业监管不力,公司很少会因为不合格的工人待遇而面临后果。

  一些公司,如Amazon Mechanical Turk和Upwork,以相对透明的方式运营,数据标签劳动力的购买者和工人都使用相同的品牌。但其他人没有。Remotasks是数据标签提供商Scale AI旗下面向员工的子公司,Scale AI总部位于旧金山,拥有数十亿美元的业务,客户包括OpenAI、meta和美国军方。同样,Taskup。人工智能,DataAnnotation。tech和Gethybrid。据报道,这是Surge AI的子公司,后者是另一家数据标签提供商,为包括Anthropic和微软在内的客户提供服务。

  Miceli说,公司说这种保密是为了保护敏感的商业信息,比如新产品开发计划,不被泄露。但他们也更喜欢保密,因为这样可以减少他们与潜在的剥削条件联系在一起的可能性,比如低工资和接触创伤性内容。

  Scale AI的一位发言人向《时代》周刊透露,该公司在一篇博客文章中表示,Remotasks是独立于Scale AI成立的,目的是保护客户的隐私,并举例说明了Scale AI为确保员工得到公平对待而采取的措施。该发言人还表示:“Remotasks不参与需要接触敏感图像/视频的项目,如果此类内容出现在数据集中,可以报告并从工作流中删除。”

  Surge AI, Taskup。人工智能,DataAnnotation。tech和Gethybrid。IO没有及时回复记者的置评请求。

  金达尔认为,数据工作从根本上被低估了,数据工作者可以从他们帮助创造的产品中获得版税。

  她说:“他们的知识和信息被捕获在数据中,用于训练这些被称为人工智能的人工智能模型。”“实际上是他们的人类智慧——我们人类的集体智慧——嵌入了这些模型。”

纳趣吧声明:未经许可,不得转载。