大科技公司购买人工智能训练数据的不可说的内幕

2024-04-07



随着大型生成式人工智能 "基础 "模型的制造商面临着越来越大的压力,需要对输入系统的大量内容进行核算,这一过程被称为 "训练",需要密集的计算能力,通常需要数月才能完成。


科技公司表示,如果不能使用大量的免费网页数据(如非营利性资源库 Common Crawl 提供的数据),那么这项技术的成本将非常高昂,他们称这些数据是 "公开可用的"。


尽管如此,他们的做法还是引来了一波版权诉讼和监管热潮,同时也促使出版商在网站上添加代码以阻止搜刮行为。


作为回应,人工智能模型制造商已经开始通过与内容所有者的交易以及为满足需求而出现的新兴数据经纪人行业来规避风险并确保数据供应链的安全。


例如,在 ChatGPT 于 2022 年底推出后的几个月里,包括 Meta、谷歌、亚马逊和苹果在内的公司都与图片库提供商 Shutterstock 达成了协议,将其图片库中的数亿张图片、视频和音乐文件用于训练。


Shutterstock 首席财务官贾罗德-雅赫斯(Jarrod Yahes)告诉路透社记者,与大型科技公司达成的协议最初每项从 2500 万美元到 5000 万美元不等,但后来大多数都扩大了范围。他补充说,小型科技公司也纷纷效仿,在过去两个月里引发了新一轮的 "活动"。



雅赫斯拒绝对单个合同发表评论。苹果公司的协议以及其他交易的规模此前尚未公开。


Shutterstock的竞争对手Freepik告诉路透社,它已与两家大型科技公司达成协议,以每张图片2至4美分的价格授权其2亿张图片档案中的大部分图片。该公司首席执行官华金-昆卡-阿贝拉(Joaquin Cuenca Abela)表示,还有五笔类似的交易正在进行中,但他拒绝透露买家的身份。


OpenAI 是 Shutterstock 的早期客户,它还与至少四家新闻机构签署了许可协议,其中包括美联社和 Axel Springer。路透社新闻的所有者汤姆森路透社(Thomson Reuters)也表示,它已经达成了许可新闻内容的协议,以帮助训练人工智能大型语言模型,但没有透露细节。


道德采购 "内容


一个由专门的人工智能数据公司组成的行业也正在兴起,这些公司获得了播客、短视频以及与数字助理互动等真实世界内容的版权,同时还建立了短期合同工网络,从零开始制作定制的视觉效果和语音样本,类似于优步(Uber)式的数据打工经济。


总部位于西雅图的Defined.ai公司首席执行官丹妮拉-布拉加(Daniela Braga)告诉路透社记者,Defined.ai公司向包括谷歌、Meta、苹果、亚马逊和微软在内的一系列公司发放数据许可证。


价格因买家和内容类型而异,但布拉加说,公司一般愿意为每张图片支付 1 到 2 美元,为每个短视频支付 2 到 4 美元,为每个小时的长片支付 100 到 300 美元。她补充说,文字的市场价格为每字 0.001 美元。


她说,裸体图像需要最敏感的处理,价格为 5 到 7 美元。


布拉加说,Defined.ai 与内容提供商分成。她补充说,Defined.ai将其数据集作为 "道德来源 "进行营销,因为它征得了数据使用对象的同意,并剔除了个人身份信息。


该公司的一位供应商是一位巴西企业家,他说,他向照片、播客和医疗数据的所有者支付的费用约占总交易额的 20% 到 30%。



这位供应商说,在他的产品组合中,最昂贵的图片是那些用于训练人工智能系统的图片,这些系统可以屏蔽科技公司禁止的图形暴力等内容。


他说,为了满足这些要求,他主要从警察、自由摄影记者和医科学生那里获取犯罪现场、冲突暴力和手术的图片,这些图片通常出现在南美和非洲,因为在这些地方,传播图形图像更为常见。


他说,自 10 月加沙战争开始以来,他已经收到了来自加沙自由摄影师的图片,还有一些是敌对行动开始时从以色列收到的。


他补充说,他的公司雇用了习惯于观察暴力伤害的护士对这些未经训练的眼睛会感到不安的图片进行匿名和注释。


通过DeepL.com(免费版)翻译


相关标签