欢迎光临我们的网站!

新闻中心

主页 > 新闻中心 > 公司新闻 >

最新研讨揭示 AI 数据之殇:科技巨擘垄断权利,

2025-01-31 08:32

比拟 LLM 跟 Agent 范畴一日千里、高度成熟的停顿比拟,数据网络方面的标准有显明滞后。由超越 50 名研讨职员构成的数据溯源打算(DPI)旨在答复如许一个成绩:AI 练习所需的数据毕竟来自那边?「AI 就是数据」,这句话想必曾经成为了业内的共鸣。以后的算法须要海量数据停止练习,咱们喂给模子的内容决议了它的行动跟成果。但成绩是:AI 范畴的开辟者跟研讨职员并不真正懂得这些数据的起源。与模子开辟的庞杂性比拟,人工智能范畴的数据网络实际还不成熟,良多数据集都无奈给出内容及其起源的明白信息。建立于 2024 年的 Data Provenance Initiative 就想要处理这个成绩 —— 构建 AI 模子的数据集毕竟起源那边。这是一个意愿者集团,由来自天下各地的 AI 学术界跟产业界的 50 多名研讨职员构成。他们考核的近 4000 个大众数据会合,涵盖了 67 个国度、近 700 个构造、600 多种言语,含有约 800 种数据起源,时光跨度长达三十年。DPI 的研讨成果浮现出一种令人担心的趋向:AI 范畴的数据存在着「把持」偏向,绝年夜局部权利正逐步会合到多数多少个科技巨子的手中。LLM 数据起源之变时光回溯到 2010 年月初,事先的数据集还会涵盖多种起源,不只有百科全书跟收集,另有议会记载、财报德律风、气象预告等。参加名目的 MIT 研讨员 Shayne Longpre 表现,这是由于事先的数据集是为一般义务构建的,要专门从差别起源网络跟收拾。2017 年,Transformer 横空降生,固然 Scaling Law 还要多少年后才提出,但这就曾经标记着咱们开端迈进了「年夜模子」时期,数据集越年夜、模子参数目越年夜,就会有更好的机能。它不只来自百科全书跟收集,还来自议会记载、财报德律风跟气象预告等起源。隆普雷说,事先,人工智能数据集是专门从差别起源网络跟收拾的,以顺应一般义务。从 2018 开端,收集就始终是全部前言数据(包含音频、图像跟视频)的重要起源;现在,年夜少数 AI 数据集都是经由过程不加差别地从互联网上爬取资料构建的,抓取数据跟经心谋划的数据集之间存在着明显且逐步扩展的差距。Longpre 表现,对基座模子的才能而言,仿佛不什么比互联网及数据的范围跟异构性更主要了。对范围的需要也增进了分解数据的大批应用。除了言语模子,从前多少年中咱们也见证了多模态 GenAI 的崛起,比方种种图像跟视频的天生模子。跟 LLM 相似,这些模子也须要尽可能多的数据。正如下表所示,视频模子的语音跟图像数据会合,超越 70% 的数据都来自统一个起源 YouTube。这对领有 YouTube 平台的谷歌跟母公司 Alphabet 来说可能是天年夜的利好。文本数据是散布在全部互联网上的,且由很多差别的网站跟平台把持,但对视频数据,权利竟如斯会合地控制在一家公司手中。AI Now Institute 结合履行董事 Sarah Myers West 表现,因为谷歌也在开辟本人的人工智能模子(比方 Gemini),其宏大的上风也激发了人们的疑难:谷歌将怎样向竞争敌手供给这些数据。更深一层,假如咱们所交互的年夜少数 AI 数据集都是在反应以利润为导向的科技巨子的用意跟计划,那么这也会弗成防止地感化到其余方面,这些至公司会以合乎本人好处的方法重塑咱们天下的基本设备。DPI 打算的另一位成员 Sara Hooker 从另一个角度提出了担心:单一数据起源形成的偏向跟掉真。博主们将视频上传到 YouTube 时会斟酌到特定的受众群体,视频中的内容也平日是为了到达特定的后果。那么,这些视频是否捕获到人道中的轻微之处,以及种种差别的生涯跟行动方法?举个简略的例子,比方你是一个想懂得中国的歪果仁,是否经由过程影视剧、小视频跟短剧,进修到中国人的性情、行动跟办事方法呢?暗藏起来的数据集固然很多科技公司都市抉择宣布局部模子的代码乃至权重,但多少乎很少公然练习数据。起因之一是维护竞争上风,但现实上另有另一个起因:因为数据集绑缚、打包跟散发的方法庞杂且不通明,他们乃至可能也说不清数据起源。别的,对于应用跟共享数据的限度,宣布这些模子的公司可能也不完全信息。DPI 的研讨职员发明,数据集平日附加无限制性允许或条目,比方限度其用于贸易目标等。如图所示,文本、语音跟视频数据集分辨有 25%、33% 跟 32% 明白宣布了非贸易允许,这象征着它们能够用于学术或团体创意,但不克不及用于贸易红利。数据集之间的集成跟因循缺少分歧性,这使得开辟职员很难对应用哪些数据做出准确的抉择,也多少乎弗成能百分百保障,模子练习进程中完整不应用过受版权维护的数据。近来,OpenAI 跟 Google 等公司与出书商、Reddit 等重要论坛以及收集交际媒体平台告竣了独家数据共享协定,但这却成了他们会合权利的另一种方法。数据集方面这一趋向有利于 AI 范畴的那些最年夜玩家,他们有充足的财力停止数据买卖,但却就义了学术界的研讨职员、非营利构造跟小公司的好处。能够说,这些存在排他性子的数据共享协定会将互联网划出差别的地区,是一波新的「非对称拜访」海潮,且曾经到达了开放收集上咱们前所未见的水平。东方国度 vs. 其余地域这项研讨中还证明了另一件事:用于练习 AI 模子的数据也重大倾向东方天下。研讨职员剖析的数据会合,超越 90% 来自欧洲跟北美,却只有不到 4% 来自非洲。Hugging Face 首席伦理学家 Giada Pistilli 表现,英语之以是在练习数据中盘踞主导位置,局部起因是,互联网中 90% 以上的内容依然是英语;另一个起因是便利:将其余言语的数据集放在一同并斟酌其余文明,这须要停止更大批的数据任务,以及开辟职员无意识的用意。经由过程多模态模子的输出,咱们能够更显明地感触到这些数据集是怎样以东方文明为核心的。比方,假如提醒 AI 模子天生婚礼的气象跟声响,可能只能失掉西式婚礼相干的内容,由于练习数据就是如斯。数据集代表了人类社会中的成见,而经由这些数据练习后的模子又加剧了成见,并可能招致 AI 模子推进某种以美国为核心的天下不雅,同时不经意间抹去其余言语跟文明。参考材料:https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/

相关推荐

  • 新闻中心

  • 联系我们

    +86-765-4321
    [email protected]
    +86-123-4567
    天朝天堂路99号