谷歌AI研究院:被低估的数据,被高估的模型
发布时间:2021-05-14得益于算法、算力和数据这三驾马车,人工智能在2006年后获得了巨大的发展。近日,来自谷歌的研究员在一篇题为"Everyone wants to do the model work, not the data work"的论文中指出:数据质量在AI中起到的作用正在被低估,数据质量在高风险AI应用中十分重要,尤其是对癌症检测、野生生物偷猎等下游任务中巨大。
上述结果是谷歌研究员通过与印度、东非和西非国家以及美国的53位AI从业者进行对话得来。研究员表示,这份访谈报告为"低估数据质量在AI模型中的作用"提供了经验证据。此外,报告还得出了另一个有趣的结论:每个人都想做模型工作,而不是数据工作,许多从业者将数据工作描述为"耗时且无法追溯的工作"。
为了更清楚的说明问题,研究员还定义了数据库级联(data cascades)这一概念,即因数据问题产生负面和下游影响的复合事件,且数据级联有不透明、触发者、负面影响等特点。
上图为高风险AI中的数据库级联。级联是不透明的,而且会产生长时间的负面影响。级联在上游触发(例如,数据收集),并且对下游产生影响(例如,模型部署)。红色粗箭头表示数据级联开始变得可见之后的复合效果;红色虚线箭头表示ML数据处理的放弃或重新开始。指标在模型评估、系统指标以及故障或用户反馈中最为明显。
1 数据的重要性
数据是构建人工智能系统必需的关键基础设施。数据在很大程度上决定了AI系统的性能、公平性、稳健性、安全性和可扩展性。
矛盾的是,对于AI研究人员和开发人员而言,数据通常是最不被重视的方面。但相对于构建新颖的模型和算法等大规模工作而言,数据又被认为是有"可操作性"的 。
凭直觉来看,AI开发人员认为了解数据质量很重要,所以他们通常会在数据任务上花费过多的时间。实际上,与模型开发相比,数据工作一向被忽视,大多数组织并没有在数据标准等工作上花费足够的功夫。
这项研究发现,对数据工作的低估是具有普遍性的。此外,通过研究,研究者发现以下几个趋势:
首先,开发人员越来越多地在复杂的人道主义领域设立AI模型,例如在孕产妇健康,道路安全和气候变化方面;
其次,高风险领域的低水平数据可能会对脆弱的社区和环境造成巨大影响。例如Hiatt等,它们辩称,高风险的工作与低风险的诸如客户服务类的工作是不同的,因为这些高风险的项目主要是为那些正在面临或即将面临一系列可怕事件的人群服务的。例如,不良的数据降低了IBM癌症治疗AI的准确性,并导致Google流感趋势预测偏离了流感峰值140%。
再者,高风险的AI系统通常部署在资源匮乏的环境中,明显缺乏现成的高质量数据集。例如通过步行距离来收集农村地区的水资源数据,与之相对应的是随便点击一下假装收集到了数据。
最后,高风险的AI通常是在两个或多个学科的结合下创建的。例如,AI和糖尿病性视网膜病,这样一来会导致许多组织机构和领域中的利益相关者之间产生更多的合作或者竞争。
考虑到以上因素,当前为解决其他技术问题而使用的错误工具可以解决AI中的数据质量问题。这些工具被视为数据库问题,法律合规性问题或者许可交易问题。
2 数据库级联的概念
谷歌研究员对来自印度,美国以及东西非洲国家的53名AI从业者的实践和结构因素进行了定性研究,旨在了解从业人员如何将端到端AI数据生命周期概念化和导航化。
在这项研究中,研究员将"数据库级联"定义为:复合事件引起的关于数据问题的负面和下游影响,而且随着时间的推移会导致技术负担。研究发现,数据库级联非常普遍:在给定的项目中,有92%的AI从业者报告经历了一个或多个,而45.3%的人报告了两个或多个级联。
数据库级联通常是由于采用传统的AI做法而导致的。这种做法低估了数据质量。例如,在无噪声训练数据上训练以获得高模型性能的眼部疾病检测模型,误判了图像上出现少量灰尘时会产生疾病。
数据库级联不仅不透明而且有延迟。数据级联对模型下游任务有重大的负面影响,例如代价高昂的迭代,废弃项目以及对社区的危害。但是,如果通过有意识的实践,级联在很大程度上是可以避免的。
数据库级联的高普遍性表明了在AI领域中,之前普遍使用的数据实践,方法论和激励机制存在着更大的问题。
尽管研究中的AI / ML从业人员对数据质量的重要性都有所了解,并对研究领域涉及到的社会弱势群体会更加"上心",研究员也更加重视与之相关的数据工作。但一个现实是:在某些高风险领域/行业中,数据库级联仍然普遍存在。
数据库级联的普遍性提出了一个更大的挑战,即如何从"大数据"的世界中提取的关于AI / ML的其他约定和看法。包括:大数据、消耗性的数字资源和一个帐户所拥有的虚拟世界;模型的价值化;快速转变为概念验证的过程;并且在ML工作流程中将数据视为繁琐的工作......
综上所述,明确构建AI系统时高质量数据发挥的重要作用,非常有意义。数据背后的"含义"能够帮助考虑AI生态系统的社会,技术和结构。
3 数据库级联的属性
数据库级联受到以下因素的影响:(a)参与AI开发的参与者(例如,开发人员,政府和现场合作伙伴)的行为和互动;(b)AI系统所处的物理世界和社区(例如, 配备数据收集传感器的乡村医院。)
数据级联有以下属性:
1.不透明:数据级联是复杂的,长期的,频繁且持续发生的;不透明性表现在""没有明确的指标,工具来检测和衡量它们对系统的影响。在没有明确而且及时的信号的情况下,从业人员转向了替代指标(例如,准确性,准确性或F1分数),其中的度量单位是整个系统,而不是数据集。
2.触发者(Triggered by):在高风险领域中采用传统的AI实践时,就会触发数据级联,这些领域的特点是高度负责,跨学科工作和资源紧张。
3.负面影响:数据库级联对AI开发和部署过程具有负面影响,导致多种意外的策略有时会刺激进一步的级联,从而始终造成技术负担。
谈完属性,来谈谈影响高风险领域中数据库级联的跨领域因素。
总的来看,人工智能中的激励措施和数据流缺乏,导致了不良的数据实践,并引发了数据库级联。与模型相比,对数据的关心和改进不容易"跟踪"或奖励。据报道,在ML出版物中,构建AI模型相比数据工作更能为作者带来声望和"学术阶级"流动。因此,这些论文被大量引用,使从业人员在AI / ML工作和更高层次的发展方面具有竞争力。
"每个人都想做模型工作,而不是数据工作"。许多从业者将数据工作描述为耗时的且无法跟踪的工作,并且经常由于利润而承受着压力。单纯的数据类项目很难从客户和资助者那里进行融资,尤其是在价格敏感且新兴的市场(例如东非和西非国家和印度)。另一方面,客户期望AI达到具有"魔力"的水平,从而激励一些研究员展示性能"非常吓人"的模型。
数据教育缺乏,从业人员没有接受AI数据质量的收集和道德规范方面的充分培训,导致从业人员在应对高风险领域中创建数据集的复杂性方面的准备不足。当前,一些AI课程使用的是"标签明确"的小数据集(例如UCI人口普查,Kaggle数据集),但是部署AI实际上需要创建数据管道,而且通常是从头开始。
正如西非国家/地区从事医疗保健工作的人所说:"在现实生活中,我们从未见过干净的数据。课程和培训的重点是要使用的模型和工具,但很少讲授数据清理和管道漏洞。"美国教师也对此进行了说明:"我们从未接受过CS的培训,也没有积极地考虑数据收集。"
计算机科学课程不包括针对实际数据方面的培训,例如处理特定于域的"脏数据" ,处理实时数据,定义和记录数据集等等。
在美国,大多数从业者都在研究生课程中完成了AI专业化能力的培养。在印度以及东非和西非国家,大多数从业人员在获得计算机科学学位后都可以自学,但是,在所有这些途径中,数据工程都没有得到足够的重视。
数据引导高风险AI域需要按区域,现象或物种划分的专门数据集,尤其是在数字化不足的环境中。例如,在泰米尔纳德邦农村地区的疟疾传播,在马赛马拉的大象运动。
74%的从业者从头开始进行数据收集工作,对此,一些人的态度是坦率地接受,不过也有些人因此放弃了AI项目。美国的从业人员很大程度上是从现有资源和已建立的数字基础架构中进行引导,例如卫星数据,传感器数据和公共数据集,而东非,西非国家和印度的大多数从业人员则从头开始收集数据并制作了因地制宜的在线数据集。
使用其他地区的数据进行训练AI模型会导致通用性方面的限制,例如,(美国清洁能源)使用美国东北部的卫星数据进行模型训练,但由于地形,云层和污染不同,因此无法应用于目标位置。
从业人员报告说,他们面对的情况是他们不得不"利用已有的东西",并且由于有限的原因,并不总是具有"可选择的能力"。许多从业者报告说,他们出于非AI目的使用了收集的数据(例如迁移调查),但遇到了ML功能丰富的问题。
由于从业者在与弱势群体合作时缺乏数据和采用下游方法,因此从业者在面对挑战时会发生数据级联。绩效不佳所带来的风险主要是对社区的损害,但也导致绩效不佳和用户信任度低下。
"如果你建立了这个模型(例如,预测[眼疾]),并且预测到这个人没有这个模型所需的数据,那你就会让这个人失明。"
因此,许多研究者认为,消费型人工智能(例如广告技术)的准确性目标一般是70-75%,而对于高风险领域,人工智能技术的准确性每增加1%都至关重要。。
来源:AI科技评论