纽约石溪大学:机器学习中基于项目反应理论的集成学习

发布时间:2021-08-12

 

论文题名:Item Response Theory Based Ensemble in Machine Learning

论文作者:Ziheng Chen, Hongshik Ahn

全文链接:http://www.ijac.net/en/article/doi/10.1007/s11633-020-1239-y

参考链接:https://mp.weixin.qq.com/s/_G2PL4I10SGwSjo5PaRO-w

机器学习中,研究者们对分类集成的关注与日俱增,尤其关注分类精度的提升。IJAC近期发表了来自纽约石溪大学研究者的最新成果,该研究基于项目反应理论,提出一种加权投票方法---基于IRT理论的集成学习算法,该方法可正确处理分类难题。研究还构建三个模型用以评估能力参数,并介绍了模型背后的假设。

图片来自Springer

机器学习领域,研究者们对分类问题的集成学习(Classification ensembles)的关注与日俱增。集成学习(ensemble learning)区别于其他类型学习最重要的特征是它综合了一组分类器的预测结果,而不仅仅依赖于单个分类器。当前,在多种情况下已证实:在集成学习算法中,聚合性能指标(aggregated performance metrics),如Bagging、Boosting和增量学习(incremental learning)的表现均优于其他同类算法。

集成学习算法中最核心的内容,便是组合判定规则(combination rule)。根据组合的方法,可分类为:简单多数投票(simple majority voting)和加权多数投票(weighted majority voting)。简单多数投票是一种综合了分类器决策的决策规则。由于其简单、适用性强,已经在集成学习中得到广泛应用。加权多数投票则是将每个分类器的决策乘以一个权重,而后把加权决策组合起来完成最终决策。这两种方法基于分类器的性能来训练数据,因此,一旦单个分类器完成训练,就不再需要调节任何参数。

借鉴项目反应理论(Item Response Theory, IRT)中的思想, 本文提出了一种新的加权投票分类集成(weighted voting classification ensemble)算法。IRT广泛应用于心理学或教育学中评价试题难度或者学生能力,我们将之迁移到集成学习策略中来评价不同基础分类器的效果。我们把每个数据点(data point)当作一个问题,把不同的分类器当作在课堂上完成考试的学生。众所周知,一个学生解决问题时的表现取决于两个主要因素:问题的难度及学生的能力。训练数据当中,有些特征显著且易于分类,而有些接近类别边界(class boundaries)的数据却很难分类。因此,与课堂考试类似,我们将分类器的性能定义为可正确分类复杂案例的能力,而不是正确完成分类的案例数量。例如,假设一个分类器正确完成了简单案例的分类,却不能处理复杂案例。另一个分类器正确分类了一些复杂案例,而错误地分类了简单案例。那么,第二个分类器所得的权重就比第一个分类器高。

本文提出一种同时评价分类器能力和分类难度的方法。本研究所采用的项目反应理论(item response theory, IRT)框架已广泛应用于心理和教育研究中,用以评估分类器的潜在能力。在UCI分类数据的实验中,这种集成学习方法有效的提升了分类效果。值得一提的是,该方法有效解释了基础分类器的强弱与训练集中数据点难易的关系。

来源:《International Journal of Automation and Computing》编辑部