近日,信息科學(xué)與工程學(xué)院王志軍教授農(nóng)業(yè)系統(tǒng)集成團(tuán)隊(duì)孫博老師作為第一作者在《NEUROCOMPUTING》上在線發(fā)表題為“Radial-based undersampling approach with adaptive undersampling ratio determination”的研究論文。
類不平衡問題是機(jī)器學(xué)習(xí)領(lǐng)域中的一項(xiàng)重要挑戰(zhàn),指在收集到的訓(xùn)練數(shù)據(jù)集中某一類別的樣例數(shù)量明顯少于其他類別的樣例數(shù)量,從而影響常見分類學(xué)習(xí)算法的泛化性能,特別是對(duì)攜帶重要信息的少數(shù)類不能很好地進(jìn)行分類。例如,農(nóng)業(yè)病蟲害數(shù)據(jù)中描述某種特殊病害的樣例(少數(shù)類樣例)通常顯著少于描述普通病害的樣例(多數(shù)類樣例),但若對(duì)少數(shù)類樣例錯(cuò)誤分類將耽誤病蟲害的最佳治療時(shí)機(jī)并導(dǎo)致作物產(chǎn)量和質(zhì)量的明顯降低。
為了有效改善分類算法在不平衡數(shù)據(jù)上的學(xué)習(xí)性能,團(tuán)隊(duì)提出一種具有自適應(yīng)欠采樣比例的徑向欠采樣方法RBU-AR。RBU-AR的主要?jiǎng)?chuàng)新之處在于根據(jù)數(shù)據(jù)的類重疊復(fù)雜性來確定合適的欠采樣比例,而不像大多現(xiàn)有欠采樣方法那樣采用默認(rèn)值1或使用經(jīng)驗(yàn)試錯(cuò)策略進(jìn)行確定;此外,RBU-AR采用“相對(duì)類間勢”概念來客觀評(píng)估每個(gè)多數(shù)類樣例的效用,解決了“應(yīng)該刪除哪些多數(shù)類樣例”的問題,進(jìn)而降低了因去除有用多數(shù)類樣例而引起的信息丟失風(fēng)險(xiǎn)。在40個(gè)不平衡數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)和相應(yīng)的統(tǒng)計(jì)檢驗(yàn)表明,類重疊度對(duì)學(xué)習(xí)算法的分類性能有很大影響,通常比類不平衡比例IR更為重要,并且RBU-AR算法表現(xiàn)出了較好的分類性能;此外,這項(xiàng)工作為利用類重疊數(shù)據(jù)復(fù)雜性信息來確定合適欠采樣數(shù)量也提供了一定的理論指導(dǎo)。
該研究得到了國家自然科學(xué)基金、山東省重大科技創(chuàng)新項(xiàng)目、山東省自然科學(xué)基金的資助。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0925231223006677
編 輯:萬 千
審 核:賈 波