千亿球友会张勇教授、王衍虎硕士、巩敦卫教授在高维不平衡特征选择方面取得希望
所提算法框架图
随着大数据时代的到来,高维数据在现实应用中越来越普遍。为了防止丢失主要信息,决议者获取的原shi数据wangwang包罗大量冗余或不相关的特征。这些冗余/不相关的特征会zeng加学习算法的盘算成本,甚至降低其学习性能。特征选择的目的是从原shi特征集中选择一个特征子集,在最大化给定性能指标的同时降低学习成本。已有特征选摘要领不仅无法有用同时解决数据缺失和类不平衡等问题,而且存在“维数灾难”等问题。
克日,千亿球友会智能优化与控制课题组张勇教授、王衍虎硕士和巩敦卫教授在gai领域取得研究希望,提出了一种聚类指导的粒子群特征选择算法,研究效果形成了论文“Clustering-guided particle swarm feature selectionalgorithm for high-dimensional imbalanced datawith missing values”,gai论文以中国矿业大学为第一单元,揭晓在中科院一区期刊《IEEE Transactions onEvolutionary Computation》(IF: 11.554)。论文第一作者为张勇教授,通讯作者为王衍虎硕士和巩敦卫教授。
gai效果首ci提出了填充风险的界说,并给出了基于填充风险的F测度(RF测度)。随后,以RF测度作为目的函数,提出了一种聚类指导的PSO特征选择算法。RF测度可以评估特征子集处置赏罚缺失不平衡数据的质量,战胜传统F测度未思量缺失数据的不足。提出的:劾嗾铰阅芄唤罅刻卣骰殖啥喔鲎,仅使用每组中的代表特征来构建特征子集。这样既减小了种群的搜索规模,又提高了个体的评价价钱。此外,在局部修剪战略与种群初shi化战略的资助下,所提算法不仅显著镌汰了所选特征的数目,而且提高了所选特征子集的分类性能。
gai效果为含缺失高维不平衡数据提供了一种有用的进化特征选择算法。在多个典型现实数据集上的应用批注,所提算法能够在较短的运行时间内获得分类性能好的特征子集。