2025-06-27 23:06来源:本站
另一方面,D部分涉及医疗保险的处方药福利并涵盖药物费用。
这些数据集被标记为被排除的个人和实体列表(LEIE)。LEIE由美国监察长办公室提供。
广告
研究人员深入研究了随机欠采样(RUS)的影响,这是一种简单而有效的数据采样技术,以及他们的新集成监督特征选择技术。
RUS的工作原理是从多数类中随机移除样本,直到少数类和多数类之间达到特定的平衡。
实验设计调查了各种情况,从单独使用每种技术到组合使用每种技术。
在对单个场景进行分析之后,研究人员再次选择产生最佳结果的技术,并对所有场景之间的结果进行分析。
发表在《大数据杂志》(Journal of Big Data)上的研究结果表明,智能数据缩减技术改善了高度不平衡的医疗保险大数据的分类。
两种技术的协同应用- RUS和监督特征选择-优于利用所有可用特征和数据的模型。
研究结果表明,无论是结合使用特征选择技术再使用RUS,还是使用RUS再使用特征选择技术,都能产生最佳的性能。
因此,在两种数据集的分类中,研究人员发现,数据约简量最大的技术也会产生最好的性能,这就是进行特征选择然后应用RUS的技术。
减少特征的数量会产生更多可解释的模型,并且性能明显优于使用所有特征。
“分类器或算法的性能可能会受到多种影响,”Taghi Khoshgoftaar博士说,他是FAU电子工程和计算机科学系的资深作者和摩托罗拉教授。
“使数据更难分类的两个因素是维度和类别不平衡。当数据集中绝大多数实例都有一个特定的标签时,标记数据中的类不平衡就会发生。这种不平衡带来了障碍,因为针对准确性等指标进行优化的分类器可能会将欺诈行为错误地标记为非欺诈行为,从而提高该指标的总体得分。”
在特征选择方面,研究人员引入了一种基于特征排序列表的监督特征选择方法。随后,通过实施一种创新的方法,将这些列表结合起来,产生一个决定性的特征排名。
为了提供一个基准,还利用数据集的所有特征建立了模型。在这个综合排名的推导中,根据它们在列表中的位置选择特征。
“我们的系统方法对多种学习算法背景下的特征选择和模型鲁棒性之间的相互作用提供了更好的理解,”FAU电气工程和计算机科学系的第一作者、博士生John T. Hancock说。
“当一个模型的特征较少时,就更容易推断出它是如何进行分类的。”
对于医疗保险B部分和D部分数据集,研究人员在五种情况下进行了实验,用尽了利用或省略RUS和特征选择数据约简技术的可能方法。
对于这两个数据集,研究人员发现数据约简技术也提高了分类结果。
“鉴于医疗保险欺诈的巨大财务影响,这项重要研究的结果不仅提供了计算优势,而且显著提高了欺诈检测系统的有效性,”FAU工程与计算机科学学院院长Stella Batalama博士说。
“如果这些方法被恰当地应用于检测和阻止医疗保险欺诈,可以通过减少与欺诈相关的成本,大大提高医疗服务的水平。”
参考:
高度不平衡医疗大数据的数据缩减技术
——(https://journalofbigdata.springeropen.com/articles/10.1186/s40537 - 023 - 00869 - 3)
Source-Eurekalert