您当前的位置:首页 > 论文详情

基于可解释机器学习和文本信息的财务舞弊识别研究

摘要: 近年来,全球经济一体化与金融市场发展导致上市公司财务舞弊频发。随着上市公司财务数据积累和财务比率多样性增加,大数据与机器学习方法在识别舞弊中的应用成为研究热点。然而,机器学习模型受限于其“黑盒”特性,如何在提高模型精度的同时,增加其透明度和可解释性,已成为学界和业界共同面临的挑战。本文引入一种基于XGBoost 框架的可解释机器学习模型,使用加权交叉熵损失函数处理非均衡样本,通过将加权模型简化为单棵决策树,以清晰的树状结构为业界决策者提供明确的逻辑解释。同时,创新性结合上市公司年报中的 MD&A 文本信息,实证检验文本变量在提升财务舞弊识别性能上的有效性。研究结果表明:加入文本变量后,模型识别准确率达到89.32%,较仅考虑财务与非财务指标时提升了15.73%;利用加权交叉熵为少数类样本赋予更高权重后,召回率提高至 86.51%。本文引入的可解释机器学习方法以其简单、透明及高准确性的特点,为财务舞弊识别提供了一种可解释的代价敏感解决方案,为业界决策者提供了指导。

版本历史

[V1] 2025-03-03 08:33:58 PSSXiv:202503.00008V1 下载全文
点击下载全文
在线阅读
许可声明
metrics指标
  •  点击量20
  •  下载量4
  • 评论量 0
评论
分享
收藏