摘要: 近年来,全球经济一体化与金融市场发展导致上市公司财务舞弊频发。随着上市公司财务数据积累和财务比率多样性增加,大数据与机器学习方法在识别舞弊中的应用成为研究热点。然而,机器学习模型受限于其“黑盒”特性,如何在提高模型精度的同时,增加其透明度和可解释性,已成为学界和业界共同面临的挑战。本文引入一种基于XGBoost 框架的可解释机器学习模型,使用加权交叉熵损失函数处理非均衡样本,通过将加权模型简化为单棵决策树,以清晰的树状结构为业界决策者提供明确的逻辑解释。同时,创新性结合上市公司年报中的 MD&A 文本信息,实证检验文本变量在提升财务舞弊识别性能上的有效性。研究结果表明:加入文本变量后,模型识别准确率达到89.32%,较仅考虑财务与非财务指标时提升了15.73%;利用加权交叉熵为少数类样本赋予更高权重后,召回率提高至 86.51%。本文引入的可解释机器学习方法以其简单、透明及高准确性的特点,为财务舞弊识别提供了一种可解释的代价敏感解决方案,为业界决策者提供了指导。
[V1] | 2025-03-03 08:33:58 | PSSXiv:202503.00008V1 | 下载全文 |
1. 医药行业上市公司数字化转型对财务绩效影响研究 | 2025-05-29 |
2. 国家审计、政府治理与区域生态文明建设——基于省级面板数据的实证检验 | 2025-05-29 |
3. 公平竞争审查制度与企业并购行为 | 2025-05-29 |
4. 成本粘性的成因及经济后果研究 | 2025-05-29 |
5. 虚假投资受害消费者因何“被套路”?来自信任转移视角的实验证据及解释 | 2025-05-27 |