统计与数据科学学院 报道
近日,南京审计大学统计与数据科学学院周灿、李南老师,联合黑龙江科技大学王帅老师、东北师范大学王晓飞教授及北京工商大学郭建华教授,共同完成的学术论文“Learning Semi-parametric Tree Models from Mixed Data” 已在线发表于人工智能领域顶级期刊Artificial Intelligence (AIJ)。

该研究聚焦于混合数据情形下的半参数树模型学习问题。在实际应用中,数据通常同时包含连续变量与有序变量,例如医疗诊断中的体征指标与疾病分级、金融风控中的连续评分与等级标签等。然而,现有多数结构学习方法主要针对纯连续或纯离散数据设计,难以有效刻画混合数据中的层次结构并识别隐变量。针对上述挑战,研究团队提出了一种新颖的半参数树模型框架。该模型基于高斯copula 与阈值化机制,实现了对连续变量与有序变量的统一建模。在结构学习方面,团队进一步设计了一种基于可加信息距离的自底向上算法,用于递归恢复树结构。理论分析表明,在真实信息距离已知的理想情形下,所提出算法可精确恢复真实树结构,且计算复杂度为
。此外,论文还建立了算法的概率近似正确性,并给出了实现精确结构恢复所需的有限样本界。
论文信息:
Can Zhou, Nan Li, Shuai Wang, Xiaofei Wang & Jianhua Guo (2026). Learning semi-parametric tree models from mixed data. Artificial Intelligence, 353, 1-25. https://doi.org/10.1016/j.artint.2026.104499.

