作为生成式人工智能核心驱动力的训练数据的治理研究

作者： 陈锐 ¹ 江奕辉 ¹
作者单位：

1. 重庆大学法学院
发布时间：2024-11-01

摘要: [目的/意义]当前研究对于生成式人工智能训练数据的治理问题关注较少。然而，训练数据的生命周期中存在着诸多不容忽视的风险，亟需有效的治理。[方法/过程]文章在论证了训练数据是生成式人工智能核心驱动力的基础上，使用数据生命周期的理论模型，全面归纳了训练数据生命周期中可能出现的风险样态。然后，从训练数据自身特性、生态性因素与生成式人工智能开发者操作性因素等角度分析了相关风险的成因。[结果/结论]数据本身的碎片化特性与偏见性是风险发生的起点；数据的生态失衡是风险发生的外部成因；同时，“黑箱”中的训练数据、偏差的数据标注与懈怠的数据脱敏则是风险发生的内在成因。由此，针对训练数据的特性，可以借助“可怜圆点”的框架，为其构建一个综合法律、市场、社群规范以及架构的风险治理方案。

训练数据生成式人工智能数据治理 ChatGPT

分类： 信息资源管理 >> 情报学
稿件状态： 已在期刊出版

期刊名称：

引用： PSSXiv:202411.00102 (或此版本 PSSXiv:202411.00102V1)
DOI:10.12451/202411.00102
CSTR:32012.36.PSSXiv.202411.00102
推荐引用方式： 陈锐,江奕辉.作为生成式人工智能核心驱动力的训练数据的治理研究.情报资料工作,2024(4).[PSSXiv:202411.00102V1] (点此复制)

版本历史

[V1]

2024-11-01 09:39:21

PSSXiv:202411.00102V1

下载全文

1. 农村基层情感治理视阀下村级档案管理的逻辑、困境与策略	2025-04-24
2. 信息哲学研究的四条进路	2025-04-24
3. 后摩尔时代半导体技术的演进路径与颠覆性技术预测	2025-04-24
4. 我国数据产权相关政策文本分析：演化脉络、主体协同与结构特征	2025-04-24
5. 智能体赋能科研知识服务的路径解析	2025-04-24

作为生成式人工智能核心驱动力的训练数据的治理研究

版本历史

相关论文推荐

笔记记录


实名公开评论匿名评论仅发送给作者

作为生成式人工智能核心驱动力的训练数据的治理研究

版本历史

相关论文推荐

填写意向审稿专家信息

提示：如有意向专家和回避专家请填写；如没有可直接跳过此步骤。

填写回避审稿专家信息

笔记记录