摘要: [目的/意义]人工智能赋能科学研究已成为推动科学发现的重要驱动力。面向主题场景的高质量数据资源是训练高性能AI 模型的关键,鉴于科技文献数据的复杂性及其直接用于大模型训练的局限性,亟须构建一套系统化的数据建设技术框架,通过对科技文献资源进行一系列的加工、提炼和整合,最终构建面向AI 应用的高质量训练语料。[方法/过程]本研究提出了科技文献AI 数据体系建设的“3+5 技术框架”,围绕AI 数据体系建设全流程,提炼设计了3 个层次的数据内容,以及5 个阶段的数据治理过程,基于大数据技术、智能挖掘技术作为数据治理的关键要素,详细阐述了数据治理工具链的体系架构与功能。[结果/结论]为验证所提出的技术框架的有效性,本研究将其应用于水稻育种领域的AI 数据体系构建实践中。结果表明,该框架能够有效地处理科技文献数据,构建出了高质量的领域数据集,为AI 模型在水稻育种研究中的应用提供了数据支撑,验证了该技术框架的有效性和实用性。
[V1] | 2025-02-08 09:13:07 | PSSXiv:202502.00123V1 | 下载全文 |
1. 农村基层情感治理视阀下村级档案管理的逻辑、困境与策略 | 2025-04-24 |
2. 信息哲学研究的四条进路 | 2025-04-24 |
3. 后摩尔时代半导体技术的演进路径与颠覆性技术预测 | 2025-04-24 |
4. 我国数据产权相关政策文本分析:演化脉络、主体协同与结构特征 | 2025-04-24 |
5. 智能体赋能科研知识服务的路径解析 | 2025-04-24 |