• 面向主题场景的科技文献AI 数据体系建设: 技术框架研究与实践

    分类: 信息资源管理 >> 情报学 发布时间: 2025-02-08 合作期刊: 《农业图书情报学报》

    摘要:[目的/意义]人工智能赋能科学研究已成为推动科学发现的重要驱动力。面向主题场景的高质量数据资源是训练高性能AI 模型的关键,鉴于科技文献数据的复杂性及其直接用于大模型训练的局限性,亟须构建一套系统化的数据建设技术框架,通过对科技文献资源进行一系列的加工、提炼和整合,最终构建面向AI 应用的高质量训练语料。[方法/过程]本研究提出了科技文献AI 数据体系建设的“3+5 技术框架”,围绕AI 数据体系建设全流程,提炼设计了3 个层次的数据内容,以及5 个阶段的数据治理过程,基于大数据技术、智能挖掘技术作为数据治理的关键要素,详细阐述了数据治理工具链的体系架构与功能。[结果/结论]为验证所提出的技术框架的有效性,本研究将其应用于水稻育种领域的AI 数据体系构建实践中。结果表明,该框架能够有效地处理科技文献数据,构建出了高质量的领域数据集,为AI 模型在水稻育种研究中的应用提供了数据支撑,验证了该技术框架的有效性和实用性。