• 大语言模型下的古籍语内分词研究

    分类: 信息资源管理 发布时间: 2025-02-12

    摘要:[目的/意义] 运用人工智能技术对古籍进行信息化处理,能够促进中华优秀传统文化在新时代的继承与发展。分词作为自然语言处理的基础性任务,探究领域模型在中文语内分词中的表现对推进古籍研究与人工智能领域的交叉融合具有重要意义。[方法/过程] 文章首先基于百万条先秦典籍、二十四史、新时代人民日报分词语料构建中文语内分词数据集,然后对传统深度学习模型BiLSTM-CRF,古籍领域预训练模型SikuBert、SikuRoberta、GujiBert、GujiRoBerTa,古籍领域大语言模型Xunzi-Baichuan2-7B和Xunzi-Qwen2-7B进行指令微调训练,最后从评价指标和内容质量两个角度对参测模型的语内分词表现进行全面分析。[结果/结论] 在中文语内分词任务中,BiLSTM-CRF效果不佳,古籍领域Bert系列预训练模型表现优异,古籍领域大语言模型与Bert系列预训练模型效果不相上下,具备良好的泛化能力和鲁棒性,展现出了在复杂序列标注任务中的优秀潜力。

  • 二十四史引先秦诸子内容自动识别与计量分析

    分类: 信息资源管理 发布时间: 2024-11-25

    摘要:[目的/意义]先秦诸子典籍是中华民族文化的重要载体,被后世广泛引用,成为连接不同历史时期学术思想的纽带。探究《二十四史》对先秦诸子典籍的引用情况,对于理解先秦诸子思想的发展脉络具有重要意义。本研究旨在构建字词级别的引书识别框架,实现对史书中先秦诸子引书的细粒度识别与分析,从而为古文领域学者提供可靠的典籍引书细粒度识别方法,为诸子研究提供崭新的视角。[方法/过程]首先,选取无监督古汉语检索模型辅助人工标注,建立初步的《二十四史》引先秦诸子典籍语料库;其次,基于标注语料,依托大语言模型检索增强框架,构建细粒度引书识别模型,并采用人机协同迭代策略完善引书语料库、优化模型性能;最后,对史书中的先秦诸子引书开展多维度的计量分析。 [结果/结论]当检索器返回相似度最高的前三个句子时,采用Esimcse-GujiRoBERTa_ts作为古汉语文本检索器,并结合指令微调后的internlm2_5-7b-chat作为文本生成器,所构建的引书识别框架对文本是否包含引书的判断能力F1值达到98.59%,文本输出的序列标注能力F1值达到82.65%。后续的计量分析印证了以《论语》为代表的儒家思想在不同历史时期的重要地位。