• 大语言模型下古籍语间跨语言时间表达式抽取研究

    分类: 信息资源管理 发布时间: 2025-02-12

    摘要:[目的/意义]古籍中的时间表达对于语义理解具有重要意义,由于大模型在各种自然语言处理任务上表现出色,因此本文探究了大模型在古籍时间表达式抽取任务上的性能。 [方法/过程]对先秦古籍语料分别进行处理,作为SikuBERT-BiLSTM-CRF进行训练和对Baichuan2-13B-Base、Baichuan2-7B-Base、Xunzi-Baichuan2-7B进行指令微调的数据集,并使用准确率、召回率、F1值作为指标验证模型的性能,最后在《汉书》等古籍上验证模型的泛化能力。[结果/结论]实验结果表明,在古籍时间表达式抽取任务中,总体来看SikuBERT-BiLSTM-CRF模型表现最优, Baichuan2-13B-Base等大模型也都具备较好的能力和不错的泛化能力,展现出大模型在该任务上的潜力。

  • 大语言模型下的古籍语内分词研究

    分类: 信息资源管理 发布时间: 2025-02-12

    摘要:[目的/意义] 运用人工智能技术对古籍进行信息化处理,能够促进中华优秀传统文化在新时代的继承与发展。分词作为自然语言处理的基础性任务,探究领域模型在中文语内分词中的表现对推进古籍研究与人工智能领域的交叉融合具有重要意义。[方法/过程] 文章首先基于百万条先秦典籍、二十四史、新时代人民日报分词语料构建中文语内分词数据集,然后对传统深度学习模型BiLSTM-CRF,古籍领域预训练模型SikuBert、SikuRoberta、GujiBert、GujiRoBerTa,古籍领域大语言模型Xunzi-Baichuan2-7B和Xunzi-Qwen2-7B进行指令微调训练,最后从评价指标和内容质量两个角度对参测模型的语内分词表现进行全面分析。[结果/结论] 在中文语内分词任务中,BiLSTM-CRF效果不佳,古籍领域Bert系列预训练模型表现优异,古籍领域大语言模型与Bert系列预训练模型效果不相上下,具备良好的泛化能力和鲁棒性,展现出了在复杂序列标注任务中的优秀潜力。