近日,南京农业大学信息管理学院王东波教授研究团队研发的 " 荀子 " 古籍大语言模型发布。现代快报记者了解到,这是国内首个专门应用于古籍处理与研究的智能工具,包含了《四库全书》在内的古籍文献超 20 亿字大型语料库,能够实现自然语言理解、自动翻译、诗歌生成、自动标引等多项功能,作为开源的、公益的研究成果。
" 荀子 " 会写诗也会翻译古文
为何取名 " 荀子 "?据王东波介绍,荀子不仅是我国先秦时期伟大的朴素唯物主义的思想家,也是一位散文大家。在对荀子的作品进行深入研讨后,团队发现荀子在语言学理论的阐述上也是一位开拓者,命名荀子是为了纪念这位中国历史上的语言学先驱。
对于普通受众而言,想要走近繁体、竖版、未添加句逗的古文不是一件容易的事,而 " 荀子 " 的上线意味着在智媒时代与古籍对话成为可能。
" 咱们请它以金陵为主题,生成一首五言绝句。" 王东波现场演示了 " 荀子 " 的智能写诗功能。指令一输入,系统便生成了一首堪称绝妙的原创绝句:" 秦淮佳丽地,城阙望中迷。 柳暗青丝发,花香碧玉衣。 歌楼留夜色,画阁敛春晖。细雨轻舟去,双鱼梦泽飞。"
除此之外,古文的阅读理解、标点添加,以及将古汉语翻译为现场汉语,这些让受众难啃的 " 硬骨头 "," 荀子 " 可以轻松拿下。
对于领域专家而言,可以借助 " 荀子 " 完成古籍词法分析、实体识别、关系抽取、文本分类与匹配、文本摘要等专业古籍研究处理场景。
同时发布的基座模型,还可以让用户根据自己的需求,使用本地的训练语料微调 " 荀子 " 基座模型,使其在古籍下游处理任务上取得更优越的处理性能。
" 荀子 " 吸收了 40 亿字大型混合语料数据
尽管目前有 200 多个通用模型在各领域得到应用,但古籍领域仍缺乏专业的大语言模型。功能强大的 " 荀子 " 到底是怎么做到化繁为简、通读古今的呢?
" 首先是‘算力充足’并且‘饱读经书’!" 王东波介绍," 荀子 " 的顺利问世离不开南京农业大学提供的高性能算力基础设施支持,以及团队长期积累的大量标注、精加工语料库,团队给 " 荀子 " 投喂了 40 亿字大型混合语料数据。
" 模型的构建受算力、场景应用等多方影响,但精准度较高的优质数据,是最为关键的。" 据王东波介绍,团队从 2008 年开始接触古籍,2013 年至今一直专注于人工精标注数据的工作。" 比如《岳阳楼记》,要训练机器标注该典籍中的形容词,就要首先训练相关人员标注形容词,在大量人工标注的基础上,再让机器学习。" 这项坐冷板凳的基础标注工作一做就是十年。
王东波表示,我们期待能将古籍的智能化研究与跨学科的人才培养相结合,让学生既有前瞻的科研视野,又能积累较为深厚的人文底蕴,同时让更多受众接触古籍、品读古籍、传播古籍,真正地唤活 " 故纸堆 ",共同推动中华优秀传统文化创造性转化和创新性发展,赓续传承中华文脉。
联合发布荀子古籍大语言模型的中华书局古联公司则主要致力于未来的场景应用和领域推广," 荀子 " 大模型除让大众用户能够顺畅利用古籍内容,在专业领域推动古籍整理、古籍数字化、古籍活化利用与传播之外,未来还可广泛应用于 AI 写作、AI 教学、数字文娱等领域。
通讯员 楠秾宣 现代快报 + 记者 李楠
(校对 周露)
登录后才可以发布评论哦
打开小程序可以发布评论哦