输入指令,就能生成一首像模像样的古诗;点几下鼠标,难懂的古文就被翻译成现代汉语。

  南京农业大学信息管理学院王东波教授研究团队近日发布的“荀子”古籍大语言模型,是国内首个专门应用于古籍处理与研究的智能工具,能够实现文本翻译、实体识别、文本摘要、文本标注、标点和词法分析、诗歌生成等任务。

  今年,大模型特别火热。在上个月的世界互联网大会乌镇峰会上,各个企业研发的通用大模型就成为大众的宠儿,展示台前总是排着长队,大家都想体验上一番。有文化遗产保护领域的专家提出,愿意提供相关数据,未来希望能够将大模型和自己研究的垂直领域相结合。

  “荀子”就是一种垂直领域的大模型。

  王东波介绍,目前的通用大语言模型在解决领域化的问题和具体应用需求上整体性能还不突出,所以需要领域化、场景化的大语言模型,这也是构建“荀子”大语言模型的意义和价值之所在。

  在王东波看来,开发古籍大语言模型是一个很大的工程。他的研究团队基本上涵盖了计算机、信息管理、语言学、古典文献学和目录学等各个领域的人员,是一个跨学校、跨专业和跨领域的团队。在数据加工、参数调优和场景的应用方面均经过了反复、多次和长时间的验证、讨论和总结。“在这个过程中最难的还是高质量数据的加工和整理,投入时间和人力最多,也是最难之处。”他说。

  王东波团队从2008年开始接触古籍,2013年至今一直专注于人工精标注数据的工作,在大量人工标注的基础上,再让机器学习。团队给“荀子”投喂了40亿字大型混合语料数据,包含了《四库全书》在内的诸多古籍文献。但他也坦言,“我们这个模型目前还有很多问题,关键是高质量精加工数据的缺乏导致。”

  之后,“荀子”古籍大语言模型也将应用在文化产业方面,比如数字人、游戏、文化旅游。在教育层面,能够应用在中小学的古籍学习和教学、大学生的古籍文化传授等方面。

  随着国内大模型的不断发展,对垂直模型的重视也在不断增加,有业内人士指出,这将是百模大战的“后半场”。比如华为发布盘古金融、电力、药物分子三个垂直领域大模型;阿里云宣布与7家企业推动大模型在油气、电力、交通等行业落地;百度正式发布国内首个“产业级”医疗AI大模型灵医大模型;携程集团发布首个旅游行业垂直大模型“携程问道”等。尤其是在金融和医疗领域,垂直大模型已经加速落地。而比起普适性的通用大模型,垂直大模型对专业度的要求更高,更能针对性地解决行业问题。“在真正的AGI(人工通用智能)未实现之前,垂直领域的大语言模型仍有其存在的必要和价值。”王东波说。