📍 南京市
微信公众微信公众号

国内首个!南理工团队发布人文社会科学领域学术大语言模型!

2026/05/11 1.8k 阅读 345 点赞

日前

南理工沈思教授团队

开源发布国内首个

人文社会科学领域

学术大语言模型“兰章”

标志着我校在

“AI+人文社会科学”

知识体系构建方面

迈出重要一步!


“兰章”凭借百亿词元的坚实数据基础以及两阶段深度优化训练,较好地解决了当前通用AI工具在人文社科全文本挖掘、复杂概念和论证逻辑理解方面“盲域”和“幻觉”问题,不仅可以辅助用户系统地获取和梳理海量学术资源,还能够帮助人文社会科学领域学者总体评价既有成果并敏锐发现新学术研究契机。



“兰章”研发团队历时五年,构建了总规模116亿词元的人文社会科学学术语料库,涵盖CSSCI、CNKI人文社科期刊、人大复印报刊资料、教育部人文社科获奖著作全文(1992—2025年)等中文学术资源以及SSCI、A&HCI期刊摘要及Project MUSE、Project Gutenberg(1992—2025年)等学术资源,保证了学科的均衡覆盖以及期刊与著作的深度集成。“兰章”凭借百亿级词元的坚实数据基础,较好解决了通用AI工具主要依靠论文标题、摘要等简单信息挖掘语料,难以理解完整文本中复杂概念和论证逻辑的难点痛点问题。


“兰章”研发团队选取人文社会科学全文本评测中表现较好的Qwen3-8BQwen3-32B基础模型进行两阶段的深度优化训练:



在第一阶段,运用116亿词元的学术资料系统融入人文社科学科知识和学术表达方式,提升基础模型的的全文本理解能力。


在第二阶段,团队围绕核心学术任务设计15697条训练指令,在多学科专家验证基础上反复精细调优,形成并持续提升模型的专业推理能力。


经过深度优化训练,“兰章”表现显著优于多款通用模型,有效解决了跨语言环境下低频专业术语的识别盲区问题和学术文本生成中的逻辑碎片问题,图书自动分类准确率比通用模型高出30%




团队负责人沈思教授介绍,“大模型不是代替学者思考,而是立足实际学术研究,把自主知识体系的构建延伸到模型化和计算化的层面,从工具层面为人文社会科学学术创新提供持续支持。”目前,“兰章”已上线魔搭社区试运行,15697条训练指令数据已全部开源共享。



近年来

学校高度重视哲学社会科学工作

积极推进一般社会科学

与学校优势学科群的交叉融合

以数智技术赋能哲学社会科学研究

“兰章”的发布是学校积极推进

精品化特色化哲学社会科学研究

加快构建中国哲学社会科学

自主知识体系进程中的又一最新成果


“兰章”研发团队负责人沈思现为经济管理学院教授,博士生导师,主要研究方向为信息检索、大语言模型,近五年主持国家社科基金重点项目、国家社科基金后期资助项目、国家自然科学基金面上项目、江苏省哲学社会科学基金、江苏省自然科学基金等项目7项,2025年获江苏省第十八届哲学社会科学成果奖二等奖。



附:“兰章”大语言模型开源地址

https://modelscope.cn/models/njauzwh/HssaLLM-8B

https://modelscope.cn/models/njauzwh/HssaLLM-32B

https://modelscope.cn/datasets/njauzwh/HssaLLM-SFT-data





出品丨南京理工大学党委宣传部

策划丨新媒体中心

来源丨科学技术研究院

文字丨杜建宾

编辑丨张滢玥

初审丨褚易凡

审核丨卢晓云


求点赞


求分享


求喜欢




免责声明: 本文信息仅供参考,具体政策以官方最新发布为准。如有疑问,请拨打相关部门咨询电话或前往官方网站查询。

评论 (2)

苏州市民2026-03-18 15:30

非常实用的信息,感谢分享!

科技爱好者2026-03-18 14:20

这篇文章写得很详细,有帮助!