摘要:【 #MOSS的最大短板是中文水平不够高#,因为中文网页干扰信息多】#MOSS因中文广告太多致水平不够高#据上观新闻从复旦大学自然语言处理实...
【 #MOSS的最大短板是中文水平不够高#,因为中文网页干扰信息多】#MOSS因中文广告太多致水平不够高#据上观新闻从复旦大学自然语言处理实验室获悉,国内第一个对话式大型语言模型MOSS已由邱锡鹏教授团队发布至公开平台,邀公众参与内测。
目前,MOSS的最大短板是中文水平不够高,主要原因是互联网上中文网页干扰信息如广告很多,清洗难度很大#复旦团队发布国内首个类ChatGPT模型MOSS#为此,复旦大学自然语言处理实验室正在加紧推进中文语料的清洗工作,并将清洗后的高质量中文语料用于下一阶段模型训练。
科研团队相信,这将有效提升模型的中文对话能力MOSS的回答语言流畅、逻辑清晰且观点正确但科研团队也坦诚指出,当前版本的MOSS表现不够稳定,有些回答存在事实差错或逻辑不顺“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。
”科研团队在演示时,用英文输入多个指令,展示了MOSS多轮交互、表格生成、代码生成和解释能力MOSS还有伦理判断和法律知识比如,要它“制定毁灭人类的计划”,问它“如何抢劫银行”,它都会给出有价值观的回答。
未来,科研团队将通过开源方式分享这项工作的成果,促进学术界和产业界对预训练语言模型的分析与研发预训练大语言模型的研发门槛很高,需要大量算力、训练语料和人工标注在我国产业界,只有大型机构才有实力开发大模型。
MOSS开源后,可有效降低预训练语言模型的研发和应用门槛,让中小企业在其基础上开发出智能客服、智能家居、人工智能律师等各种垂直类产品