全国首个区域文化大模型交出“年考”答卷 岭南文化大模型完成10亿词元语料建设
创始人
2026-03-29 09:15:41
0

羊城晚报记者 詹淑真

“全国超过100个大模型,却没有一个能用粤语思考、听得懂粤剧、看得懂广彩瓷器。”一年前,这句话道出了岭南文化在人工智能时代面临的尴尬处境。

3月28日,在2026年岭南数字创意大厦高质量发展大会上,羊城晚报报业集团旗下岭南文化大模型实验室发布阶段性建设成果:围绕“打技术基础、做示范应用、找落地场景”三条主线,实验室已完成超10亿词元岭南文化语料建设,在全国率先发布粤语思维链语料集,并通过深度蒸馏微调推出7B至72B参数系列模型,在文旅、教育两大领域实现首批应用落地。这是国内首个聚焦区域文化的多模态大模型首次系统性披露建设进展。

值得关注的是,大会上,岭南文化大模型实验室发布“广东外贸一千年”多模态语料集。语料集探索“一展一知识库”,推动文博展览从“一次展示”走向“长期复用”。

10亿词元筑底座,让大模型“学透”岭南文化

语料建设是项目最核心的基础。过去一年,项目团队系统整理形成了超过10亿词元的岭南文化语料,覆盖13大类、200多个子类,数据形态涵盖文本、图片、音频、视频,并已完成广东省数据知识产权登记。对区域文化模型而言,这意味着其能力建设不再依赖零散信息的简单调用,而是建立在较大规模、较高结构化程度的本土文化知识供给之上,为后续模型训练、知识组织和场景应用提供了稳定底座。

其中最具突破性的是粤语思维链语料集的发布。岭南文化大模型实验室负责人解释,当前主流大模型在处理粤语时,本质上走的是一条“曲线路径”——先将粤语翻译成普通话,再基于普通话语义生成回答,最后转回粤语输出。这种“翻译中转”模式导致模型在面对方言逻辑、文化隐喻和本土表达时往往“水土不服”,丢失了大量只有粤语母语者才能领会的语义细节。而实验室构建的粤语思维链数据集,通过系统化标注粤语推理路径,让模型能够像在广州土生土长的人那样直接用粤语逻辑进行思考,而非经由普通话“中转”。该数据集已于2025年12月面向全国开源,系国内首个面向区域方言的思维链语料资源,发布后引起学界和业界广泛关注。

模型方面,实验室基于DeepSeek和通义千问等国产基座模型,通过文化数据深度蒸馏微调,先后发布7B至72B多个参数规格的岭南文化垂直模型,具备文字、图片、视频等多模态处理能力。在合规层面,实验室已于2025年9月、2026年1月分别完成深度合成算法备案和生成式人工智能大模型备案,成为目前国内为数不多完成“双备案”的区域文化大模型团队。

从文旅导览到教育互动,两大场景率先落地

有了技术基础和示范成果,关键还要“用起来”。过去一年,岭南文化大模型在文旅和教育两大领域率先实现应用落地,让技术成果真正触达普通用户。

在文旅领域,2025年8月,基于岭南文化大模型打造的智能文旅服务产品“文化通”正式上线羊城派App,面向公众提供个人文旅导览、文化活地图等一体化智能服务。该产品入选省文旅厅、省工信厅联合发布的2025年广东“人工智能+文旅”应用场景典型案例。

下一步,实验室将推进“一村一芯”计划,为省内典型村落部署以本土文化语料微调过的垂直大模型,将每个村落独特的历史文脉、民俗风物、建筑遗产等转化为智能导览和文化体验产品,以数字化手段助力广东“百千万工程”在文化维度的纵深推进。

在教育领域,实验室正积极探索“一书一应用”模式——将图书内容、角色形象与AI互动能力进行深度融合,突破传统数字阅读的单向传播局限,让图书从“被阅读”变为“可对话”,从“静态文本”变为“活态体验”。

与此同时,围绕“岭南文化通识+AI素养”方向,实验室正研究制定面向校园和青少年群体的融合课程体系,计划在条件成熟后逐步在省内学校落地使用,并向港澳地区延伸,为大湾区青少年提供兼具文化底蕴与技术素养的创新课程资源。

“一个底座、一套模式、一条路径”

回顾过去一年的建设历程,实验室相关负责人将成果概括为“一个底座、一套模式、一条路径”:建设了一个底座——全国首个区域文化多模态大模型,实现模型自主可控;打造了一套模式——“一展一知识库”,让文化资产从“展完即散”变为“永续留存”;走出了一条路径——从文旅到教育,让岭南文化真正走进日常生活。

当前,羊城晚报报业集团已将岭南文化大数据中心建设列为“十五五”规划重点任务。下一步,实验室将围绕《广东省推进落实国家文化数字化战略实施方案》,持续深化语料建设、模型迭代和场景拓展,在文博、文旅、教育、社科研究等领域探索更多应用可能,推动岭南文化数字资源向更大范围的知识服务和产业应用转化。

“我们的目标很明确——让岭南文化在大模型时代不缺席、有话语权。”羊城晚报报业集团(羊城晚报社)党委委员、副社长丁华表示,当大模型重塑知识生产和文化传播的底层逻辑时,区域文化不应只是被动的数据供给方,而应成为主动的知识建构者。岭南文化拥有两千多年的深厚积淀,从粤剧粤曲到广彩广绣,从海上丝绸之路到改革开放前沿,这些独特的文化基因理应在人工智能时代获得新的表达方式和传播渠道。岭南文化大模型的一年实践,正是这一理念的具体回应。

相关内容

已致6死 德国北部枪击事件...
德国警方29日说,德国北部施塔德当天发生的枪击事件已造成6人死亡。...
2026-06-30 09:22:49
强对流天气蓝色预警:陕西山...
央视网消息:中央气象台6月30日06时继续发布强对流天气蓝色预警,...
2026-06-30 09:22:21
防癌医疗险能“补缺” 保障...
在人口老龄化加速、癌症发病率攀升的背景下,防癌医疗险备受关注。近年...
2026-06-30 09:21:54
广州对“偷面积”开出首张公...
文、图、视频/羊城晚报全媒体记者 江皓轩广州市荔湾区城管执法局近日...
2026-06-30 09:21:00
新华社访谈|在新疆,播种“...
新疆巴音郭楞蒙古自治州,3000亩棉田边,艾海鹏和凌磊用手机屏幕操...
2026-06-30 04:10:00
上海一高校老师发表为什么导...
连日来,一篇名为《为什么导师喜欢娶自己的博士》的论文截图在网上流传...
2026-06-30 04:09:11
习近平会见白俄罗斯总统卢卡...
6月29日上午,国家主席习近平在北京钓鱼台国宾馆会见白俄罗斯总统卢...
2026-06-30 04:08:44
扛着冰箱陪“公主”参赛,省...
第十七届广东省运会群众赛事活动桨板比赛,这个周末在清远阳山连江河段...
2026-06-30 04:06:53
“AI+机器人”把关高危工...
文/羊城晚报全媒体记者 梁怿韬 通讯员 成广聚 陈梓佳图/通讯员提...
2026-06-30 02:47:56

热门资讯

已致6死 德国北部枪击事件可能... 德国警方29日说,德国北部施塔德当天发生的枪击事件已造成6人死亡。据称,该事件可能与家庭矛盾有关。警...
强对流天气蓝色预警:陕西山西等... 央视网消息:中央气象台6月30日06时继续发布强对流天气蓝色预警,预计6月30日08时至7月1日08...
防癌医疗险能“补缺” 保障责任... 在人口老龄化加速、癌症发病率攀升的背景下,防癌医疗险备受关注。近年来,广州推出的商业健康保险产品持续...
广州对“偷面积”开出首张公开罚... 文、图、视频/羊城晚报全媒体记者 江皓轩广州市荔湾区城管执法局近日对力诚榕诚湾项目开出首张“偷面积”...
新华社访谈|在新疆,播种“梦的... 新疆巴音郭楞蒙古自治州,3000亩棉田边,艾海鹏和凌磊用手机屏幕操控着远处的无人机。飞机从棉田上方掠...
上海一高校老师发表为什么导师喜... 连日来,一篇名为《为什么导师喜欢娶自己的博士》的论文截图在网上流传开来,引发热议,第一作者署名为单福...
习近平会见白俄罗斯总统卢卡申科 6月29日上午,国家主席习近平在北京钓鱼台国宾馆会见白俄罗斯总统卢卡申科。新华社记者 申宏 摄新华社...
扛着冰箱陪“公主”参赛,省运会... 第十七届广东省运会群众赛事活动桨板比赛,这个周末在清远阳山连江河段开桨。江面百板竞发,两岸人声鼎沸。...
“AI+机器人”把关高危工作,... 文/羊城晚报全媒体记者 梁怿韬 通讯员 成广聚 陈梓佳图/通讯员提供市民丢弃的生活垃圾,最终将运至终...
师生专享多重优惠!广州从化集结... 考完试,赴一场夏日清凉之旅!为回馈2026届全国中高考毕业生、在从高校学子以及全体人民教师,广州从化...