2019-04-03 星期三
日期检索 本期头版  本期内容导航 

阿里投入1亿元对汉语方言进行保护和开发,此举能否化解上海年轻人不会说标准沪语的尴尬

没有语言环境使用方言,现在的保存就是冷冻?

2019年04月03日   05: 焦点   稿件来源:解放日报  


■本报见习记者 王倩 刘雪妍

700元时薪,不限性别、年龄和学历,只要能说一口地道的四川话,即可担任“声音模特”,成为四川方言的“代言人”。3月中旬,智能音箱天猫精灵的这则招聘启事引发热议。

3月20日,天猫精灵研发部门、阿里AI labs(人工智能实验室)宣布,将成立方言保护专项小组,投入1亿元对汉语方言进行保护和开发。上周,阿里宣布最新工作进展,四川话语音识别功能开始公测,这意味着天猫精灵将能听懂四川话。

在长期使用中,汉语方言已成为识别身份的“符号”。把一个地方的方言记录下来,就相当于有了一本关于当地的百科全书。使用人工智能等新技术挽救方言文化,是否可以为方言保护带来新的可能?

现状◆◆◆

平均每个月有两种语言消失

世界上已知的语言有近7000种,但96%的语言目前只由占全球总数不到3%的人使用,它们消失的速度比物种灭绝还要快。

纪录片《海豚湾》导演路易·西霍尤斯这么形容物种灭绝:“就像把全球所有知识放在一座图书馆中,在读这些书之前,我们就放火烧图书馆了。”随着栖息地大幅减少,物种消失的速度,要超过人类记录物种存在的速度。

世界上已知的语言有近7000种,但有96%的语言目前只由占全球总数不到3%的人使用,它们消失的速度比物种灭绝还要快,平均每个月就有两种语言消失。

据《中国濒危语言志》汉语方言系列双主编之一、陕西师范大学文学院教授邢向东介绍,汉语方言的分区是分层次的,官话、粤语、赣语、吴语等是大方言区,大方言里还分次方言、小方言。方言消失有两种情况:一种是城市化水平越来越高、农村空心化严重,方言受普通话和强势方言的影响,特点被消磨。新生代虽说可以听懂方言,但日常不说或根本不会说。学校采用普通话教学,广电媒体也使用普通话,在家庭环境中也是普通话交流,方言出现了代际传承危机,随之慢慢消亡。

另一种是一些弱势的小方言或方言岛成了濒危方言。在南方方言区,特别是在方言复杂的地区,“十里不同音”是很常见的,比如湖南的乡话,分布只有湘西三四个县的偏僻农村,是典型的濒危方言。“方言的消失速度很快,濒危方言更是如此,有的地方找濒危方言的发音人都很困难了。”

“一种语言的消失就是一种文化的消失,上海滩簧早期的曲调还有几个人知道?连上海沪剧院招演员都要去外地找,很多年轻人第一语言已经是普通话了。全世界目前尚有7000种语言,再过50年,可能只有一半语言能成活。”复旦大学中国语言文学系教授陈忠敏说,说话的环境就好像种花的土壤,没有了土壤,花就无法生存。下一代上海话可能就面临这样的危险境地。

2011年,陈忠敏曾和80多位学者一起倡议,在推广国家通用语言文字的同时,科学保护上海话。近二三十年城镇化进程加剧,上海城市方言由于语言接触而导致的语言变异越来越多,“90后”出生的新一代上海人说的上海话,与四五十岁以上的上海人所说的上海话,已大不一样。由陈忠敏领衔的复旦一批语言学专家,目前正在从事城市方言的变异研究,寻找上海话演变的脉络。

方言是具有鲜明地域文化特征的语话符号,在声韵调的搭配、句式的特点、词汇的变化上拥有独特魅力。陈忠敏以上海话中的“哇塞”举例,这个词是心情郁闷、难受的意思,在汉字中无法找到对应的字。

希望◆◆◆

方言保护工作开始露出曙光

语保工程投入专业技术人员超4500名,参与高校和科研院所超过350所。汉语方言调查了全国34个省市区、1495个调查点。

“现在国家层面逐渐认识到方言保护的意义和方言存在的价值了,认识到方言对地方文化的承载功能。”邢向东说,“虽然现状堪忧,但有曙光露出来,还是有希望的。最近,联合国教科文组织在北京发布首个以‘保护语言多样性’为主题的重要永久性文件《岳麓宣言》,相信会对中国的语言文化保护事业起到积极的推动作用。”

为科学保护各民族语言文字,2015年由教育部和国家语言文字工作委员会牵头的中国语言资源保护工程正式启动,这是目前世界上最大规模的语言资源保护项目,分为汉语方言调查、民族语言调查和建立中国语言资源保护工程采录展示平台三个部分。

语保工程投入专业技术人员超4500名,参与工程建设的高校和科研院所超过350所。汉语方言调查了全国34个省市区、1495个调查点,寻找了5000多个发音人。许多像邢向东一样的专家和专业工作者投入语保工程,大批专业工作者调查员课题组根据《中国语言资源调查手册》,对方言进行语言结构和口头文化两大部分调查,按照统一的技术标准,摄像、录音、保存、上交、入库。

“每一个方言调查点,我们要采集1000个字的读音,1200个词组和50个句子,还有口头文化语料”,对于那些濒危方言做了更系统、更大量的调查,“有的专家拿上来的书稿有五六十万字,在出版阶段又被压到35万字。”邢向东认为这个书可以写得更厚,容纳更多内容。据悉,第一批10册濒危汉语方言志即将出版。

作为濒危方言调查项目的负责人,他认为这个工程的系统性非常强,“从技术力量、专业力量看,几乎把全国从事方言工作,甚至跟方言有关系的语言学专家,全都动员起来。”

截至目前,中国语言资源保护工程的汉语方言调查和少数民族语言调查记录的百万条视频、音频的储存总容量超过40TB。

清华大学的团队负责中国语言资源保护工程采录展示平台的搭建和更新维护,这是语保工程中的技术支撑。据项目参与人、清华大学计算机软件研究所高级工程师张鹏介绍,语保工程采录展示平台建设的目标在于对数字语言资源进行收集、存储、管理和服务,并进行语言资源的分析与研究,进而投入社会应用和建设多级语言系统。

除了“国家队”,一些个人也参与到行动中来。主持人汪涵希望自己能以“语言保护者”的身份被记住。2015年他发起“響應”(响应)计划,个人投入500万元,计划用5至10年时间,对湖南57个调查地的方言进行搜集研究,用声像方式保存方言资料。

记者手记

莫把能活下来的东西变化石

今年2月21日“国际母语日”,联合国教科文组织在北京发布首个以“保护语言多样性”为主题的永久性文件《岳麓宣言》,号召国际社会就保护和促进语言多样性达成共识。

目前国内正在用来保护方言的科技手段,在部分学者眼中依然不能有效解决方言使用热情的问题。在复旦大学中国语言文学系教授陈忠敏看来,语言是活的,人与人之间的交流形式多样,一个言语社团充满变异。同样一句话,在不同的背景噪音、不同的心情、语气、环境等因素下,会产生不同的变异,但是不妨碍人际沟通,而机器可能就无法分辨。“机器语言识别的方法是获取大样本提高算法精度,从而提高语言的识别率。现在的人工智能是大样本匹配,与人类的认知仅需小样本就能达到高识别率完全不同。目前,语言运作的脑机制研究还处在盲人摸象阶段。”

陈忠敏把通过AI或其他先进科学方式识别记录、保存方言资源的过程,“不恰当”地比喻为:“好像为一个生育能力下降的高龄女子冻卵。没有语言环境去使用方言,现在的保存就是一种冷冻。”对此,阿里巴巴集团公关部公关经理朱珠回应,“我们的产品(天猫精灵)是想推动大家日常使用方言,营造一个方言氛围。首先,天猫精灵肯定会做方言的版本,起码以后在四川地区,使用产品时会倾向用方言。”

拿一份报纸,能用方言流畅读下去,是陈忠敏判断方言掌握情况的标准。看似简单,但其实“现在很多年轻人做不到,说几句上海话就会冒出普通话。报纸上有很多书面的词汇,现在电台和电视台也很难招到沪语播音员了。”

陈忠敏80多岁的母亲不会说普通话,去三甲医院看病,许多医生听不懂她的上海话,往往要带着陈忠敏去做翻译。他认为,地方方言既有传承地方文化、弘扬地方特色的功能,也有语言服务、语言经济效益的功能。他更希望充分利用好这一无形资产,方言保护从娃娃抓起,不要把能活下去的东西变成化石。