/csr-component-m/config/article/index.js
lx.huanqiu.com

摘 要:本案例描述了科大讯飞突破语言障碍、破解“卡脖子”困境,建立的面向全球的多语种语音服务平台。在过去相当长一段时间里,多语种智能语音技术一直掌握在谷歌、微软、Nuance等一众美国科技巨头手中。科大讯飞上海人工智能研究院构建的一套全语种通用的基于Global phone的字音转换系统和多模态文本分析系统,使端到端模型在工业界可以快速地实现产业应用,有效助力中国企业出海。在推动更多刚需行业应用落地的同时,科大讯飞还将人工智能语音技术应用于方言保护、拯救濒危语言等领域,助力推动人类文化瑰宝的延续与传承。

关键词:科大讯飞上海人工智能研究院;多语种语音技术;语音合成;语音识别;

案例正文:

奥运会从来不仅是体育技能的较量比拼,也是科技进步的集大成者,新技术、新成果的盛大“秀场”。当冬奥会正式进入“北京时间”,这次站在舞台中央的科技关键词是“沟通无障碍”。作为2022年北京冬奥会和冬残奥会官方自动语音转换与翻译独家供应商,科大讯飞提供的自动翻译和多语种语音转换、识别、合成等技术,助力达成赛场内外全球无障碍沟通交流。

在冬奥实现示范应用的背后,是科大讯飞在2019年面临语音技术“卡脖子”问题以来,开始全面布局多语种方向,致力构建面向全球的多语种语音服务平台。在两年内完成世界上主要官方语种的覆盖,并在效果上达到商用水平,从而解决多语种的人机交互、语言互通等难题。

多语种语音技术难在哪儿?

多语种语音技术包含语音合成、语音识别等多个技术方向,“语音识别”是让机器“会听”,“语音合成”就是让机器“会说”。对于语音合成,特别是“多语种语音合成”来说,则是要让机器不仅会说中文,还能说国外语种,甚至少数民族语言和方言。

科大讯飞曾在国际语音合成界最具权威性和影响力的国际赛事Blizzard Challeng上蝉联14个世界冠军,在中英文大语种方面取得语音合成的重大突破,但这还远远不够。在过去相当长一段时间里,多语种智能语音技术一直掌握在谷歌、微软等一众美国科技巨头手中,一定程度上可以说这项技术被国外垄断了。再加之2019年国内外形势的突变,坚定了科大讯飞开始全面布局多语种方向的决心。科大讯飞上海人工智能研究院多语种合成团队临危受命,致力两年内完成对世界上主要官方语种的覆盖,并且在效果上达到商用水平,进而解决多语种的人机交互、语言互通等问题。

多语种语音技术难度相比中英文大语种难得多,难在哪儿?以中文为例,它有一套成熟且推广度极高的汉语拼音体系,可以直接用在中文合成和识别等系统里,解决语音合成中“由字到音”或者识别中“由音到字”的问题。然而世界上大部分其它语种并没有一套比较完善的语言学理论作为基础,因此多模态文本分析,特别是字音转换,就成了技术突破的重难点。

“说实话,当时接到这个任务的时候,整个团队都有些没底。”科大讯飞上海人工智能研究院多语种合成团队负责人高丽介绍道,“在研发过程中,我们团队很多时候是在探索和研究语言学、工程学的高效融合,我们期望通过构建一套最简洁的语言学表征,来表示尽可能多的语义相关的内隐概念和语法系统,可以让模型进行高效的学习。” 

另一方面的压力来源于缺少小语种语言专家的支持。实现语音合成的前提条件,是需要找到专业且有声音特色的母语者,用专业的录音设备录制10小时以上,从而建立起高品质的音库。

“我们当时没有任何可以提供高品质多语种发音人的录音渠道,伴随着新冠肺炎疫情的爆发,特别是国外疫情的持续,给我们数据的跨国采集以及寻找专家资源的支持,都带来了非常大的难度。同时基于我们当时的技术方案,10人左右规模的团队,两年内要完成世界主要官方语种的能力建设,并快速达到商业应用水平,是不可能的事情。”高丽回忆道。

站上国际舞台的中国多语种语音技术

面对重重困境,上海人工智能研究院多语种合成团队从两方面着手破局,一是成立核心技术紧急研究攻关小组,研发一套通用性强、鲁棒性高的新一代多语种语音合成系统,二是通过各种方式拓展多语种发音人的录音渠道,截至2022年,已累积全球范围内100多个发音人录音渠道。

团队负责人高丽表示,“尽管困难一个接着一个,但我们团队也有足够的定力和底气,来源于我们十多年来在多语种合成领域的耕耘与积累,我们在这方面已经有了一套通用的方法论,所以在端到端时代,我们可以快速构建一套全语种通用的基于Global phone的字音转换系统和多模态文本分析系统,使得端到端模型,不论是语音合成模型还是语音识别模型,在工业界可以快速地实现产业应用。”

经过两年多的努力,团队研究成果逐渐显现。2021年11月10日,在国际低资源多语种语音识别竞赛OpenASR中,科大讯飞-中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队参加了所有15个语种受限赛道和7个语种非受限赛道,并全部取得了第一名的成绩。

2022年,科大讯飞上海人工智能研究院多语种合成团队的语音识别和语音合成能力已经达到了实际的商用水平。其中,语音识别覆盖了60余个语种,14个重点语种语言识别率率先达到90%的实用水平。语音合成则覆盖了30余个语种,MOS分均达到4.0+的实用水平,满足商用级别要求,有效解决了国内多语种智能语音技术的“卡脖子”难题。可以说,中国的多语种智能语音技术以绝对亮眼的成绩站上了国际舞台。

用技术解决社会刚需 也让技术富有温情

科大讯飞上海人工智能研究院多语种合成团队构建的面向全球的多语种语音服务平台,正切实为“中国制造”的出海产品提供自主可控的解决方案。例如在手机、家电方面,科大讯飞为国内众多手机厂商提供了包括中英文在内的多语种语音识别、语音合成能力解决方案,并联合海尔研发多语种识别系统,助力其拓展东南亚市场;在车载交互方面,科大讯飞与上汽、长安、奇瑞等国内主要出海汽车提供商,以及俄罗斯汽车工程研究院(NAMI)等海外车厂开展多语种项目合作,覆盖了英语、俄语、日语、泰语、西班牙语、意大利语等数十个语种。

据联合国教科文组织数据,在世界范围内,平均每两周就有一种语言消失。在我国,随着普通话的普及,一些少数民族语言、方言等弱势语言正濒临灭绝。以满语为例,每一亿个中国人中,只有一人能够熟练掌握这种语言。语言不仅是人类最基本的交流工具,更是民族文化和历史的载体。每当一种语言走向消亡,意味着又有了更多绵延留长、用语言来传承的人类文化遗产远离了我们。

而人工智能的出现,让濒危的弱势语言又有了复活的可能。因此,在推动更多刚需行业应用落地的同时,科大讯飞还将人工智能语音技术应用于方言保护、拯救濒危语言等领域,助力推动语言这种特殊的人类文化瑰宝的延续与传承。

科大讯飞于2017年发起“方言保护计划”,目前已实现13种方言的语音合成、25种方言的语音识别、2种方言的翻译应用。通过方言库的持续积累,方言保护计划的成果已在教育、文旅、媒体等多行业的应用场景切实落地。

面向未来,团队研发出的AI智能语音技术支持开展濒危语言的复刻,囊括锡伯语、彝语等少数民族语言,上海话、苏州话、客家话等方言,“保护语言多样性就是保护文化多样性,保护文化多样性也是保护人类命运共同体的多样性。”高丽说。案例评点: 

“依托重大专项,通过内外部多方向集中攻关,实现了端到端建模、无监督训练和国产化推理训练等关键技术突破,在国内首次完成了60个语种的语音语言技术并达到国际领先,荣获 Blizzard Challeng、openASR等多项世界冠军,在冬奥实现示范应用,并通过创新合作、产品出海和生态构建,为中国智造出口、‘一带一路’语言互通和国家信息安全保障奠定了坚实基础。”

中国科学技术大学电子工程与信息科学系教授 凌震华

摘 要:本案例描述了科大讯飞突破语言障碍、破解“卡脖子”困境,建立的面向全球的多语种语音服务平台。在过去相当长一段时间里,多语种智能语音技术一直掌握在谷歌、微软、Nuance等一众美国科技巨头手中。科大讯飞上海人工智能研究院构建的一套全语种通用的基于Global phone的字音转换系统和多模态文本分析系统,使端到端模型在工业界可以快速地实现产业应用,有效助力中国企业出海。在推动更多刚需行业应用落地的同时,科大讯飞还将人工智能语音技术应用于方言保护、拯救濒危语言等领域,助力推动人类文化瑰宝的延续与传承。

关键词:科大讯飞上海人工智能研究院;多语种语音技术;语音合成;语音识别;

案例正文:

奥运会从来不仅是体育技能的较量比拼,也是科技进步的集大成者,新技术、新成果的盛大“秀场”。当冬奥会正式进入“北京时间”,这次站在舞台中央的科技关键词是“沟通无障碍”。作为2022年北京冬奥会和冬残奥会官方自动语音转换与翻译独家供应商,科大讯飞提供的自动翻译和多语种语音转换、识别、合成等技术,助力达成赛场内外全球无障碍沟通交流。

在冬奥实现示范应用的背后,是科大讯飞在2019年面临语音技术“卡脖子”问题以来,开始全面布局多语种方向,致力构建面向全球的多语种语音服务平台。在两年内完成世界上主要官方语种的覆盖,并在效果上达到商用水平,从而解决多语种的人机交互、语言互通等难题。

多语种语音技术难在哪儿?

多语种语音技术包含语音合成、语音识别等多个技术方向,“语音识别”是让机器“会听”,“语音合成”就是让机器“会说”。对于语音合成,特别是“多语种语音合成”来说,则是要让机器不仅会说中文,还能说国外语种,甚至少数民族语言和方言。

科大讯飞曾在国际语音合成界最具权威性和影响力的国际赛事Blizzard Challeng上蝉联14个世界冠军,在中英文大语种方面取得语音合成的重大突破,但这还远远不够。在过去相当长一段时间里,多语种智能语音技术一直掌握在谷歌、微软等一众美国科技巨头手中,一定程度上可以说这项技术被国外垄断了。再加之2019年国内外形势的突变,坚定了科大讯飞开始全面布局多语种方向的决心。科大讯飞上海人工智能研究院多语种合成团队临危受命,致力两年内完成对世界上主要官方语种的覆盖,并且在效果上达到商用水平,进而解决多语种的人机交互、语言互通等问题。

多语种语音技术难度相比中英文大语种难得多,难在哪儿?以中文为例,它有一套成熟且推广度极高的汉语拼音体系,可以直接用在中文合成和识别等系统里,解决语音合成中“由字到音”或者识别中“由音到字”的问题。然而世界上大部分其它语种并没有一套比较完善的语言学理论作为基础,因此多模态文本分析,特别是字音转换,就成了技术突破的重难点。

“说实话,当时接到这个任务的时候,整个团队都有些没底。”科大讯飞上海人工智能研究院多语种合成团队负责人高丽介绍道,“在研发过程中,我们团队很多时候是在探索和研究语言学、工程学的高效融合,我们期望通过构建一套最简洁的语言学表征,来表示尽可能多的语义相关的内隐概念和语法系统,可以让模型进行高效的学习。” 

另一方面的压力来源于缺少小语种语言专家的支持。实现语音合成的前提条件,是需要找到专业且有声音特色的母语者,用专业的录音设备录制10小时以上,从而建立起高品质的音库。

“我们当时没有任何可以提供高品质多语种发音人的录音渠道,伴随着新冠肺炎疫情的爆发,特别是国外疫情的持续,给我们数据的跨国采集以及寻找专家资源的支持,都带来了非常大的难度。同时基于我们当时的技术方案,10人左右规模的团队,两年内要完成世界主要官方语种的能力建设,并快速达到商业应用水平,是不可能的事情。”高丽回忆道。

站上国际舞台的中国多语种语音技术

面对重重困境,上海人工智能研究院多语种合成团队从两方面着手破局,一是成立核心技术紧急研究攻关小组,研发一套通用性强、鲁棒性高的新一代多语种语音合成系统,二是通过各种方式拓展多语种发音人的录音渠道,截至2022年,已累积全球范围内100多个发音人录音渠道。

团队负责人高丽表示,“尽管困难一个接着一个,但我们团队也有足够的定力和底气,来源于我们十多年来在多语种合成领域的耕耘与积累,我们在这方面已经有了一套通用的方法论,所以在端到端时代,我们可以快速构建一套全语种通用的基于Global phone的字音转换系统和多模态文本分析系统,使得端到端模型,不论是语音合成模型还是语音识别模型,在工业界可以快速地实现产业应用。”

经过两年多的努力,团队研究成果逐渐显现。2021年11月10日,在国际低资源多语种语音识别竞赛OpenASR中,科大讯飞-中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队参加了所有15个语种受限赛道和7个语种非受限赛道,并全部取得了第一名的成绩。

2022年,科大讯飞上海人工智能研究院多语种合成团队的语音识别和语音合成能力已经达到了实际的商用水平。其中,语音识别覆盖了60余个语种,14个重点语种语言识别率率先达到90%的实用水平。语音合成则覆盖了30余个语种,MOS分均达到4.0+的实用水平,满足商用级别要求,有效解决了国内多语种智能语音技术的“卡脖子”难题。可以说,中国的多语种智能语音技术以绝对亮眼的成绩站上了国际舞台。

用技术解决社会刚需 也让技术富有温情

科大讯飞上海人工智能研究院多语种合成团队构建的面向全球的多语种语音服务平台,正切实为“中国制造”的出海产品提供自主可控的解决方案。例如在手机、家电方面,科大讯飞为国内众多手机厂商提供了包括中英文在内的多语种语音识别、语音合成能力解决方案,并联合海尔研发多语种识别系统,助力其拓展东南亚市场;在车载交互方面,科大讯飞与上汽、长安、奇瑞等国内主要出海汽车提供商,以及俄罗斯汽车工程研究院(NAMI)等海外车厂开展多语种项目合作,覆盖了英语、俄语、日语、泰语、西班牙语、意大利语等数十个语种。

据联合国教科文组织数据,在世界范围内,平均每两周就有一种语言消失。在我国,随着普通话的普及,一些少数民族语言、方言等弱势语言正濒临灭绝。以满语为例,每一亿个中国人中,只有一人能够熟练掌握这种语言。语言不仅是人类最基本的交流工具,更是民族文化和历史的载体。每当一种语言走向消亡,意味着又有了更多绵延留长、用语言来传承的人类文化遗产远离了我们。

而人工智能的出现,让濒危的弱势语言又有了复活的可能。因此,在推动更多刚需行业应用落地的同时,科大讯飞还将人工智能语音技术应用于方言保护、拯救濒危语言等领域,助力推动语言这种特殊的人类文化瑰宝的延续与传承。

科大讯飞于2017年发起“方言保护计划”,目前已实现13种方言的语音合成、25种方言的语音识别、2种方言的翻译应用。通过方言库的持续积累,方言保护计划的成果已在教育、文旅、媒体等多行业的应用场景切实落地。

面向未来,团队研发出的AI智能语音技术支持开展濒危语言的复刻,囊括锡伯语、彝语等少数民族语言,上海话、苏州话、客家话等方言,“保护语言多样性就是保护文化多样性,保护文化多样性也是保护人类命运共同体的多样性。”高丽说。案例评点: 

“依托重大专项,通过内外部多方向集中攻关,实现了端到端建模、无监督训练和国产化推理训练等关键技术突破,在国内首次完成了60个语种的语音语言技术并达到国际领先,荣获 Blizzard Challeng、openASR等多项世界冠军,在冬奥实现示范应用,并通过创新合作、产品出海和生态构建,为中国智造出口、‘一带一路’语言互通和国家信息安全保障奠定了坚实基础。”

中国科学技术大学电子工程与信息科学系教授 凌震华

43147
10995
10996
11000
11001
10997
11023
11024
10998
11016
11006
11002
11003
10999
11017
11326
11018
11007
11004
11005
11019
11020
7009984
11328
11008