本站点使用cookies,继续浏览表示您同意我们使用cookies。Cookies和隐私政策>

科大讯飞:听见AI的声音

2018年07月25日 文/许胜蓝、薛桦

未来的人工智能什么样?现在还没有确定的答案,但能确定的是现在只是开始。科大讯飞执行总裁、消费者事业群总裁胡郁表示,人工智能经过60多年的发展,现在刚刚找到了一个可能达到人类智能的入口。怀揣着“让世界聆听我们的声音”的梦想,科大讯飞依托世界领先的核心技术,引领智能浪潮,服务亿万用户,从中国语音产业的拓荒者一跃成为世界人工智能产业的领军者,而最初科大讯飞把语音作为切入点却是源于偶然……

从智能语音到讯飞超脑

科大讯飞1999年成立的时候,手上只有一项技术就是语音技术,当时的目标是让机器开口说话。胡郁笑谈:“当时我们并不知道,我们处于人工智能的范畴,至少自己没有清晰的概念。我们更加不知道的是,1999年恰恰是人工智能的第二次冬天。就像华为任总以前经常讲的一句话,华为要是知道通讯行业这么难做,可能就不会做了。我们当时也是,如果知道人工智能处于那样的环境,可能就不会创业了。这既有巧合,又是冥冥之中的注定。”

“2003-2004年以后,人工智能还不是特别热,我们慢慢意识到我们做的恰好是人工智能最关键的技术。”人类的智能相对于其他动物或者相对于机器,最重要的是认知智能,而认知智能的主要来源是人类对语言的掌握和对知识的表达,然后在这个基础上进行逻辑推理和复杂的决策。以语音和语言为中心的认知革命,是人类智慧的最高水平,也是现在人工智能所面临的最大挑战。

作为讯飞超脑的总牵头人,胡郁作出了这样的诠释:“2014年,我们在业界第一次推出‘讯飞超脑’计划,这不仅仅是一个口号。我们同时发布了对人工智能的定义,即运算智能。机器从发明的第一天开始,就比人类强很多,比如会下围棋的机器,就是机器运算智能的表现。还有类人机器具有感知智能和运动智能,具体表现是机器能够看到、听到、感觉到周围的世界。现在的类人和动物的机器已做得不错了。但是,人类之所以能够屹立在地球生物链的顶端,是因为人类的语言能力,我们称为认知智能。这是讯飞超脑计划的一个目标,让具备感知智能的机器从能听会说、能看会认,过渡到认知智能,即能理解,会思考。”

当前,“讯飞超脑”利用大数据来进行训练以提升相关算法,这其中的“训练”指代的并不是那种填鸭式的数据输入和训练,而是来自于真实应用场景的真实交互数据,让系统能够依据真实数据实现自主学习和提升,胡郁称之为涟漪效应,就像水滴入水面产生的涟漪一样,随着产品覆盖面的不断增加,数据量级也在快速攀升,进而带来产品体验的快速优化迭代,这一切的背后都依赖于“讯飞超脑”这个强大的人工智能引擎。

科大讯飞在语音合成、识别、评测,翻译等领域都拥有全球领先的核心技术。2005年至2018年,在全球最高水平的语音合成比赛Blizzard Challenge中,科大讯飞取得13连冠,同时科大讯飞各项关键指标均名列第一。在国际机器翻译评测IWSLT2014、NIST2015等大赛中科大讯飞连夺冠军。在过去6年中,科大讯飞的语音识别技术准确率从60.2%提升到98%以上。语音技术上的优势为科大讯飞向人工智能发展,同时落地行业与应用打下良好的根基。

讯飞在布局当前的大数据人工智能的同时,也在关心人工智能发展的另一方面,即与人脑相结合,基于类脑计算,试图找到人脑智能的奥秘,发现其中的智能动力学,进而真正让机器具备像人一样的智能,同时不受人脑物理空间的局限,以此来实现人工智能领域真正的突破。

智能交互改变生活

科大讯飞是真正把人工智能的应用落地了。在2010年,科大讯飞开发了世界上第二个、中国第一个语音输入法,仅次于谷歌,讯飞输入法主打语音输入,语音识别准确率超98%,同时支持22种方言的语音输入。

在2016年,科大讯飞发布了第一个智能终端产品讯飞翻译机。2018年4月又推出了讯飞翻译机2.0,主打中文与33种语言实时互译、方言翻译和拍照翻译,并独家具备4G、Wi-Fi和离线翻译模式。翻译机86%的用户用于出境游。考虑到用户可能不会使用标准普通话,讯飞翻译机2.0同时搭载了方言和带方言口音非标准普通话的识别能力,目前已支持粤语、四川话、东北话、河南话四大方言。方言种类还在持续增加中,并能根据用户的不同使用场景与用词习惯,准确识别并给出最符合语境的翻译结果,真正做到了落地实用。可以说,讯飞翻译机2.0是至今世界上销量最好、好评度最高的手持式智能翻译系统。

胡郁说:“有人主张把翻译功能完全整合到手机里,没有必要专门为此做一个硬件,但‘做翻译机是科大讯飞深思熟虑的结果’”。首先,手机的主要使用场景是近场使用,没有考虑到在翻译过程中人可能离得比较远、环境噪声大等问题;其次,他认为智能硬件的精髓在于好用,在于方便快捷,打开即用,一步到位才能有更好的体验,而手机中使用APP的过程繁琐,操作不便;第三,翻译场景应该有更自然、更亲和的交互,将手机直接放在别人嘴边也不符合我们的交往礼仪。

为了构建未来人工智能产业生态体系,在2010年讯飞发布了语音云平台。目前平台上的开发者已经超过86万,连接19亿设备,每日提供近46亿次交互服务,数以百万计的开发者正在借助科大讯飞的核心技术开发智能产品,服务于我们生活的方方面面。

2015年,科大讯飞进一步发布了对人工智能产业具有里程碑意义的人机交互界面——AIUI,重新定义了万物互联时代的人机交互标准。胡郁说道:“2017年,科大讯飞被宣布作为首批国家新一代人工智能开放创新四大平台之一,旨在建成依托智能语音的国家新一代人工智能开放创新平台,这是国家对于讯飞人工智能产业生态的高度认可。”

专家系统赋能行业

智能语音和人工智能技术对传统行业赋能方面,科大讯飞也做了很多尝试,例如公检法、教育等行业。

在公检法领域,科大讯飞通过与最高法、最高检开展创新合作。2016年在安徽开展的测试显示,人工智能判断诈骗电话的准确率极高;人工智能还充当起法庭书记员,经测试,智能语音识别参与庭审取得实际效果,庭审时长缩短30%。

在教育领域,人工智能在“改卷子”方面的能力就超乎了人们的想象。在江苏省的高考智能阅卷验证中,两个不同的人工智能语文作文阅卷分差小于7分,一致率达92.82%,比两位老师的阅卷评分的一致率高出5%以上。在湖南省研究生考试的智能阅卷验证中,两个不同的人工智能分别对英语作文进行阅卷评分,分差小于6分的一致率竟高达99.83%,比两位老师的阅卷评分一致率高出了4%以上。胡郁表示,教育部考试中心正联合科大讯飞建设人工智能联合实验室,在教育领域酝酿着更多“黑科技”的诞生。

共建AI未来

科大讯飞与华为公司始终保持着紧密合作,双方充分依托各自行业领域的长期积淀优势,在电信平台、智能终端等领域建立了战略合作关系,携手推动语音及人工智能技术的深入应用。双方合作在2010年建立了世界上第一个中文语音的开放云平台。云计算能力开放以后,众多公司和开发者可以面向最终用户的各种需求,开发各种各样的产品,这就形成了生态的建设。

2018年5月,华为与科大讯飞签署战略合作协议,未来双方将在公有云服务、ICT基础设施产品、智能终端、以及办公IT四大领域开展深度战略合作。双方还将面向未来开发创新AI语音应用,拓展全新行业市场,做大规模共享收益,共同做强人工智能产业生态。

对于消费者市场,华为手机使用的技术中,有一部分是源于科大讯飞的智能语音技术加持。华为手机还将科大讯飞的AI技术和能力内化为华为手机能力的一部分,为其带来差异化的竞争优势。双方将基于科大讯飞的语音识别、语音合成、讯飞听见、讯飞翻译等语音AI技术和能力,围绕手机等智能终端产品以及终端云服务进行合作。

对于2B市场,华为在基础设施、内部办公产品等使用科大讯飞的技术与产品,双方将基于讯飞引擎和华为云资源,共同构筑华为云EI平台。面向未来+智能的时代,胡郁认为将来的人工智能都要在云计算上做。由于云计算的资源消耗比较大,将来有可能会在端计算和边缘计算上实现更好的人工智能,也许很快成为技术上的突破口。人工智能的应用也会更多地落地,真正解决问题。

我们有理由相信,未来华为和讯飞可以更好地依托自身优势,结合产业发展,共建更好的人工智能生态体系,为未来的AI生活增光添彩。