智能语音将成下一代人机交互新入口
2017广州《财富》全球论坛晚宴上,小女孩用一口流利的英语和科大讯飞机器人“晓曼”交流,“晓曼”“听懂”后立即用中文回应。
受访者供图
“Hello,我是林志玲,祝您一路好心情哦”、“我是罗永浩,请镇定一下,我要开始导航了”,对于某些地图导航的用户来说,这样的语音一定不陌生。但你可能不知道,这并不是一字一句录制,而是借助了科大讯飞的语音识别功能。只需要3小时的声音素材,就可以合成所需要的声音。
2017年11月,国家科技部宣布科大讯飞以智能语音成为国家新一代人工智能开放创新平台之一。包括BAT在内的互联网巨头也纷纷抢滩智能语音领域。
智能语音为何能成为人工智能领域的重点项目?站在第三次人工智能浪潮的当口,智能语音的应用又将如何改变我们的生活?
南方日报记者 彭琳 姚翀 实习生 韩谦
商业一线
智能语音在多个领域广泛应用
智能语音设备之外,中国企业在语音转写技术、语音输入法方面也走在了商业应用前沿
当你回到家,说声“叮咚叮咚,我回来了”:灯自动打开,窗帘自动闭合,空调启动,电视自动打开并跳转到你平时最常看的频道,客厅里响起你喜欢的音乐——京东和科大讯飞合作推出的叮咚智能音箱就是这个智能家居场景的“总导演”。
近几年,国外微软、苹果、亚马逊,国内科大讯飞、腾讯、百度、阿里等企业,无一不在紧锣密鼓地推进智能语音的商业应用落地。
2011年,苹果Siri语音助手正式亮相。正是以Siri的发布为引爆点,智能语音应用领域由传统行业向移动互联网等新兴领域延伸。在2017年苹果WWDC开发者大会上,Siri的智能化进一步提升,加入了实时翻译功能、支持上下文的预测,用户甚至可以用Siri作为Apple TV的遥控器。
中国智能语音交互系统的另一家领军企业百度在智能语音领域深耕多年。去年,百度推出DuerOS系统,广泛应用于音箱、电视、冰箱、手机、车载多个场景。在1月9日举行的2018年CES(国际消费类电子产品展览会)上,百度发布了DuerOS 2.0 的三款硬件产品——智能视频音箱、智能音箱灯和智能投影吸顶灯。
百度度秘事业部总经理景鲲表示,根据IDC的报告,在2020年前,27%的智能家庭将会拥有智能语音设备,51%的智能汽车和68%的智能手机和智能穿戴设备也会具备语音对话功能。“DuerOS是一个活跃的对话式AI生态体系,不仅有设备合作商,还有芯片制造商、系统整合商、内容开发者等等。”
智能语音设备之外,中国企业在语音转写技术、语音输入法方面也走在了商业应用前沿。
在2017年的全国两会上,科大讯飞的产品“讯飞听见”利用人工智能实时语音转写技术,首次在政府工作报告网络直播中实现同步字幕直播。此外,智能语音输入应用让讯飞输入法用户突破5亿,截至目前已支持22种方言语音输入,方言识别准确率达90%以上。
2017年11月,国家科技部宣布科大讯飞以智能语音成为国家新一代人工智能开放创新平台之一。
对此,科大讯飞股份有限公司品牌管理部总经理、华南公司副总裁吴骏华向记者表示,智能语音之所以成为新时代人工智能应用发展的重点方向之一,一方面来自于语音技术的成熟,另外一方面则是在万物互联的时代,语音成为了人机交互的新入口。
据吴骏华介绍,作为平台企业,科大讯飞会把人工智能核心技术开放出来,构建持续闭环迭代的生态体系。“我们将平台对广大的创客团队开放,截至2017年12月,讯飞开放平台的累计终端数已经达到15亿,日均交互次数达到40亿,创业团队数已经达到了50万。”
技术前沿
智能语音五年内将像水和电一样无处不在
除了语音识别之外,语义理解是目前各大企业需要攻克的技术难关
智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。
目前,在语音识别方面,科大讯飞、百度、苹果、谷歌等主流平台识别准确率均在96%以上,稳定的识别能力为智能语音技术的落地提供了可能。
“科大讯飞在语音识别上已经做到98%了。”吴骏华表示,在国际语音合成大赛(Blizzard Challenge)中,科大讯飞连续十二年蝉联第一名。在2016年CHiME Challenge国际多通道语音分离和识别大赛中,科大讯飞包揽全部三个测试项目的冠军,并大比分刷新历史纪录。吴骏华告诉记者,接下来,科大讯飞还要做多方言语音识别。目前,讯飞已经做到了22种方言。
百度在2017年宣布ALL IN AI之后,除了发力自动驾驶之外,也在语音智能方面持续发力。
景鲲表示,百度人工智能技术的方向包括语音识别Deep Speech、视觉识别“智能读图”、自然语言与智能语义等。凭借PaddlePaddle深度学习平台、亿万级大数据训练处理能力和超高速异构AI计算集群三大核心技术, 可模拟低龄人脑思维,拥有语音、图像、自然语言处理、用户画像四大能力。“其中,语音识别准确率达97%,支持27种语言互译。”
除了语音识别之外,语义理解是目前各大企业需要攻克的技术难关。吴骏华坦言,按照目前实现的语音合成和语音识别技术,科大讯飞可以完成在固定的范围内回答问题,但是在逻辑推理上机器今天还是没有办法实现突破。在语音理解没有重大技术突破的前提下,机器在语义理解方面还存在不小挑战。
微软亚洲研究院院长洪小文博士也指出,要做到百分之百的语义理解,是一个AI complete问题,只有解决了其他AI的问题才可能有解。“比如,你去参加一个鸡尾酒会,周围非常嘈杂,你讲的话里面十个有九个字我都没有听清,可是因为你讲的内容我大概知道,所以即使我听不清还是能够猜出你讲的是什么。但如果用语音识别和语义理解,可能会失败。在具体的应用场景,除了语音,还包括视觉、知识的综合使用,这是语音人工智能未来的挑战。”
国家政策层面,也在大力推动智能语音的发展。去年12月14日,科技部印发《促进新一代人工智能产业发展三年行动计划(2018—2020年)》,明确对智能语音的发展做出展望,“到2020年,实现多场景下中文语音识别平均准确率达到96%,5米远场识别率超过92%,用户对话意图识别准确率超过90%。”
对于未来智能语音的普及推广,吴骏华表示,在政策和行业的双重推动下,预计未来五年内,智能语音会像水和电一样无处不在。”
行业格局
智能音箱背后是语音交互技术的竞争
智能语音技术的普及,让智能音箱、智能家居客厅重回大众视野,成为科技巨头的“新宠”
在享有“互联网女皇”称号的玛丽·米克尔发布的2016年互联网趋势报告中,超过十分之一的篇幅在论述语音识别交互带来的改变。报告将语音功能赞誉为“人机交互的新范式”,并称语音功能“解放了双手和眼睛,扩展了永远在线的概念。市场认为,智能语音交互有望成为下一代人机交互新范式。
记者梳理发现,目前智能语音的参与者中,可以分为互联网巨头企业、智能语音公司、初创企业三种类型。
国内以BAT为首,国外以谷歌、亚马逊、苹果为首的互联网巨头,开放语音生态系统,以产业内合作的方式,将语音技术植入产品和或应用于相关业务场景,构建全产业生态链。2017年7月5日,百度在北京举办“2017百度AI开发者大会”,发布了DuerOS开放平台,开放技术能力满足智能语音设备开发者的需求。
而以科大讯飞为代表的智能语音公司,依托原有优势,从单一智能语音技术商向全方位人工智能技术服务商转变。思必驰、云知声、出门问问等初创厂商,则以垂直领域和细分场景为突破口,重点布局家居、车载和可穿戴设备。
不论哪种类型的参与企业,无一例外都开发了同一款产品——智能音箱。智能语音技术的普及,让智能音箱、智能家居客厅重回大众视野,成为科技巨头的“新宠”。
去年7月,百度收购美国语音交互技术公司KITT·AI,就在同一天,阿里发布智能音箱“天猫精灵X1”。此前,京东联合科大讯飞推出了“叮咚音箱”,腾讯云发布了“小微”。而国外智能音箱竞争大战早已打响,随着亚马逊Echo打开智能音箱的市场,谷歌的Google Home、苹果的Home Pod、微软的Invoke陆续上线。
纵观国内外市场,智能音箱市场引爆之势呼之欲出。
据Research and Markets研究报告显示,全球智能语音市场将持续显著增长,预计到2020年全球语音市场规模预计将达到191.7亿美元。近日,Canalys公布的报告也预测,2018年将是智能音箱普及的一年,相比2017年出货量的3000万台,2018年的出货量预计将达到5630万台。
通过智能语音交互技术,占领未来智能生活的家庭入口,这是国内外科技巨头纷纷布局智能音箱背后的深层逻辑。
中大创投联合创始人郑贵辉认为,声音这种最直接的指令方式,被认为是目前最好的人机交互方式,也成为了控制其他家庭硬件的方式。从产业角度看,智能音箱实质是通过声音做智能交互,而音箱只是一个表现形式。现在这些巨头做的智能开放平台,目的都是聚合技术,提升产品的竞争力。“科技巨头们都蓄谋已久,瞄准这个风口。以智能音箱为载体,背后是智能语音交互技术的竞争。”
大事记
2011年
苹果Siri语音助手正式亮相。
2014年11月
亚马逊发布第一台Echo智能音箱,2016年销量突破500万台,2017年预计Echo销量超1000万台。
2017年
科大讯飞语音识别的准确率进一步提升到98%,中文准确率超过了英文。
2017年6月8日
科大讯飞AIUI开放平台上线,帮助开发者实现产品智能化。
2017年7月
在国际语音合成大赛(Blizzard Challenge)中,代表中国参赛的科大讯飞AI研究院、语音及语言信息处理国家工程实验室包揽了本次赛事核心指标的冠亚军。
2017年7月5日
百度在北京举办“2017百度AI开发者大会”,发布DuerOS开放平台。
2017年7月5日
阿里巴巴在北京举行“阿里人工智能实验室2017夏季新品发布会”发布阿里人工智能实验室第一款智能语音终端设备“天猫精灵X1”。
2017年11月15日
科技部召开了新一代人工智能发展规划暨重大科技项目启动会,科大讯飞成为四大国家人工智能开放创新平台之一。
2017年12月14日
科技部印发《促进新一代人工智能产业发展三年行动计划(2018—2020年)》,对智能语音的发展做出展望,“到2020年,实现多场景下中文语音识别平均准确率达到96%,5米远场识别率超过92%,用户对话意图识别准确率超过90%。”
2018年1月9日
CES(国际消费类电子产品展览会)上,百度发布了DuerOS 2.0 的三款硬件产品——智能视频音箱、智能音箱灯和智能投影吸顶灯。
■AI大局观
人工智能已准备好
为世界赋能
科大讯飞 魏思
当前,人工智能的第三次浪潮已经到来,其广阔前景和战略意义日益凸显,且正在全球范围内引发全新的产业浪潮。
人工智能从技术阶段上主要分为计算智能、感知智能和认知智能三个阶段。计算智能是让机器具备能存会算的能力,目前,人工智能的计算能力已经超过了人类。感知智能是让机器能听会说,在这一领域,人工智能也超过了绝大多数的人类。比如,科大讯飞的语音识别技术可以把语音实时转写成文字,准确率超过了速记员。
认知智能是人工智能的高级阶段,科学家们期望推动机器拥有类似人类的智慧,甚至具备各个行业领域的人类专家的知识积累和应用的能力。在认知智能领域,中美两国都已经进入无人区。
2017年12月11日,国家科技部将认知智能国家重点实验室交由科大讯飞来承建,这是继科技部公布科大讯飞列入国家首批新一代人工智能开放创新平台之后,又一次把探索人工智能顶尖领域的任务交给了科大讯飞。
在人工智能时代,我们一直认为,人工智能是用来延伸人类能力而非替代人类,不是说用技术去替代某些行业的工作,而是希望人机耦合互动提高效率。例如速记行业,人工转写准确率是80%,机器转写在大部分场景下的准确率是95%以上。将来最好是让速记员和“讯飞听见”合作,可能一个人带着100个机器去100个会议,并做到正确率100%的会议记录转写。
今天人工智能助手可能只能帮我们解决10%的工作,但很快,它就能帮我们可以解决30%甚至80%的工作,五年以后希望人工智能能够帮我们解决90%以上的工作。与此同时,人类可以去做更具创意的事情。人机耦合互动,是未来人工智能最有希望做成,而且也是最满足社会伦理价值观的模式。
人工智能的概念很宏大,但真正的成功会依赖于垂直渗透,核心技术的持续突破,使得机器通过学习顶尖专家知识,达到一流专家水平,并超过90%的普通专业人士。因此,人工智能已准备好为世界赋能。
这是否意味着以后人工智能的世界只要有算法,机器就可以无所不能了呢?我们认为,在绝大部分领域中,用人工智能改变世界,需要具备三要素:核心技术、行业数据、领域专家。
通过和教育部考试中心共建人工智能联合实验室、和中国医学科学院北京协和医学院共建医学人工智能研发中心、和最高人民检察院共建创新研究院,科大讯飞正在努力搭建平台,用最好的数据和专家去训练具有核心技术的人工智能系统,让人工智能更好地服务于教育、医疗、司法等各行各业。
科大讯飞在2015年正式发布AIUI平台,吸引和鼓励开发者们使用顶尖的人工智能技术去做各个细分领域的市场。截至2017年12月,讯飞开放平台累计终端数超过15亿,开发者团队达到50万家,日均交互次数已达40亿。
我们认为,将来决定人工智能发展的是整个产业链的发展,整个产业生态的繁荣才能推动整个人工智能的成长。同时,我们还把人工智能生态延伸到技术创新的科学家,让每一位科学家的源头技术创新成果可以集成到AIUI平台上,不仅赋能开发者,也能帮助科学家。
在华南地区,我们成立了科大讯飞华南人工智能研究院,将围绕自然语言理解、图像识别、大数据基础平台、云计算平台等核心技术方向开展研究工作。同时,将人工智能核心技术创新与行业应用相结合,打造覆盖华南地区、产业特色明显、创新能力突出、辐射带动作用强的一大批人工智能示范应用。
在教育领域,我们的英语智能学习平台“E听说”提供了涵盖英语听说考试、教学、练习全场景的学习及备考解决方案,科大讯飞希望通过人工智能技术使因材施教成为现实。在医疗领域,科大讯飞的语音电子病历、医学影像辅助诊断系统、导诊机器人等产品可以大大节约一线医生的时间。
“人工智能+”时代正在来临,未来人工智能会像水和电一样无处不在。科大讯飞将继续坚守在人工智能的道路上,为中国的人工智能产业作出应有的贡献,用人工智能建设美好世界。
(作者系科大讯飞华南人工智能研究院院长)