咨询热线 13332997463 | 0755-33151996

20201675

科大讯飞林满佳:大家都认为语音是一个强刚需入口其实不是的 智研所

时间:2019-10-25 点击:2630次

摘要
  原标题:科大讯飞林满佳:大家都认为语音是一个强刚需入口,其实不是的 智研所  2016年开始,智能手机行业红利开始见顶,手机厂商可争夺的存量市场不断被压缩,这时,硬件领域的新机会延伸到了智能音箱、智能家电,以及可穿戴设备。智能硬件也相应地成为互联网的新入口,国内外多家巨头已早早

  原标题:科大讯飞林满佳:大家都认为语音是一个强刚需入口,其实不是的 智研所

  2016年开始,智能手机行业红利开始见顶,手机厂商可争夺的存量市场不断被压缩,这时,硬件领域的新机会延伸到了智能音箱、智能家电,以及可穿戴设备。智能硬件也相应地成为互联网的新入口,国内外多家巨头已早早开始争夺这部分还未被完全挖掘的用户入口。

  其中,语音识别及语音交互毫无疑问是各智能硬件最重要的控制手段之一,同时也是人工智能技术到目前为止落地最快的应用之一。

  以智能音箱为例,仅2018年四季度,全球智能音箱出货量增长95%达到3850万台,超过2017全年总量。2018年出货量更是达到8620万台,同比增长100%以上。Strategy Analytics预测,2019年全球智能音箱的出货量将超过1.34亿,到2024年将增加到2.8亿。

  搜狐科技“智研所”沙龙第6期邀请到科大讯飞OS业务部总经理林满佳进行主题演讲——《语音交互在AIoT的应用》

  林满佳:大家好,我是来自科大讯飞的林满佳,目前负责整个语音交互系统iFLYOS,今天我带来的主题是语音交互在AIoT的应用。

  信息革命从电脑开始。一开始需要用键盘输入,需要记住很多命令,第二个年代进入图形化交互的年代,通过简单的鼠标操作加上一些图形化的界面,现在到了触摸时代,但是目前看起来这三个革命来说,带来的用户群体已经到顶了。

  如果关注现在的互联网流量,大家会看到移动互联网的流量已经见顶,意味着我们需要更大规模,扩大受益群体,所以语音交互时代来临了,AIoT时代使用门槛进一步降低,让更多的人去使用。

  举个最简单的例子,中国还有非常非常多的人只懂说方言不懂说普通话,这些人如何获取到他需要的服务?这个就是AIoT时代语音交互应该解决的很核心的问题。

  目前来说这个时代来临了没有?来临了,目前以iFLYOS讯飞开放平台或者整个讯飞的流量来看,每天在讯飞里面的交互次数是50亿次,意味着语音交互基本上已经进入了一个主流的模式。现在来说,大家可能觉得这个数字很大,但是在生活之中也会遇到一个问题,或者创业者也会遇到一个问题——目前来说,智能音箱已经是红海市场了,大家疯狂补贴从几十到几百不等。其次,销售量很大,但是各位买到音箱之后放到家里,其实使用频率没那么高,这是一个市场现在的怪状。

  第二个怪状,形状很不一样,其实形态基本一致,举个简单例子,大家都能问天气,大家都能听音乐,大家都能ABCD,其实没有任何差异化,没有针对场景去做一些很特殊的优化。讯飞在这几年里面推出非常多的智能硬件,包括最早的智能音箱到现在的翻译机、录音笔等等,那么我们在AIoT时代,人工智能硬件的落地路径是怎样的?我们总结了三条。

  第一,真实可见的实际案例,这个硬件不是凭空想象的,而是现实中已经有的产品。

  第二,能规模化推广的产品,这些东西本来就是某一个领域的刚需,通过人工智能加持,通过语音交互的加持能够形成更大规模的推广。

  第三,可用统计数据证实的可用功效,简单来说就是人工智能在这个领域有实打实的效果。

  我们来举一个很典型的案例,讯飞今年推出的录音笔,传统录音笔来说,很多学生跟很多记者媒体朋友们都会用到录音笔,但是用着用着大家发现一个问题,就是很鸡肋,我录了一个小时还得找人听一个小时写一个小时,基本就是这样一个情况。通过人工智能语音交互相关的技术加持之后可以达到一个什么样的效果?我们在实时录音的时候把文字转写出来,这时候很多学生和很多记者的工作负担就降低了很多。在这么些年来我们看到的一个情况,AIoT时代人工智能技术落地的要点可以总结三点。

  第一,首先基于自然交互,自然交互不单单只是语音,通过语音触摸视觉甚至一些传感器,现在的AIoT时代,大家觉得语音是一个强刚需的入口,但是在讯飞我们认为语音是一个主要入口,它会服务于很多的多模态入口为辅助,比如体感比如动作等等一系列,讯飞一直会看一些视觉的、触摸的、甚至脑科学都会去研究。

  第二,以智能硬件为载体,为了这个领域,我们去实打实磨智能硬件,从零开始去磨,选择最合适的元器件,而不是我们草草选一个现有的载体随便去改,去做一些兼容。

  第三,云端跟终端的结合,所谓的云端和终端的结合,云端放大量的数据大模型,在终端里面会用简单的模型做一些离线可用的操作。举个最简单的例子,讯飞在前装车机上的落地,其实在车机里面就会一直用大云端去解决检索问题,然后会用小的客户端,也就是离线的版本去解决弱网情况下的难题。

  前面这些东西,讯飞在这么多年来做了一套系统,就是为了满足一开始定义的人工智能硬件时代的快速落地——iFLYOS系统,这里面有很多特点,今天挑几个最重要的特点给大家分享,大家也可以看这几个特点来做一些发散。

  第一,语音交互的人性化,所谓语音交互的人性化就是不要让我们来去适配机器。在iFLYOS体系内我们为了这个语音交互的人性化,我们不单单只是通过了语音识别,我们能识别粤语,还要能理解粤语,还要能做出反应。整体来看,就是这样一个结果。当然这里面还用到了非常多的其它技术,比如翻译技术。我们还发现有不少粤语文法其实很难用粤语原始的语义去理解,这里面是一个多模态技术,不光是语音的合成、识别、理解,还会夹杂翻译之类的技术。

  第二,硬件落地要快,意味着人工智能每个硬件其实针对性很强,所以每个领域都需要大体不同的一些硬件,所以要求你的落地速度要足够得快,在iFLYOS体系里面打造了一个云端跟终端一体化的解决方案,我们通过在终端把算法用我们的芯片、模组、工版先做好,在云端把需要的能力跟内容结合起来,当我们需要做一款硬件的时候非常之快,很快把这两个部分组装起来,形成我们需要的一些硬件。

  第三,产品设计要个性化,每个领域的需求点都是不一样,刚刚说到的录音笔,再比如翻译机,这些东西里面或多或少都有语音交互的技术存在,但是它们着重的点都会不一样,那么我们总结了三个比较重要的点:1、有一些用户体系、用户画像,可以使用到以前有的画像系统;2、依托这个画像系统集成以前有的服务,比如翻译机大量用到输入法的服务,还有很多内容来自讯飞输入法的画像和服务;3、凸现品牌元素,每个硬件都有自己的品牌元素,这些东西都是需要语音交互去呈现的,最后打造品牌专属的智能硬件。

  iFLYOS已经落地七个场景,这些场景都在讯飞内部有所应用,并且把这些服务场景和应用已经公开出来,让广大的开发者或者是企业能够在这个基础之上去开发属于自己的一些硬件。

-->