第一句子大全,网罗天下好句子,好文章尽在本站!

AI语音取代屏幕触控难在哪?对话式AI瓶颈 解决方案速览

时间:2013-11-09

当前,云端语音处理成本较高,存在可能泄露用户隐私、可靠性不足、延迟较高等问题

友情提示:本文共有 3200 个字,阅读大概需要 7 分钟。

智东西(公众号:zhidxcom)编译| 高歌编辑 | 云鹏

智东西3月30日消息,昨天,EE Times介绍了对话式人工智能(AI)目前的瓶颈与相关厂商的解决方案。

当前,云端语音处理成本较高,存在可能泄露用户隐私、可靠性不足、延迟较高等问题。而对话式AI的高功耗,技术多样、难以集成更是阻碍了技术发展。

加拿大语音边缘AI平台PicoVoice、美国AI芯片初创公司Syntiant和音频方案供应商Knowles针对不同角度,各自给出了解决方案。

一、便捷性与低成本推动对话式AI进入边缘

当前,语音控制和语音接口已经开始应用于消费电子设备边缘,而语音识别算法和AI芯片的进步,可能将进一步推动对话式人工智能(AI)应用于功耗、成本更低的设备中,比如智能家居、可穿戴、可听设备等。

从用户角度来看,便捷性和成本是推动语音技术发展最主要的两个因素。

加拿大语音边缘AI平台PicoVoice的首席执行官Alireza Kenarsari-Anhari称,便捷性是目前语音控制的主要驱动力之一。

▲Alireza Kenarsari-Anhari(来源:PicoVoice)

他如此描述语音控制的未来:“想像一下,想要喝咖啡时,您会从办公桌上通过语音控制屋里的咖啡机,或者拿着一篮湿衣服向滚筒式洗衣机下达命令。”

由于智能家居可能会一直与家用Wi-Fi相连,在云端运行语音算法看上去可能会更简单一些。但是Kenarsari-Anhari则认为云端处理语音数据有很多问题。

首先,如果用户的语音数据都在云端处理,那么消费者的隐私就有可能遭到泄露。

可靠性也是一个需要考虑的问题,Kenarsari-Anhari认为,如果Wi-Fi网络产生波动、断开,洗衣机等设备需要能够继续运行。

某些情况下,低延迟也是一个重要的指标。在游戏、互动等环节中,边缘语音处理将更好的避免网络波动带来的延迟。

除此之外,成本也是语音边缘处理的一个主要因素。目前,云端处理语音数据需要花费一定的资金,而每次都要对云端付费的业务模型并不适用于家用电器和消费电子产品,因为这些产品的语音需求较低,并且每天会使用多次。

以声控咖啡机为例,使用公共云服务的声控咖啡机如果每天使用10次,则每台设备每年将产生15美元左右的费用,而如果使用咖啡机CPU上的现有资源就可以避免这些费用。

目前PicoVoice的AI语音、文本推理引擎的目标是在低于1美元的微处理器(MCU)上应用,实现更多低成本设备的语音控制,应用范围将包括可穿戴设备与可听设备。

Kenarsari-Anhari称,基于MCU的语音解决方案将同时兼顾设备中电源和成本的优化,在工业、安全和医疗等领域中创造更大的价值。

最近PicoVoice推出了Shepherd无代码平台,通过搭配PicoVoice Console模型创建软件,用户可以在MCU上构建语音应用算法。目前Shepherd支持意法半导体和恩智浦的Arm Cortex-M微处理器以及一些其他型号设备。

Kenarsari-Anhari对记者称,语音是一种开发界面,就和现在不用编码即可构建GUI或网站一样,未来语音界面也可以做到类似的事情。虽然现在PicoVoice的开发人员在构建相关原型并快速迭代,但Kenarsari-Anhari希望能够让普通用户也能构建模型,让每个人都可以拥有一个自己的专属语音助手。

这需要普通人也能够在没有专业软件的情况下,开发自然语言处理模型,难度较高。Kenarsari-Anhari对此回应:“当然可以(做到),苹果、亚马逊、谷歌和微软都已经实现了这一目标,关键在于企业是否拥有足够的资源,能够围绕该目标花费数年的努力。”

二、AI芯片助力语音界面化

并非只有Kenarsari-Anhari看到了语音界面化的未来,美国AI芯片初创公司Syntiant的首席执行官Kurt Busch也在采访中称,语音将成为下一代技术用户的首选界面。

Kurt Busch通过他最小的孩子描述了这一未来。他最小的孩子因为年纪太小,可以阅读却无法写作,借助智能手机的语音功能却实现了与朋友互发短信。

▲Kurt Busch (来源: Syntiant)

这一功能将孩子们互发短信的时间提前了数年。Kurt Busch称,随着时间流逝,语音、对话将会成为更年轻一代的默认界面。

他将语音比作“未来的触摸屏”,而设备中的语音处理功能也将从PC、笔记本电脑等转向智能家居。

Syntiant公司主要生产用于对话式AI的AI芯片,可在处理低功耗、低成本消费电子设备上使用。

迄今为止,这家初创公司已经在全球范围内售出了超过1千万颗芯片,其中大部分应用于手机中,提供一直在线的关键字检测。

Syntiant的最新芯片NDP120可以识别诸如“ OK Google”之类的热门单词,在280W以下的功率激活谷歌助手。

Kurt Busch认为对话式AI将是一种每个人都可以使用的连接、访问技术,可以让更多人获得更好的生活。

他强调,当前世界上有30亿人每天的生活费仅为2美元,占到世界人口的近1/3,这些人大部分没有互联网访问权限,没有受过教育,不会写字、阅读,语音界面化对他们来说意义重大。

在这种情况下,很多发展中国家已经对对话式AI产生了很大的兴趣。

三、Knowles解决语音控制碎片化难题

虽然语音技术的发展潜力很大,但是在高速发展下,对话式AI市场可能会变得碎片化。

音频方案供应商Knowles高级总监Vikram Shirastava提到,由于多种语音识别引擎的出现,对话式AI市场将会比较分散。集成于SoC或MCU、操作系统不同、声学环境差异等都将造成语音解决方案的不同。

▲Vikram Shrivastava(来源:Knowles)

他认为,如果想要解决语音集成问题,必须找到每个垂直领域的共同点。据他介绍,Knowles有一套基于DSP(数字信号处理)的语音控制解决方案,可以引入不同垂直领域的语音控制技术。

该方案通过找出不同语音技术的共同点,比如家用控件、电视条形音响和遥控器可能属于同一类,之后再针对这一类技术进行优化。

Shirastava称这种方法为“下一级交钥匙(one level below turnkey)“,交钥匙工程是一种商业模式,当一家公司完成设计、建造时,将会把所有权和管理权等”钥匙“交给另外一方进行运营。据他介绍,Knowles的方案具备交钥匙工程的扩展性,又增加了一些灵活性。

有时,Knowles也会针对某些领域开发不同的版本,以覆盖某个垂直领域。其最新版本的AISonic蓝牙标准解决方案是一种开发套件,用于在与蓝牙连接的设备(例如智能扬声器、智能家居设备、可穿戴设备和车载语音助手等)中进行语音识别。

该套件基于Knowles的IA8201双核DSP芯片,专门针对神经网络处理而设计,其功耗远低于应用处理器。使用该芯片可以在50mW以下的同时处理单独的AI模型,同时进行关键字点播、源分类、波束形成、声学回声消除(AEC)和源方向估计。

IA8201的秘密武器是Tensilica DSP内核上的指令集,该指令集包含近400条用于音频和AI处理的自定义指令,可以降低时钟频率实现降低功耗。

结语:语音界面化阻碍正在被打破

随着AI技术的不断进步,对话式AI正在成为解放双手和提高生产力的关键工具。复杂的语音开发环境、云端处理语音数据成本较高、设备的高功耗、市场碎片化等都是语音界面化的阻碍因素。

而随着边缘AI语音平台能够为开发人员提供更方便的语音开发环境;AI芯片使语音识别更加准确,让语音控制可以应用于低功耗、低成本的设备中;而通过集成多种语音控制技术,或许可以解决语音市场碎片化的问题。

未来,因为语言的便捷性,语音界面可能将成为未来下一代“触摸屏”,帮助更多无法阅读、写作的人群享受到科技的便利。

来源:EE Times

本文如果对你有帮助,请点赞收藏《AI语音取代屏幕触控难在哪?对话式AI瓶颈 解决方案速览》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
智能鼠标取代键盘?罗技效率神器M380 AI语音鼠标评测

智能鼠标取代键盘?罗技效率神器M380 AI语音鼠标评测

...能够大大减少输入的时间。每次按下鼠标上的语音按键,屏幕的右下角会出现一个语音识别的声波弹窗,用来展示录音的状态,但是在MacOS系统下只有在桌面会弹出,不会在全屏界面弹出,这也是系统问题了,在Windows上应该不会...

2013-11-03 #经典句子

EMUI 10智慧助手体验 智慧语音可连续对话 还能自动运行程序

EMUI 10智慧助手体验 智慧语音可连续对话 还能自动运行程序

...等功能,视觉可以用镜头进行拍摄识别,识屏主要是识别屏幕上的信息。扫码功能目前适用于了解某个商品的详情、某个活动以及面对面加好友等操作,无法进行付款操作。出国旅游、查询外文资料等都需要用到生活中需要用到...

2009-11-08 #经典句子

你接到的推销电话可能不是人打的 AI语音机器人有多厉害?

你接到的推销电话可能不是人打的 AI语音机器人有多厉害?

你永远都不知道电脑屏幕那头是不是一只小狗。如今随着人工智能的发展,你可能无法知道电话那头是不是一个机器人。近段时间以来不少饱受骚扰电话之苦的人发现一些销售公司推销伎俩也都已经换代了,自己接到的骚扰电话...

2014-08-11 #经典句子

自由对话+准真人语音!理想ONE车机革命更新:甚至能跟你聊聊人生

自由对话+准真人语音!理想ONE车机革命更新:甚至能跟你聊聊人生

...用再可以记住具体的指令、关键词来触发系统,只要看到屏幕上显示什么就说什么。例如,在使用 QQ 音乐的时候,只用说「上一页」、「下一页」、「最近听的」等指令来对 APP 进行控制。理想的工程师在介绍这项功能的时候做...

2023-07-22 #经典句子

一个对话式实时语音翻译工具 专为旅行准备

一个对话式实时语音翻译工具 专为旅行准备

...面下滑选择双方的语言,比如中文和英文,之后按住整个屏幕就可以说话,App 会自动录音,松开手指会自动翻译,然后自动把翻译之后的语言播放出来。而对方对你说什么也可以直接翻译回来,不用切换语言,也就是选择的两...

2016-04-10 #经典句子

用语音AI升级客户服务 Replicant获2700万美元A轮融资

用语音AI升级客户服务 Replicant获2700万美元A轮融资

...自动处理所有客户服务电话,但该公司并未真正担心AI将取代人们的工作。

2023-05-11 #经典句子

SKT翻盘EDG语音对话:这10秒他们经历了什么?

SKT翻盘EDG语音对话:这10秒他们经历了什么?

...配合完全靠默契。RNG就是有点画风一转变热血的味道,满屏幕都是爆炸的字幕。两支强队风格不同,SKT也展现出了自己强大的执行力和完美的默契配合,这支战队很恐怖!=================================★游戏马蹄铁原创,未经允许禁...

2009-11-18 #经典句子

选儿童机器人别只看外观 语音识别和内容资源是重点

选儿童机器人别只看外观 语音识别和内容资源是重点

...能音箱类产品——科大讯飞阿尔法蛋·S。这款带有LED显示屏幕的、造型可爱的、专为儿童进行内容优化的智能机器人,能否成为一名合格的智能语音助手呢?下面,我们就跟随一位体验者来看一下吧。开箱产品的外包装往往可以...

2016-09-11 #经典句子