当前位置：首页 > 软件 > 正文

不用唤醒词就能对话苹果的AI要先为Siri赋能

2024-04-08 09:35:49　来源：互联网　

　　在放弃造车后，AI无疑就成为了空间计算之外，苹果未来持续增长的另一个引擎。毫无意外的是，继Android阵营友商开始造势“AI手机”后，有传言称苹果即将在今年秋季登场的iPhone 16系列和iOS 18上，AI就会占据不小的比重。就在苹果方面3月22日刚刚发表的一篇论文中，就透露了他们的研究人员正在尝试利用人工智能消除智能语音助手Siri的唤醒词。

　　这篇出现在预印本网站Arxiv的论文中显示，苹果的研究人员使用捕获的语音以及来自背景噪音等总计超过129小时的声学数据，训练了一个大型语言模型，该模型部分基于OpenAI的GPT-2构建，因为它相对轻量级，可以在智能手机等设备上运行。并且相关研究人员声称，该模型能够比纯音频或纯文本模型做出更准确的预测，并且会随着模型规模的扩大而进一步改进。

　　借助AI让用户不需要使用特定的“Hey Siri”唤醒词，随时随地与Siri展开对话，尽管可能不如“AI手机”那样看似高大上，但也更符合苹果一贯审慎地在iPhone上增加新功能的策略。必须要承认的是，Siri等智能语音助理是手机完成AI化的最佳切入点，而AI手机的理想形态，当然是将AI技术与操作系统整合，将AI的能力播洒在手机系统的每一个角落，最终达到润物细无声的效果。

　　只可惜，目前的端侧大模型也仅仅只是做到了在手机上运行大模型而已，用AI赋能操作系统，并通过API来支撑不同场景、不同任务还是镜花水月。由于现阶段端侧大模型与用户下载大模型App获得的体验没有质的区别，这也是为什么现在有不少人认为“AI手机”是伪命题。所以借助智能语音助手将AI大模型的能力提供给用户，并成为AI触达用户的入口，也是当下许多手机厂商最简单、且有效的解决方案。

　　五六年前，手机圈曾有过一轮智能语音助手热潮，诸如小爱同学、Jovi、小布、小艺等，也都曾作为新品发布会上的主角。得益于此，用语音助手来实现AI的认知早已埋藏在消费者的脑海中，所以用户用语音来作为媒介与AI进行自然语言对话，或许就是最符合当下普通用户对于AI的想象。

　　那么问题就来了，苹果利用人工智能来消除Siri的唤醒词到底有什么意义呢?

　　为什么智能语音助手会过气，使用体验不佳无疑是核心。借助Siri等语音助手用声音来操控手机，其实是一件很有未来感的事情，此前各大厂商在发布会上展示的效果，就已经有了科幻片中展现的未来生活范式味道。可当大家实际使用的时候却发现，“Hey Siri，打开抖音”、“小爱同学，打电话给张三”等操作与人类之间的对话有着明显区别，甚至可以说唤醒词的存在将用户从科幻拉回了现实。

　　实际上，为什么语音助手一定需要一个唤醒词呢?从某种程度上来说，唤醒词也成为了各厂商的招牌，是品牌形象的一个组成部分，通过每次激活语音助手时所说出的唤醒词，用户关于品牌的记忆也会在这日复一日的重复中被强化。除此之外，让语音助手一直处于激活状态会增加手机的功耗，进而导致用户感知到续航下降。

　　为了节能，手机厂商想出了语音唤醒(keyword spotting)，并通过低功耗协处理器来实时监听麦克风，一旦监听到类似“Hey Siri”、“小爱同学”等提前设置的唤醒词时，就会将语音助手从休眠状态激活到工作状态。就像人类用姓名来区分个体一样，“Hey Siri”、“小爱同学”其实就是语音助手的名字。

　　其实语音唤醒技术的原理并不复杂，即利用声纹识别技术实现定向人声分离，将人声从复杂的环境噪声中挑选出来，再搭配声纹识别编码器，来准确分辨用户提前录制好的唤醒词声纹特征。说出唤醒词，就和人类发起与他人谈话时会叫出名字是一回事，但是人类之间的对话属于“一次唤醒、多轮交互”，我们还可以用视线、手势等其他感官辅助，让他人知道有人在和我对话。

　　但一边思考一边说话，就会造成用户在使用语音助手时需要重复唤醒，而这就成为了语音助手的命门。但如果想要做到无感化，让用户无需说出“Hey Siri”这类唤醒词、而语音助手知道用户准备和自己对话，这背后的差别可就大了。就好比我们不用说出对方的名字、对方却知道我们要与TA说话，就需要在庞杂的对话中精准分析出哪句话是对TA说的。用成语来形容，就是苹果希望做到Siri与用户之间达到“心有灵犀”的状态。

　　让Siri能听懂用户说话时的语境，通过收集海量的用户语音信息，预训练出一个专精于“察言观色”的大模型，就是这次苹果研发人员的核心工作。经过海量语料训练出的多模态大模型具有共情能力、会“读空气”，这是经过了实践检验的。可是免唤醒词激活语音助手是有风险的，因为这就意味着iPhone会全天候保持录音状态，以响应用户的对话需要，这背后蕴含着巨大的隐私安全风险。

　　要知道，时刻保持录音状态就意味着iPhone变成了一个用户身边的监听设备，在经过了此前大批智能音箱未经用户允许主动监听的风波，苹果方面显然知晓其中的风险。Siri则是目前智能语音助手中可以不向厂商分享数据，甚至能够只在设备端运行，而其被许多用户吐槽“智障”的原因，就是因为它不能使用云端算力。

　　隐私无疑是苹果如今为旗下设备主动营造的一张王牌，所以不可能为了AI、而让用户有其主动监听自己的感受。这也是为什么苹果会选择GPT-2.而非Mate Llama 2、谷歌Gemimi，乃至自家MM1等参数更大大模型的原因。能够实现端侧部署的大模型，才是苹果做到免唤醒词激活Siri的前提条件。不过如今小尺寸模型真的能做到在复杂声学条件下，准确识别用户语境的能力吗?

免责声明： IT商业新闻网遵守行业规则，本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章，请转载时务必注明文章作者和来源“IT商业新闻网”，不尊重本站原创的行为将受到IT商业新闻网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：post@itxinwen.com

微信公众号：您想你获取IT商业新闻网最新原创内容，请在微信公众号中搜索“IT商业网”或者搜索微信号：itxinwen，或用扫描左侧微信二维码。即可添加关注。

不用唤醒词就能对话 苹果的AI要先为Siri赋能

相关阅读RELEVANT

榜单

今日推荐

科技互联

不用唤醒词就能对话苹果的AI要先为Siri赋能