苹果为Siri引入机器学习技术 不再认错主人
日前,苹果在自家机器学习刊物《Apple Machine Learning Journal》上发表最新一篇文章,主要是关于用户在 iOS 设备上激活“嘿Siri”功能时的人性化过程。这篇文章似乎也意味着,未来 iOS 系统将配备更高级的 Siri 智能私人助理,至少能够利用机器学习特性来非常精确识别设备的主人。
“嘿Siri”功能在 iOS 8 的 iPhone 6 首次推出,如今在所有苹果设备上,“嘿Siri”口令可激活设备上的智能私人助理。当然了,6s 之前仍需要先将设备插入电源才能使用,而目前的新 iPhone 和 iPad,“嘿Siri”都已支持全天候时刻待命,无需亮屏也无需接通电源充电状态下就能使唤。因此,口令激活后用户可跟进询问或执行相关语音命令,例如询问“今天天气如何?”之类的问题。
在这篇机器学习期刊的新文章中,苹果 Siri 团队讲述了引入“说话人识别系统(Speaker Recognition System)”的技术方法,声称为了给用户创造更人性化的设备,自家团队打造了“深度神经网络”,而此举将为 Siri 的迭代更新打下了基础。简单的说,苹果基本上确认的事实是:未来的 iOS 系统版本中,机器学习技术将会被引入 Siri 智能私人助理,用于识别设备所有者的声音。
苹果 Siri 团队表示,最初他们选中“嘿Siri”这个短语,就是因为这是非常“自然”的措辞。但也正是因为如此,“嘿Siri”常常被不经意间激活,因而带来了不少麻烦。苹果列举了三种情况,包括:“当用户说出类似的短语时”,“当其他用户说‘嘿Siri’时”,以及“当其用户说类似的短语时。”根据 Siri 团队的说法,最后一种场景下的“错误激活最恼人”。
为了减少 Siri 被意外地、错误地激活,苹果引入了说话者识别研究领域的技术。重点在于,Siri 团队称他们关注的是“谁在说话”,而不是“说了什么”。苹果表示,说话人识别技术的目标是确定语音发出者的身份。“我们感兴趣的是‘谁在说话’,而不是语音识别的问题,最终目的是确定‘所说的是什么’。”
Siri 团队表示,说话者识别技术目前所面临的其他挑战是,如何在混响(如:大房间)和嘈杂环境中获得更高质量的表现。未来通过机器学习,Siri 语音助理将被训练用于识别用户在广泛环境中飞声音,如在车里、厨房、咖啡店或类似的公共场所。Siri 还会学习识别各种情境下用户发出的声音状态,包括正常的声音,很高、很亮的声音,或者早上起床昏昏沉沉时的声音等等,而不局限于最初重复录入的几声“嘿Siri”。
最近,Siri 隐私漏洞的问题备受关注。因为该漏洞下,任何人都可以通过 Siri 来读取设备主人的通知,只要按住 HOME 键或 iPhone X 上的侧边按键几秒,呼出 Siri 后,喊它“帮我读一下通知”,它就会直接读出锁屏上的隐藏消息内容,无论是同事还是家人,甚至是路人都能执行相同的操作,而且是在设备锁屏的情况下。
很显然,苹果将机器学习技术用于 Siri 帮助识别设备主人的方案,将能解决了 Siri 面临的隐私问题。