智能代理让机器“闻弦歌知雅意”
目前,数字助手所具备的基于脚本的伪智能已经远远满足不了市场需求。能够适应并理解语境的数字助手,即智能代理将应运而生,这对深度智能提出了更高要求。

文/Bo Begole
目前,数字助手所具备的基于脚本的伪智能已经远远满足不了市场需求。能够适应并理解语境的数字助手,即智能代理将应运而生。
语音识别飞速发展
过去,计算机语音识别效果很差,有效果时反而会令我们诧异;如今,语音识别效果非常好,一旦出错,我们就难以接受。在过去五年间,语音识别功能以年均15%-20%的速度发展,目前已经达到很高的精确程度。通过语音识别技术与智能手机交流,让数字助手帮忙指引路径、推荐好看的电视剧、给朋友发送信息,已经成为很多人日常生活的一部分。
这主要得益于以下三大因素:
首先,教计算机理解语言时,需要使用大量的样本数据。随着搜索引擎数据的井喷,样本数据的数量已经增长了100倍。
其次,研究人员已经开发出了一种名为“深度神经网络”的新算法,专门用来模拟人脑识别各种模式。
最后,语音识别技术已经从终端转移到云上,云端可以维护大量数据集,计算能力和内存也是近乎无限的。随着移动网络时延的缩短,通过网络传输语言将逐渐达到实时的效果。
不过,要想让人机交流变得更加自然,机器必须要理解人类的语言。目前的数字助手看似非常智能,但实际上,它们使用了一种非常浅显的语言理解形式,即识别用户希望完成的任务和这项任务的属性。
一般情况下,语音识别系统能够识别明确任务领域的短语(通常是个动词),例如呼叫、警告、找到等。如果无法从用户的陈述中找到必要信息,就会以脚本对话的形式要求获得更多信息。
虽然目前的数字助手也可以执行用户的命令,但是与人类私人管家相比还天差地别。私人管家可以本能地理解人类的意图,甚至还能提供额外的建议。如今的数字助手一旦脱离预设的任务范围就不知所措,无法预测问题并给出解决方案,也不能发挥主观能动性。用户必须给出所有信息,即便如此,有时也得不到想要的答案。很快,人类将对数字助手的伪智能感到沮丧,进而要求它们具备真正的智能。
机器如何像人一样对话?
在可穿戴设备、自动驾驶汽车、机器人和嵌入式智慧家庭应用进入寻常百姓家的极致创新时代,能够像人一样对话并执行任务的智能代理将是什么样的呢?
在AI研究人员眼中,智能代理需要根据过去的经验作出决策。但是消费者则期望智能代理具备更多功能。
对话:智能代理的语言理解能力不再停留在浅显的表面。计算机常常无法理解用户的意图,或对用户的指示感到困惑,不得不借助网络搜索。出现这种情况,是因为电脑没有真正理解用户的话,无法识别任务的类型,无法依靠事先确定好的脚本来询问更多细节。相比之下,一旦遇到不清楚的地方,人类就会进一步询问。例如,他们会说:“对不起,您要找哪种餐厅?”
解释:对话系统可以依靠更深入的语言模型解释为什么会提出某个建议。例如,如果我问家里的智能电视有什么法律题材的电视剧可以推荐,电视可能会建议我看《超胆侠》。可是一开始我并不知道,这个电视的男主角白天是律师,晚上就化身超胆侠,将逍遥法外的恶徒就地正法。此时,电视就需要向我解释一下,为什么要推荐这部从名称上听起来跟法律无关的电视剧了。
机智:智能代理要像人类一样足智多谋,具有主观洞察力,遇到问题时,要想方设法寻找解决方案。例如,智能代理需要提醒我,我和同事预约共进午餐的那个餐厅当天不营业,因为那天是宗教节日。
专注:智能代理必须时刻保持专注。如果我的孩子说牛奶喝完了,智能代理需要立刻做出反应,将牛奶加入在线购物车里,而不需要我给它指示。
对社交环境有敏锐洞察:当我在和他人交流时,智能代理必须搞清楚什么情况下能打断我们,什么时候不能。
了解语境:实际上,社交智能是更广泛的语境智能的一小部分,但却非常重要。智能代理必须明确了解用户所处的环境,并主动选择用户在类似环境中曾经使用过的服务。例如,晚餐快结束的时候,智能代理要能主动帮用户叫出租车。
与人互动:或许最重要的一点是,智能代理能够与人交流互动。在人与人的对话中,若一方提出紧急需求,另一方就会给予响应;一方讲了一个笑话,另一方就会被逗乐;一方提出忧心的事,另一方就会给出建议。智能代理并非为了替代人类伴侣,但还是要达到真实的对话效果,该笑的时候笑,该表示关切的时候表示关切,该提供解决方案的时候能提供解决方案。
未来,机器人、自动驾驶汽车、智慧家庭应用需要通过适当的方式实现对话、解释、规划、互动功能,这些都对深度智能提出了更高要求。要想达到这一高度,自然语言处理技术的发展至关重要。