第一,语音的能力。包括语音识别能力和语音合成能力。
第二,图像的能力。图像能力指的是看到一个图片,不仅能看得见,还能看得懂。按照技术界的说法,它应该是计算机视觉。
第三,自然语言处理能力。自然语言处理能力比语音和图像更难。语音和图像技术更多还处在认知的阶段,而自然语言理解除了要有认知能力之外,还需要逻辑推理能力、规划能力等等,同时也需要依赖于更为强大的知识图谱。
第四,用户画像。用户画像在传统的AI中并不是主流。但是今天,我们每时每刻都可以收集很多很多和用户行为相关的数据,就可以对用户做很好的画像,而这里面使用的技术又基本上都是与人工智能相关的。
百度大脑的另一种语音能力——语音合成。
基于大数据与深度学习技术优势,百度的新型情感语音合成系统能够让机器摆脱平铺直叙的发声,为用户带来更自然、更接近真人朗读的听觉体验。目前,百度每天响应的语音合成的请求达到了2.5亿次。
在情感语音合成技术上线后,用语音听小说的百度用户从过去平均每天听0.69小时,增长到现在的2.21小时。语音合成的能力对用户的App使用黏性的提升是非常显著的。