Hi!下午好!欢迎访问互联网
当前位置:主页 > 网络

人工智能系统读唇语确率高达934

时间:2019-01-12 14:14:48| 来源:| 编辑:笔名| 点击:0次

人工智能系统读唇语 确率高达93.4%

牛津大学的最新研究描述了一种名为LipNet的人工智能系统。通过观看人类说话的视频,以及输入相应文字,这一软件对唇语的解读准确率高达93.4%。这项研究得到了谷歌(微博)旗下DeepMind的资助。

专业唇语阅读者识别唇语的准确率只有20%到60%。人类在日常说话过程中嘴唇的微小移动很难被可靠地解读,尤其是在有一定距离,或画面不清晰的情况下。不过,唇语并不只是美剧《海军罪案调查科》中的噱头,对全球的失聪者来说,这是一项有用的工具。如果能可靠地解读,那么将给数百万人带来帮助。

牛津大学的最新研究描述了一种名为LipNet的人工智能系统。通过观看人类说话的视频,以及输入相应文字,这一软件对唇语的解读准确率高达93.4%。这项研究得到了谷歌(微博)旗下DeepMind的资助。

此前最佳的唇语解读工具只能实现逐个单词的解读,准确率只有79.6%。牛津大学研究员表示,新系统获得成功的关键在于通过不同方式去思考这一问题。这一系统不再利用可视元素,即说话者嘴型的变化去训练人工智能,而是每次都处理一整个句子。这使得人工智能可以学会单词对应于什么样的嘴型变化。

为了训练这一系统,研究员向人工智能展示了2.9万条带文字标签的视频,每段视频长度为3秒。而为了观察专业唇语阅读者做得如何,该团队还邀请了牛津学生残疾人社团的3名成员,用300条随机视频去进行类似的测试。这些专家的平均错误率为47.7%

人工智能系统读唇语确率高达934

,而人工智能的错误率只有6.6%。

尽管这一项目取得了成功,但也暴露出了当代人工智能研究的局限。在指导人工智能如何阅读唇语的过程中,牛津大学团队使用了经过设计的视频。视频中的所有人物都面向前方,光线明亮,说出标准结构的语句。

视频中的典型语句时长为3秒钟,例如:Place blue in m 1 soon。这其中包括命令、颜色、介词、字母、数字,以及副词。所有语句都采用这样的模式。因此,人工智能的超高准确率只是在一种极端情况下取得的。如果要求人工智能从随机的YouTube视频中阅读唇语,那么结果可能很不准确。