行业动态
语音与机器视觉实现人机互动,促进机器视觉全新发展
浏览:873 次
时间:2014-06-25 15:24:53

 

        随着行业的发展进步,机器视觉、语音识别技术的应用已经非常广泛,如自动化生产、科研、军事等领域。语音识别的出现已经有很长时间,很多旧版和新版Windows都预装了,但却从未真正成功,因为其从来就不是真正的自然互动而且也不准确。

        据悉,近日英特尔推出了感知计算软件开发工具包测试版。这种SDK是帮助开发者开发应用程序,使用户通过将语音和机器视觉与键盘、鼠标,直接触摸屏结合起来的多模式界面,实现与计算设备的互动。

        机器视觉是最近通过微软的Kinect才流行起来。Kinect使用了两个摄像头,但不能准确地检测特定手指和关节。虽然处理是在摄像头和XBOX上完成,但用户必须呆在房间里的某个地方,而游戏仅限于需要最少计算资源的不复杂游戏。

        要使界面更自然,首先需要以非常低的功耗使用大量本地计算性能才能使用自然用户界面。以保护用户登录安全的机器视觉为例,最好的方法是要有两个高分辨率摄像头,绘制人脸的三维视图,可以把这看作是3D游戏的逆向工程。3D机器视觉不是显示游戏的像素和纹理,也是将这些多边形和纹理输入计算设备。挑战在于,这需要大量的处理性能和大量的电力,不仅是计算引擎而且还有高分辨率和立体摄像头都需要。

        然后,3D“图”需要与本地数据库的图案匹配,这需要更多的计算性能和电力。这个步骤被叫做“对象识别”,设备需要判断谁在看。虽然这种安全的、面部识别登录只是一个例子,但这种自然用户界面潜在用途还有很多。

        而认为语音和机器视觉都不是直接触摸触摸板和显示器,键盘和鼠标将很快消失,这是错误的看法,当转到“多模式”界面时,设备将根据环境和用户历史选择最好的控制方式。这就是英特尔的“使用模式协调”,可选择最好的互动模式。另外,在需要协调时可同时使用两种不同的模式。唇读可以与语音、文本结合,从根本上改善语音互动。这一高新技术的诞生,必将进一步促进机器视觉技术的全新发展。

京ICP备12022927号
北京市海淀区上地信息路1号国际科技创业园1—1705
© Copyright 2011 北京盈美智科技 All rights reserved.