对于一些视力缺陷者来说,日常生活的衣食住行中会存在相当多的麻烦。而现在,微软推出了一款名叫 Seeing AI 的应用,可将视觉世界变成一种可听见的语音体验,这款应用或许能够为他们提供一定的帮助。
Seeing AI 支持人物、短文、文本、条形码以及场景的识别,用户只需要拿住 iPhone 设备在四周移动,应用会通过神经网络技术,将这些信息转化为语音,让用户可以「听到」周围的环境情况,从而为视力缺陷者进行服务,Seeing AI 大大方便了视力障碍者的日常生活。
人物及周围环境的扫描
对人物的识别是微软利用图像识别工具提供更深入的图片解释。识别人物之后,Seeing AI 不仅可以判断此人的性别以及大概的年龄,甚至可以对此人的外貌以及面部表情进行表述。看看下图 Seeing AI 对小哥的描述:一位满头黑发表情自然的男士,识别结果还是很准确的。
此外,使用 Seeing AI 对周围环境进行扫描,还能了解到周围有多少人,这些人所在的位置以及与你的距离,当然还可知道这些人的面部表情。Seeing AI 还有一个新奇之处,你可以教 Seeing AI 去识别某个特定的人物。进入「脸部识别」功能,对某个人物的脸部进行三次拍摄,并做相应的姓名标注即可完成该人物信息的录入,当你再次识别此人时,Seeing AI 就会说出他的名字。
短文内容的自动识别
短文识别功能简单来讲就是哪里看不清拍哪里,这个功能结合了图像识别技术与自然语言处理技术,将文本信息转化为语音信息。这一功能可以帮助视障人士获得对图像的准确描述,还可能帮助那些需要图像信息却无法直接看到图像的人——比如正在开车的司机。
在测试的过程中小编发现,在 Seeing AI 在「朗读」文本的过程中,如果摄像头捕捉到了更加清晰的文本图像,那么 Seeing AI 会从头开始「翻译」这段文本。经过测试会发现 Seeing AI 识别效果很好,在识别读出内容的过程中几乎没有错误。但在语言系统方面有些遗憾,应用目前只可以识别英文和阿拉伯数字,并不支持中文及其他语言的识别。
文件和条形码的探测
文件识别的操作相对复杂一些,将摄像头对准文本,Seeing AI 会引导你的手机放置,直到所选取的文本周围出现边缘,听到「Hold steady」的声音,然后拍摄进行文本识别。在文本识别之后,还可以使用 VoiceOver 功能对文本进行操作。
将手机摄像头对准条形码则可以对其进行识别,在扫码的一瞬间会听到哔哔的声音,条形码检测成功后,Seeing AI 会说出产品的名称。如果你想了解更多有关产品的信息,则可选择点击右下角的按钮进行详细的了解。
复杂场景的描述
场景的识别是让计算机用更加人性化的方式去描述图像,Seeing AI 会对识别的场景进行详细的描述。比如下图,Seeing AI 不仅会告诉你这是一台笔记本电脑,它还会告诉你这台电脑是以打开的状态放置在桌上这样详细的描述。不过场景识别的功能目前还处于测试阶段,所以场景识别的结果并不总是正确的,相信微软之后会完善这个功能。
小结
Seeing AI 实现了「语音世界的魔法」,利用手机摄像头将文字、人物、商品、场景等信息转化为语音,让更多的弱视群体尽可能的「独立」,有助于为视障人士营造更公平的环境,与正常生活缩小差距。Seeing AI 的出现会在一定程度上让更多的人利用人工智能技术来造福人类。
Seeing AI 的部分应用可在离线状态下使用,但是在语音方面暂时只支持英文系统,对该应用感兴趣的小伙伴可以前去美区 App Store 下载体验。