谷歌AI相机Clips解密

发布时间:2017-10-19

    Clips,这是一台可以通过人工智能技术自动选择场景、自动拍摄录像、自动保存的小型相机也是有史以来第一款AI主动决策的消费级电子产品。

    10月5日凌晨,谷歌在一年一度的秋季硬件发布上一口气连发7款新品,Pixel 2手机、笔记本、翻译耳机、智能音箱、AI相机……这场“硬(件)货十足”的发布会贯穿着谷歌“人工智能+软件+硬件”(AI+Software+Hardware)的中心思想。

  • 一款主打家庭场景的AI相机

    Clips是一款只有5厘米高、60克重的方形相机,售价249美元(折合1657元人民币)非常小,也非常轻便。全机上下只有一个快门按钮、一个镜头、一个拍摄时会亮起的LED灯,套上自带的塑料外壳后可以立在、挂在、勾在家庭里的任何一个角落。

    通过扭动镜头打开相机后,它能以15帧每秒的频率录制拍摄,拥有一个1200万像素的传感器与130度的广角镜头,能够自动对焦,有16GB的存储空间,电池续航时间为3小时,没有内置麦克风。

    当你把Clips放在客厅里,它会自动“观察”镜头里的世界,当出现有趣的场景——比如你家的小baby晃晃悠悠蹒跚学步,时,自动开启录制拍摄,录出几秒到十几秒不等的的视频(而短视频片段在英语中就叫“Clips”,用户可以选择在手机APP上将这些段视频剪辑、导出为视频、照片、GIF、或是动态照片。

    谷歌将这款相机的场景定位是家庭——更准确来说,是室内环境中的婴幼儿跟宠物。当你想要专心陪孩子玩耍,又或是上班外出错过了精彩瞬间时为你留下这一刻。

    而对于那些担心自己隐私安全的用户,谷歌表示,整个机器学习的拍摄、计算、存储过程都是在相机终端进行,和网络没有任何数据传输。只有当你想要导出照片时,才需要在手机上下载谷歌App,在App内选择编辑、导出、或者删除。

    Clips可以跟Pixel手机配合使用,也适配于三星S7/8,以及iPhone 6/7/8等机型。不过Clip不是Pixel手机的附件,也不是任何东西的附件。Clips是一台独立的相机,跟其他所有的数码相机一样。

  • 用AI自动寻找“有趣”的场景

    Clips使用机器学习来寻找有趣的场景,但是Clips面临着一个艰难的问题——没有合适的训练数据。

    世界上有大量早已标记好的数据集,拿ImageNet来说,里面成千上万张带有“猫”或者“狗”标记的图片数据可以迅速训练出一个能辨别猫狗的神经网络,但是,世界上没有任何一套机器训练数据集里有“这有一个婴儿在地板上爬的短视频,这是他父母想要保存的片段”、“那儿有一段小猫在玩毛线球的视频,看上去真可爱”的带标记数据。没有训练数据,AI神经网络无从谈起。

    谷歌从YouTube入手来解决这个问题。目前YouTube上已经有超过10亿个在线视频,并且用户每日还持续上传超过30万个新视频。谷歌的Clips团队与一大批视频编辑者与图像评估团队合作,通过人工标记、评分视频的方式为Clips提供训练素材。

    随着使用得越来越多,Clips也会越来越聪明,慢慢地自己“学会”哪些是你关心的人、哪些是你关心的场景。下次你带着孩子去公园一起玩的时候,Clips就只会专注于拍你家孩子。

    未来,谷歌计划在更多的终端设备上拓展AI功能,以支持更多的应用场景。Clips是谷歌这个“万物AI”宏伟计划的一个小尝试,它还很贵,而且没有那么聪明,但它已经是第一步了。

  • 隐私忧虑、端智能与VPU

    当然,面对这么一个由AI全自主控制的相机,隐私问题就显得尤为重要。面对这个问题,谷歌表示Clips是根据以下原则进行设计的:

1、当Clips开启时,有一个LED灯将会亮起,让每个人都知道它正在运行当中。

2、当你在室内环境里,和你的家人或者亲密朋友在一起时效果最佳。因为Clips能够自动学会识别与你相关的人物的脸,并帮助您捕获更多时刻。

3、最后,整个机器学习的拍摄、计算、存储过程都是在相机终端进行,和网络没有任何数据传输。跟所有相机一样,只有当你想要导出照片时,数据才会离开你的设备。”

四、VPU介绍

    为了达到在相机终端上就能实行图像的计算、识别、不需要连接到云的能力,Clips里内置了英特尔旗下的Movidius Myriad 2 VPU视觉处理芯片。

 

    Movidius是2016年9月被英特尔收购的硅谷公司、Myriad 2是这块芯片的名字,Myriad 1曾经被用在谷歌的Tango平板里、VPU则是Vision Processing Unit视觉处理单元的缩写。

    现在的芯片/处理器实际上所指的是一个“处理器包”封装在一起,这个计算包专业一点说叫SoC(System-on-a-Chip),高大上的说法是“计算平台”。

    根据分工不同,很多专用功能的处理单元加进来,比如GPU,现在这个包里的独立单元数量已经越来越大,比如ISP(图像处理)、Modem(通信模块)、DSP(数字信号处理)、以及苹果的A11、麒麟970中加入的神经网络引擎、NPU等(AI应用)不同的数据进来,交给不同特长的计算模块来处理将会得到更好的效果、更高的能效比。

    虽然都是“U”,但VPU与GPU、NPU不同。它不只是一个模块,它本身就是一个SoC,内部集成有多个主控RISC的CPU、许多硬件加速器单元和矢量处理器阵列,专门为视觉海量像素设计的高性能影像信号处理器(ISP),以及丰富的高速外围接口。

    VPU针对视觉处理应用而设计,在性能、功耗和功能性方面都有特别的强化,使之更贴近于实际的应用需求。尤其是在功耗方面,按照Movidius CEO Remi El-Ouazzane的说法,相比能够提供同等效果的GPU,Myriad 2的功耗低了最少10倍——对于Clips这样一个重量仅为60克的小相机来说,功耗与续航问题必然是重中之重。

 

    Myriad 2的芯片设计包括12个SHAVE 128位处理器+SIPP过滤器,前者对原始影像数据做计算处理,每颗处理器都运作在600MHz的频率下,而且有超频潜能;后者是SIPP是(Streaming Inline Processing Pipeline filters)硬件加速期的缩写,可完成一些预设的影像处理任务,比如将来自不同类型摄像头的数据融合到一起,或者将多个视频内容接合到一起。此外,Myriad 2 VPU上还有2个32位RISC处理器用于芯片管理,有效降低延迟。

(Myriad 2的其他参数)

    除了传统的影像处理能力外,相机的智能理解能力也尤为关键。除了芯片本身,Movidius还设计一系列的补充算法与SDK,使得Myriad 2支持3D建模和扫描、影像搜索、室内导航、以及手势输入、脸部识别、实物探测等——想必这次和谷歌的合作也使得两家共同研发了更多功能。

    基于这样的架构设计,Myriad 2芯片采用台积电28纳米工艺制造、面积是6.5mm、厚度1mm,支持六个60帧全高清视频信号输入,而功耗在1.2W以内。

    其实,这块Myriad 2芯片在2014年就发布了,大疆Phantom 4无人机中就集成了这块芯片。而且英特尔也在前不久(今年8月)推出了Movidius Myriad X新版VOU,性能效果都更为强大,至于为什么没有用在Clips上,可能是基于成本考虑、也可能是功耗考虑。(目前Myriad 2每块售价已经降到了10美元以下)

结语:AI相机仅仅只是个开始

    Clips是有史以来第一款完全由AI进行主动决策的消费级电子产品,从被打开的一刻起,人类就对它失去了控制,我们不知道它会选择什么场景进行拍摄、也不知道它为什么选择这个场景进行拍摄——就如同现在深度学习正在使用的种种神经网络一样,我们知道它们的效果非常好,但我们至今不知道为什么。这既让人兴奋,又让人不免有些恐慌。

    可以看得出来,端智能、端AI已经是大势所趋,无论是软件上各种机器学习算法的不断成熟,还是硬件上各类高性能低功耗AI芯片的诞生,都在推动着“万物AI”的脚步。

摘自:智东西