人工智能下一个技术壁垒：理解周围世界

几年前，人工智能技术之机器学习有了一项重大的突破：能够识别图片中的事物，而且准确率极高。而目前该技术的瓶颈在于，机器能否理解图片中事物蕴含的意义。

一个名叫Visual Genome的新图像数据库或将推动计算机实现此目标，并帮助测量计算机在理解真实世界进程中获得的进步。教导计算机分析视觉场景是人工智能的根本。

这不仅将产生更多有用的视觉算法，而且能够帮助训练计算机更有效地进行交流。因为，语言与物质世界的表现具有非常紧密的联系。

Visual Genome由专门从事计算机视觉研究的教授以及斯坦福大学人工智能实验室主任李菲菲（音译）与几位同事合作开发。

“我们关注计算机视觉中最困难的问题，它们是连接从感知到认知的桥梁。”李菲菲表示，“不只是输入像数数据然后识别颜色、阴影等这类要素，而是真正将其转化成3D的认识，以及对完整的视觉语义世界的理解。”

李菲菲和同事曾创立ImageNet，一个包含了超过100万张带有内容标记的图片的数据库。每一年的ImageNet大型视觉识别挑战赛，就是使用这个数据库来测试计算机自动识别图像内容的能力。

最近一次ImageNet大赛是在2015年12月，微软凭借多达152层的深层神经网络获胜。

计算机视觉革命是一场持久的斗争。2012年，这项技术迎来了关键的转折点，那时加拿大多伦多大学赢得了ImageNet比赛，他们使用非监督的逐层贪心训练算法成功让机器基于目前最大的图像数据库进行分类识别，而不是依靠人为制定的规则。

多伦多团队的成就标志着深度学习的繁荣以及更普遍人工智能的复兴。深度学习已经在许多其它领域得到了应用，也让计算机能更好地处理其它重要任务，比如音频和文本处理。

多伦多大学团队的成就标志着深度学习研究的热潮兴起，以及人工智能的复兴。深度学习开始应用于多个领域，使得计算机在执行音频和文本处理等任务时变得越来越能干。

Visual Genome图像的标记比ImageNet更多，包括图像中各种物体的名称和细节、这些物体之间的关系以及正在发生的动作蕴含的信息等等。这些识别标记是使用众包方式完成的，该技术由李菲菲的斯坦福同事Michael Bernstein开发。

未来，使用Visual Genome的案例训练出来的算法不只是能够识别物体，还应该拥有对更复杂视觉场景的分析能力。

何为场景分析？李菲菲说道：“一个人坐在一间办公室内，但是什么样的布局，里面的人是谁，他在做什么，周围有什么摆设，当时正发生什么事？——我们需要将感知、认知与语言相连接。”

而这些技术最终可以应用中方方面面，比如除了在线图片管理等较简单的应用，它还可以用于帮助机器人或自动驾驶汽车更精确地识别周围场景。它们可以指导计算机理解物质世界，从而获得更多的常识。

机器学习专家兼人工智能初创公司MetaMind创始人Richard Sochar表示，语言很大程度上是关于描述视觉世界的。

Visual Genome并不是唯一一个面向人工智能研究的图像数据库。比如，微软也有一个名叫Common Objects in Context的数据库，同时，谷歌、Facebook和其它公司也在加强人工智能算法分析视觉场景的能力。