微软研究人员提出了一种新颖的方式,让计算机通过使用人工智能(AI)来讲述关于多张照片中发生的事情的故事。今天,该公司正在发布描述该技术的学术论文(PDF),这可能有一天的电力服务对视障人士特别有用。微软还在释放在研究中开发的照片,标题和“故事”。
新功能是显着的,因为它超出了仅识别图像中的对象,甚至视频,以便生成标题。
“仍然很难评估,但最小化你想要在维度中获得最重要的事情。通过讲故事,更多的是背景是背景,并且在活动周围可能发生了什么样的东西,“微软研究员Margaret Mitchell在采访中告诉Vidturebeat。
为了推进该领域的最新状态,微软依赖于人们编写inpidual图像的字幕,以及以特定顺序的图像标题。然后工程师使用这些信息来教导机器如何提出整个故事来讲述那些图像序列。
该方法涉及深度学习,一种微软以前用于语音识别和机器翻译等任务的人工智能类型。Facebook,谷歌和其他公司也积极参与了这一研究区。
在这种情况下,采用经常性神经网络在图像和单词上培训。米切尔和她的同事在研究中借用了一种从机器翻译领域的方法借用了称为序列到序列学习的方法。“在这里,我们正在做的是我们说每张图像都是通过卷积网络馈送,以提供序列的一部分,并且您可以通过序列来创建一系列图像的常规编码,然后从一般编码中,我们可以解码出故事,“纸张中的主要调查员Mitchell说。
她和她的合作者 - 其中一些人在Facebook人工智能研究(公平)实验室 - 寻求改进最初通过提出某些规则制定的原始生产的内容。例如,“相同的内容词不能在给定的故事中不止一次地产生,”他们写在纸纸中。
以上:底部序列中的图像故事的一个例子。
图像最终结果是语言,这些语言更少,但更多的抽象和迷人。随着时间的推移,这种语言可能具有很大的潜力。无法看到照片的人可以了解他们作为一组传达的内容。
这将是一个很好的下一步,遵循最近的研究识别对象和盲目的图像和视频的研究。事实上,这是米切尔的一个地区,最近探讨了盲微软软件开发商Saqib Shaikh。
但是,看视觉讲故事也可以帮助那种学习第二语言的人,米切尔说,它可能会激励孩子们更加创造地思考他们在世界上看到的东西。
人们越来越多地捕获手机上的相机与摄像机的多图像文件,无论是来自iPhone还是整个视频的动画的GIF的实时照片。因此,机器将更加重要,了解这些帧跨越帧的发生。它不再足以识别每个辛勤帧中出现的内容。米切尔看到了这种方向的研究 - 虽然他们还不太那么。
“这只是一些简单的启发式,真的,但它显示了我们能够从这些模型中退出的丰富信息,”米切尔说。“这真的是积极的,非常有希望前进。”
有关详细信息,请参阅学术纸。微软还有一个关于该研究的博客帖子。