Facebook 认识到图像是一种维持自己18.6亿用户保持活跃的生命力。Facebook 用户每年分享数十亿的婴儿、宠物、假期以及其他事物的照片。这就使得公司必须要开发出能够搜索到最相似的图像的技术,这样用户就能轻松找到朋友、亲人或爱人经常分享的图片。
近日,Facebook 宣布了一系列人工智能上的创新,它认为这将改善用户体验。这方面的技术突破,使它的人工智能系统能够在像素级别上对图像进行理解。
新的人工智能在两个方面带来了精彩的成果:
首先是一套新的图像分类功能,可以向视力受损的用户说明照片中的动内容这在以前是不可想象的。
第二,系统可以允许用户在照片没有被任何文本标记和注释的情况下,基于关键词找到他们的朋友或家庭成员共享的照片。
人工智能是Facebook的重要努力成果
Facebook 认为人工智能可以作为重点跨越自己的许多(甚至可能是全部)主要服务来传递最相关的内容。Facebook希望自己能够像在社交网络和即时通讯中一样,在人工智能和机器学习中占据主导地位,并且在该领域专门组织了超过150人的团队。近年来,Facebook在增强人工智能和机器学习处理能力的研究投资增加了三倍——尽管它没有公开这笔投资的具体数额。
当然,Facebook并不是唯一一个在这一技术上努力的公司。每个主要的技术公司都在人工智能方面进行了大量投资,因为该技术被视为下一个计算时代的基础。英伟达公司的首席执行官黄仁勋在去年接受Fast Company采访时表示:“这是近20年来最重要的计算的发展, Facebook和其他人将不得不为了确保人工智能的的核心竞争力而展开竞争。”
在关于发展新技术的博客文章中,Facebook的机器学习应用小组的负责人Joaquin Candela指出,在线搜索,即使是针对图像的搜索,在传统上都需要解析文本,而图像通常只有在被标签或字幕正确标记的情况下才能被正确搜索到。
“改变正在发生,因为我们已经将计算机视觉推动到下一个阶段,目标是在像素级别上理解图像,” Candela写道,“这有助于我们的系统完成诸如识别图像中的内容、场景类型是否是一个著名地标等事务。这反过来又帮助我们更好地向视力残障人士描述照片,并为带有图像和视频的帖子提供更好的搜索结果。”
无障碍环境自2011年以来一直是Facebook的工作重心,其目的在于改善视觉或听力受损用户参与服务互动的方式。
利用人工智能来丰富盲人用户的体验
2015年,Facebook开始利用人工智能来丰富盲人用户体验。它设计了一种算法,能够自动将某些照片和视频转换为口头词句,让那些有视力障碍的的对象也能了解他们从来不能看的帖子。
使用该系统,屏幕阅读器可以告诉用户一幅日落的照片中包含着诸如自然、室外、云、草、地平线、植物或树木等元素。
但是现在,新的图像分类系统可以在它的描述中添加动作,比如“人在走路”、“人在骑马”、“人在跳舞”、“人在弹奏乐器”,等等。
通过建立基于130000个人工标记照片的机器学习模型,可以无缝推断照片中的人的行为,Candela写道。
第二个主要创新是一个搜索系统,基于图像识别技术能够过滤掉大量不相关的照片,并且以尽可能最快的方式找到最相关的结果。比如说,只要在搜索框输入“黑色衬衫”,就能找到没有被文本标记的黑色衬衫的图片。
这对于看到过某人或某物的照片,但不知道照片来自哪里的用户而言是有价值的,特别是在所需的照片没有标签或标题的情况下。
最后,虽然今天取得的这些进步令人印象深刻,Facebook很清楚目前仍然处于应用人工智能进行图片搜索和无障碍化的早期阶段。
“这些新的进展十分显著,” Candela写道,“我们的面前是一条漫长而激动人心的道路,而我们仅仅抓住了可能在将来引起变革的事物的表面。”