谷歌推出新方案,图像标注速度提高三倍 2018-11-26 10:26:58.0
谷歌AI团队近日推出了一款新型图像标注方式——“流体标注”,即采用机器学习来注释分类标签并勾勒出图片中的每个对象和背景区域。谷歌官方表示其可将标志数据集的速度进步三倍。
百度众测平台去年曾发布了5000万元的数据标注任务,而今年估计将达3亿元。面对如此大的市场需求,效率低、托付质量良莠不齐的人工标注方式亟待改善。谷歌此次推出的“流体标注”如何为图像标注提速?
数据标注——机器感知世界的起点
“数据标注是人工智能产业的根底,是机器感知理想世界的起点。从某种水平上来说,没有经过标注的数据就是无用数据。”美国加州科技大学校长秦志刚教授在承受科技日报记者采访时表示,机器辨认事物主要经过物体的一些特征。被辨认的物体还需求经过数据标注才干让机器晓得这个物体是什么。
在机器的世界里,图像与语音、视频等一样,是数据的一个品种。近年来,随着数码产品以及存储技术的疾速提高和开展,人们每天都可经过相机、可视电话、监控及医疗设备等制造大量图像。因而,现阶段图像已然成为标注产业开展的重点对象。
假如素材是一张人物图像,那么需求标注的信息常常是性别、面部朝向、人种、有无帽子眼镜等,也能够人为地将人物和背景的区域划分开来。将成千上万张经过标注的图片组成的数据集“投喂”给机器,它才干在一张全新的图像中分辨出人物在哪个区域、具有怎样的外貌特征。关于人来说“小儿科”的考虑进程,机器却需求大量的标志数据集停止锻炼。
机器学习——缓解人工标注的压力
提到人工智能产业,人们常常联想到繁华的城市和干练的IT精英,但实践上,支撑起人工智能的数据标注产业,却是一个劳动密集型产业。百度搜索“数据标注”,会呈现很多图片语音视频数据采集、标注公司。随机选择一个此类词条点进去,常常会看到“万人数据标注团队”等相似宣传语。可见人工标注是目前数据标注的主要方式。
“谷歌推出的流体标注模型主要应用人工智能学习的根底,对图像数据停止自动标注,关于标注不精确或者呈现偏向的中央能够经过人工调整,从而进步标注效率。”秦志刚指出,即使该模型可借助机器学习提升标注速度,但最初还需停止人为地数据标注,为其提供初始锻炼数据集。事实也正是如此,为了标注图片,谷歌预先以约一千张具有分类标签和信任分数的图片锻炼了语意分割模型。
但该模型尚不圆满,谷歌称,物体边境标志问题、界面操作速度以及类别扩展等仍需进一步研讨或完善。
人工智能——努力于生活中的简单应用
固然还有诸多难题尚待攻克,但以流体标注模型为代表的数据标注新方式无疑顺应着人工智能的大潮流。实践上,自人工智能逐步走热以来,很多行业都想搭上这个热潮。但是,在灼热的潮流背后,掩藏着一个基本性的问题:人工智能终将走向何方?
“人工智能的实质是机器具有‘学习’的才能,不可思议,人工智能能够极度缩短人类本身的学习时间,从而将人从大范围脑力学习活动中解放出来,去专注于更有价值的工作。”秦志刚表示,固然人们普遍以为人工智能终将到来,但现阶段人工智能产业仍在云端。目前大多数人工智能的应用只能生存在高性能处置器的大型厂房中,就好像第一代通用计算机ENIAC一样“大而笨重”。“众所周知,随后的几十年内计算机飞速开展到小型的笔记本电脑,功用却比ENIAC更强大。人工智能也当如此”。
界面简单、功用友好、毫无相关学问根底的人都能运用并取得温馨感,这是秦志刚想象的人工智能时期。一枚小小的人工智能芯片,能够完成学习、锻炼、推理等一系列“考虑”过程,而它的终端表现则或许只是人们生活中最为常见的简单应用。如下班回家,不需再拿出钥匙开门,智能门锁就像一位失职的管家,会在第一时间感知你的到来,为你敞开家门。“十年之后,人工智能将会成为主流,潜移默化浸透到生活中的各种角落。别看是小事情,背后却是高密集的技术支撑。”秦志刚表示。
“愿景非常美妙,但如何将人工智能落地和提高推行?这将是我们下一步亟待攻克的难题。”秦志刚说。