Meta出手“卷”向AI视觉,AI与机器视觉形成新千亿市场

AI信息情报站 2023-04-17
2480 字丨阅读本文需 6 分钟

近日,Meta官方博客宣布,推 出 新 AI模 型 SegmentAnythingModel(SAM)分割一切模型,提出能够对任何图像或视频中的任何物体进行识别、图像分割和一键抠图。此外,华为云AI领域首席科学家田奇在中国人工智能大模型技术高峰论坛上提出,未来随着盘古系列大模型落地,AI视觉在下游应用中会加速渗透。

业内人士表示,目前SAM模型及数据集均为开源,可以灵活集成于更大的AI系统,随着SAM的演进与发展,该技术可能会成为工业质检、AR/VR、自动驾驶、卫星遥感等多领域的强大的辅助工具,看好SAM等图像分割模型在机器视觉中的应用。

Transformer视觉算法,助力开发通用式AI大模型

微软亚洲研究院研究员胡瀚,长期从事计算机视觉的研究工作,致力于推进计算机视觉与自然语言处理建模和学习的融合和统一。他所提出的 Swin Transformer ,成为了推动视觉 Transformer 取代长期统治视觉骨干网络的卷积神经网络的一个里程碑工作。凭借这一开创性的成果,他成为 2022 年度《麻省理工科技评论》“35 岁以下科技创新 35 人”中国入选者之一。

在清华大学自动化系读博期间,胡瀚就开始了对计算机视觉的研究。当时,他受到人类视觉机制的启发,尝试使用更全局系统的方式来解决视觉分割问题,并在视觉的基本原则方面有了一些掌握。

博士毕业后,他继续从事计算机视觉研究。在很早的时候,他就坚信要想实现更通用的人工智能,不同领域在建模方面的统一将是一个重要的基础。在 2017 年 Transformer 出现后不久,他就看好这一架构的强大通用性,并开始积极尝试将 Transformer 引入到视觉领域中。他早期的尝试包括基于 Transformer 实现学界首个端到端的物体检测器(2017年),以及在 2019 年首次将 Transformer 用于视觉骨干建模,尽管效果不错,但这一神经网络遇到了实现效率问题而不太实用,也没有成为主流。

两年后,他于 2021 年提出的 Swin Transformer 解决了其中的效率难题,从而推进了这一网络在视觉领域走向实用。在这个工作中,他创造性地提出了“移位窗口”方法,该方法无需同时处理数以千计的局部窗口,可以将需要处理的窗口数量降低 50 倍,这大大提升了计算的并行性,在 GPU 上取得了 3 倍的速度提升。

胡瀚和团队首次证明了 Transformer 网络能够在非常广泛的视觉问题中大幅超越卷积神经网络,推动该领域大规模兴起了对视觉 Transformer 的研究。“当时我们很快做了开源,把一些实现细节分享给了整个领域。有了这个基础,其他研究者才能更快地去追随并开展进一步研究,进而共同推进该领域的发展。”他说。

作为项目负责人,他以《Swin Transformer:使用移位窗口的分层视觉 Transformer》(Swin Transformer: Hierarchical Vision Transformer using Shifted Windows)为题发布在预印本平台 arXiv。

据悉,该成果获得了计算机视觉国际大会的最佳论文(马尔奖),这一奖项被视为国际计算机视觉领域的最高荣誉之一。同时,相关论文在一年多时间获得超过 5000 次引用和超过 10000 次 GitHub 标星。

目前,Swin Transformer 正作为骨干网络广泛地应用于计算机视觉领域,并为全球亿万人的工作和生活带来了很大的改变。比如,其已在微软产品 PowerPoint 的视觉素材推荐中获得应用,正在帮助用户制作更具美观性的设计和演示文稿。另外,其还被应用于图像搜索、元宇宙、自动驾驶和机器人等诸多领域。

与此同时,Swin Transformer 所代表的大一统趋势,有利于大大简化芯片设计,也有利于更通用的人工智能模型的开发。

计算机视觉加速发展,市场规模超千亿

AI产业链可分为基础层、技术层、应用层。

- 基础层:主要包括芯片、软件框架、传感器、服务器、数据(集)等软硬件及服务,为技术层提供算力、数据等底层支撑。

- 技术层:主要通过基础层的算力、数据支持,进行海量模拟训练和机器学习建模,为人工智能提供核心的算法与应用技术,主要包括以深度学习为代表的算法模型,以及计算机视觉、智能语音、机器学习、生物特征识别、知识图谱等关键技术。技术层是人工智能发展的核心,对应用层的智能化发展起到决定性作用。

- 应用层:面向特定应用场景需求而形成的软硬件产品或解决方案。人工智能应用广泛,可有效赋能下游领域实现人工智能应用,为其转型与发展注入强劲新动能,如智能机器人、AI+医疗、AI+金融、AI+交通等。

计算机视觉是AI商业化主阵地

计算机视觉产业链也可分为基础层、技术层、应用层。基础层包括硬件支持、算法支持和数据集;技术层包括视觉技术平台、视频识别、图片识别和模式匹配;应用层包括计算机视觉技术在智慧城市、智慧安防、智慧物流、智慧金融、手机终端和智慧商业等领域的应用。随着机器学习的不断推进,图像及视频识别准确率持续提升,计算机视觉算法向着高效求解复杂问题、进行全局优化的方向发展。

计算机视觉的技术应用领域从最初的静态人脸识别和光学字符识别,逐渐扩展到了人脸识别分析、活体检测、人体识别分析、物体检测识别、行为识别分析、人体重识别、医疗影像诊断技术等诸多种方向,在泛安防、金融、互联网、医疗、工业、政务等领域得到广泛应用,市场规模仍处于高速增长阶段。据统计,我国高达42%的企业有应用计算机视觉相关技术,2021 年,我国计算机视觉核心产业规模和带动相关产业规模分别为989.6 亿元和 3079 亿元,占人工智能核心产业和带动相关产业规模的比重分别达到49.5%和 40.0%。

行业前景 国产机器视觉成长提速

计算机视觉是指用摄像机和计算机代替人眼对目标进行识别、跟踪和测量等,通过计算机实现人的视觉功能,对客观世界的三维场景的感知、识别和理解,通常有仿生学和工程两类方法。计算机视觉自20世纪40年代萌芽,历经三次浪潮,自2006年Hinton在神经网络的深度学习领域取得突破后,实现飞速发展。计算机视觉下游应用广泛,可通过人脸识别、视频监控处理、网络图像分析、测温通行、人机交互等功能垂直赋能各行各业,使用场景包括智慧城市、智慧零售、智慧医疗、智能驾驶、智能家居、工业制造等。

机器视觉可以被认为是工业化的计算机视觉,在工业领域,计算机视觉为机器视觉提供软件算法,而机器视觉提供传感器模型,系统构造等,可广泛应用于3C电子制造、锂电池、光伏、半导体等行业。

根据咨询机构弗若斯特沙利文数据,我国计算机视觉市场规模一直保持逐年增长,从2018年的79亿元增长至2020年的167亿元,年均复合增长率达45.39%,预计2022年我国机器视觉市场规模将进一步增长至351亿元。根据高工机器人产业研究所(GGII)统计数据,我国机器视觉市场国模有望从2021年的107.8亿元增长至2025年的311.57亿元,CAGR高达30.4%。

值得一提的事,政策支持叠加应用端拓展,国产机器视觉成长提速。一方面,我国《“十四五”智能制造发展规划》中提到,要大力发展智能制造装备,推动先进工艺、信息技术与制造装备深度融合,产业链自主可控需求推动本土机器视觉厂商持续自主创新、缩小与海外龙头的实力差距;另一方面,全球人工智能经济持续发酵,AI应用端市场多点开花并加速落地,在“AI+”、“工业4.0”和“中国制造2025”背景下,智能工厂、智能制造成为工业发展大趋势,在机器视觉方面率先实现自主技术创新突破的国产厂商有望充分受益。

文章来源: 挖掘龙头逻辑,DeepTech深科技,安防知识网

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:AI信息情报站
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...