新闻中心

2021年“十大突破性技术”深度解读——多技能 AI

Writer: admin Time:2023-06-27 Browse:164

  MIT Technology Review 一年一度的 “十大突破性技术” 榜单正式发布。自 2001 年起,该杂志每年都会评选出当年的 “十大突破性技术”,这份在全球科技领域举足轻重的榜单曾精准预测了脑机接口、量子密码、灵巧机器人、智慧传感城市、深度学习等诸多热门技术的崛起。

  本年度 MIT Technology Review “十大突破性技术” 分别为:mRNA 疫苗、生成式预训练模型、数据信托、锂金属电池、数字接触追踪、超高精度定位、远程技术、多技能型人工智能、TikTok 推荐算法和绿色氢能。

  为了让广大读者深入了解这十项技术的科学价值及其背后的科学故事,国家自然科学基金委员会特邀请各领域著名科学家分别对其进行深入解读,以激发科研人员的创新思维,并促进科学界的学术交流。

  2012 年底,人工智能科学家首次弄清了如何让神经网络 “拥有视觉”,随后,他们还掌握了如何让神经网络模仿人类推理、听觉、语言和写作的方式。虽然人工智能在完成特定任务方面已经变得非常像人类,甚至是超越人类,但它仍然没有人类大脑的 “灵活性”,即人脑可以在一种情境中学习技能,并将其应用到另一种情境中。

  受儿童成长过程的启发,如果将感官和语言结合起来,并让人工智能拥有更接近于人类的方式来收集和处理信息,那么它能否发展出对世界的理解?答案是肯定的。

  这些可同时获得人类智能的感官和语言的 “多模态” 系统,应该会生成一种更强大的人工智能,也更容易适应新情况、以及解决新问题。如此一来,我们便可以使用这样的算法来解决更复杂的问题,或者将其移植到机器人中去,使得机器人能够在日常生活中与我们交流协作。

  2020 年 9 月,艾伦人工智能研究所 AI2 的研究人员创建了一个可以从文本标题生成图像的模型,展示了算法将单词与视觉信息关联的能力;2020 年 11 月,北卡罗来纳大学教堂山分校的研究人员开发了一种将图像纳入现有语言模型的方法,此举提高了模型的阅读理解能力;2021 年初,OpenAI 对 GPT-3 进行了扩展,发布了两个视觉语言模型,其中一个将图像中的对象与标题中描述它们的单词联系起来,另一个则根据它所学的概念组合生成图像。

  从长远来看,“多模态” 系统取得的重大进展可以帮助突破人工智能的极限,不仅会解锁新的人工智能应用,也会让它们的应用变得更加安全可靠,更加精密的多模态系统也将使更先进的机器人助手成为可能。总而言之,多模态系统可能会成为第一批我们可以真正信任的人工智能。

  专家简介:纪荣嵘 厦门大学南强特聘教授,国家杰出青年科学基金获得者。主要研究方向为计算机视觉。近年来发表 TPAMI、IJCV、ACM 汇刊、IEEE 汇刊等论文百余篇。曾获 2016 年教育部技术发明奖一等奖、2018 年省科技进步奖一等奖、2019 年福建省青年科技奖。任中国计算机学会 A 类国际会议 CVPR 和 ACM Multimedia 领域主席、中国图象图形学学会学术工委副主任、教育部电子信息类教指委人工智能专业建设咨询委员会委员。

  人工智能正成为推动人类进入智能时代的决定性力量。让机器能够像人一样思考、感受和认识世界,是人工智能科学家们孜孜以求的终极目标。

  算法、算力、数据规模的迅速提升,让面向特定任务的人工智能技术迎来了爆发式的发展。目标检测与识别、人机对弈、无人驾驶等技术实现了前所未有的突破,在局部智能水平的单项测试中甚至超越人类。

  然而,这样的智能系统局限在任务单一、需求明确、应用边界清晰、领域知识丰富、建模相对简单的场景中。例如, DeepMind 的 AlphaGo 可以击败世界上最好的围棋大师,但它并不能将这种能力扩展到棋盘之外。

  可以预见,多技能人工智能(Multi-skilled AI)将是下一代人工智能发展的趋势,也是研究和应用领域的重大挑战。多技能 AI 旨在拓展现有人工智能技术的感知边界,赋予智能系统多种能力,多技能相互协同,完成复杂任务。

  其中,多感官的结合非常关键,可以预想,当机器开始将语言与视觉、听觉等其他感官信息相关联时,它们就能够描述越来越复杂的现象和动态。从仅反映相关性的内容中推理因果关系,并构建复杂的世界模型。这样的模型可以帮助它们在陌生的环境中导航,并在上下文中添加新的知识和经验。

  多技能 AI 的发展,对于人工智能技术突破现有局限,以及它的落地和普及都具有非常重要的意义。具备多种技能的系统可以胜任更多的应用场景,协同、高效地完成复杂任务,让高智能机器人的出现成为可能。

  当前一代的人工智能驱动的机器人主要使用视觉数据来引导并与周围环境进行交互,这在有限的环境中完成简单的任务十分灵活,但是在更为复杂的场景中将失灵。

  多技能 AI 将给未来的技术带来灵活性和安全性,筛选简历的算法不会将性别和种族等无关的特征视为能力的标志,自动驾驶汽车不会在陌生的环境中迷失方向,不会在黑暗或下雪的天气中坠毁。

  它的发展将直接赋能医疗,教育,航天等其他领域,推动智能时代的进程。由于具备的深远影响力以及广泛的应用前景和发展前景,多技能人工技能被 MIT Technology Review 评选为 2021 年 “全球十大突破技术” 之一。

  国际上已经逐步开始关注到多技能 AI 技术方向,目前被广泛称为通用人工智能。

  早在 2016 年 10 月,美国国家科学技术委员会发布《国家人工智能研究与发展战略计划》,提出在美国的人工智能在中长期发展策略中要着重研究通用人工智能。微软在 2017 年成立了通用人工智能实验室,众多感知、学习、推理、自然语言理解等方面的科学家参与其中。

  腾讯的董事会主席兼 CEO 马化腾在 2019 世界人工智能大会上表示:“实现从专用人工智能向通用人工智能的跨越发展,这也是下一阶段的重要趋势。”

  2019 年 10 月,DeepMind 推出的新版 AlphaStar [1],可以实现与真实世界中的玩家实现了复杂场景交互中的对战,并且排名超越了 99.8% 的玩家。

  2020 年,OpenAI 开发出包含 1750 亿个神经的 GPT-3 [2],以此为基础开发出全能的 “通才”,可以同时具备数据库工程师、会计、运维、智能客服等 30 多种功能,俨然一副取代人类的架势。目前,国内也逐渐开始关注到这个领域,拥有大量的人才和资金优势,并在专项领域有雄厚的积累,未来的发展一片光明。

  多技能人工智能必将成为未来的主流趋势,拥有广阔的应用前景和发展空间,但是目前仍有很长的一段路要走。

  首先,最主要的问题是目前研发的成本过高,导致研究团队主要集中在少数几家龙头企业,这有待于硬件技术和模型紧凑压缩技术的进一步发展。

  其次,该项技术需要解决对于标注数据高度依赖问题,尽可能使用更少的特定领域数据,看好无(自)监督技术的发展可以成为这个问题的解。最后,如何增量更新经验与新任务,动态改正错误,不断的在自我学习中变的强大,将是模型不断变强的根本路线。

新闻中心

CONTACT US