半岛bandao体育(中国)官方网站

一位华裔女博士提出了高效的 NAS(神经结构搜索)算法, 可以通过一次「训练」实现对亿万硬件设备的适配。最近,该团队在加州大学河滨分校的主导下与 George Mason 大学和圣母大学进行了合作,提出了一种基于延迟单调性的算法,从根本上促进了硬件适配的 NAS,即不同设备上的神经架构延迟排名通常是相关的。

日期:2024-06-21 19:18 / 作者:zoc7RcITctunhMtq7EzA
在强延迟单调性存在的情况下,可以将代理硬件上NAS得到的架构重新应用到任何新目标硬件上,而不会损失Pareto最优性。利用这项技术,可以将硬件适配NAS的成本降低到常数O(1),并结合最新的SOTA NAS技术。

目前,这篇论文已被国际性能建模和分析顶级会议ACM SIGMETRICS 2022录用。

论文链接:https://arxiv.org/abs/2111.01203

项目网址:https://ren-research.github.io/OneProxy/

神经架构搜索(NAS)华人女博士提出高效NAS算法:AutoML一次「训练」适配亿万硬件

一位华裔女博士提出了高效的 NAS(神经结构搜索)算法, 可以通过一次「训练」实现对亿万硬件设备的适配。最近,该团队在加州大学河滨分校的主导下与 George Mason 大学和圣母大学进行了合作,提出了一种基于延迟单调性的算法,从根本上促进了硬件适配的 NAS,即不同设备上的神经架构延迟排名通常是相关的。

神经网络是分层结构,每一层可以是卷积层、激活层或全连接层等。在NAS的过程中,就像搭积木一样,每一层都有不同的选择。比如,在卷积层时,选择使用什么大小的卷积核就是其中之一。将每个层级的选择组合在一起后,就形成了一个完整的神经网络结构。在网络存储中,通常可以获得多种“最佳”架构,例如高精确度和高延迟或低精确度和低延迟的架构。NAS的最终目标是要找到一系列在精度和延迟权衡中最优的架构,也称为Pareto最优架构。就相应来说,硬件适配NAS指的是对给定的目标设备进行适配,以找到当前设备上的一系列Pareto最优架构。由此可见,NAS是一个“选择-组合”过程,在这个过程中肯定会得到很多可供选择的架构。选择Pareto最优结构的方法是通过对这些结构的延迟和精度进行排名,并选择最优的结构。对于这一问题,本文将使用精度和推理延迟两个方面来评估神经网络的性能。BOB半岛下载

工作简介

一位华裔女博士提出了高效的 NAS(神经结构搜索)算法, 可以通过一次「训练」实现对亿万硬件设备的适配。最近,该团队在加州大学河滨分校的主导下与 George Mason 大学和圣母大学进行了合作,提出了一种基于延迟单调性的算法,从根本上促进了硬件适配的 NAS,即不同设备上的神经架构延迟排名通常是相关的。

卷积神经网络(CNN)正在被广泛应用在各种不同类型的硬件设备和平台上。神经网络的结构对最终模型的性能有着巨大的影响,如推理准确度和延迟。因此,在NAS的过程中综合目标硬件的影响至关重要,即NAS的硬件适配。实现NAS硬件适配的关键是在目标设备上快速评估不同神经网络架构的推理延迟。要是直接测量每个架构的延迟,就需要数周甚至数月才能完成一次NAS。因此,SOTA硬件适配的NAS主要依赖于为每台设备创建延迟查找表或预测器。构建延迟预测器是一项十分耗时且需要大量工程工作的任务。比如说,麻省理工学院的ProxylessNAS在移动设备上测试了5000个深度神经网络的平均推理延迟,并以此为基础建立了延迟查找表。假设每次测量的理想耗时是20秒(根据TensorFlow官方指南),即使不间断地测量,在一个设备上构建延迟预测器也需要27个多小时。同样地,Meta提出了ChamNet,它收集了35万条延迟记录,仅用于在单个设备上构建延迟预测器。今年ICLR会议的重点工作HW-NAS-Bench花了一个月的时间在NAS-Bench-201和FBNet模型空间上收集延迟数据,并为六种设备构建了延迟预测器。在微软的最新工具nn-meter中,要收集一个边缘设备上的延迟测量值就需要花费4.4天的时间。这些事实表明,为了为每个目标设备构建延迟预测器,SOTA的硬件适配NAS的成本非常高。

更为复杂的是,CNN的部署目标设备类型多种多样,涵盖移动CPU、ASIC、边缘设备以及GPU等。举个例子,仅移动设备领域,现今市场上就存在两千多种SoC,排名靠前的30种SoC仅占据了超过1%的市场份额。因此,在各种不同的目标设备上有效地进行硬件适配已经成为NAS的一个挑战。在这个项目中,作者成功解决了如何在不同的目标设备上降低硬件适配NAS的延迟评估成本的问题。该作者首先证实了神经网络结构在不同设备之间普遍存在延迟单调性,特别是在同一平台上。延迟单调性表示不同设备上不同架构的延迟排序是相关的。在这个基础上,只需选取一台设备作为代理,为其构建延迟预测器,而不是像SOTA那样为每个目标设备单独构建延迟预测器,这就足够了。实验结果显示,与专门针对每个目标设备进行优化的NAS相比,仅使用一个代理设备的方法几乎不会损失Pareto最优性。这份工作已被收录到SIGMETRICS'22会议中。

广泛存在的延迟单调性作为本研究的基础,作者首先对神经架构的延迟单调性进行了研究,并证明它在设备间普遍存在,尤其是在同一平台的设备上。本篇文章采用Spearman等级相关系数(SRCC)来量化评估延迟的单调程度。SRCC的取值范围为-1到1之间,两台设备上的模型延迟的SRCC值越大,表示延迟的单调性越好。一般来说,当SRCC的值超过0.9时,就被认为具有较强的单调性。1. 作者首先在同一平台的设备上进行了延迟单调性实验,这些设备包括三星Galaxy S5e和TabA、联想Moto Tab和Vankyo MatrixPad Z1;并从MobileNet-V2的搜索空间中随机抽样了10,000个模型。接下来,将这些模型分别部署在四台设备上,并计算它们的平均推理延迟。图(a)显示了这些模型在四个设备上的推理延迟,用散点来表示;而图(b)则用热力图来展示设备之间模型延迟的相关系数。每个方块的颜色深浅和数值直观地表示了一对设备之间SRCC的大小。作者发现,若某个模型在TabA上运行速度较快,则它在其他设备上也快,并且不论哪两台设备,它们的SRCC值均大于0.98,这说明这10k个模型在这些设备上具有很强的延迟单调性。更多实验证明了,对于其他平台的设备也是一样的结论,比如CPU、GPU和FPGA。

BOB半岛娱乐

2. 考虑到设备跨平台的情况,由于硬件结构通常存在明显差异,因此设备间延迟的相关性通常会低于同一平台内部设备之间的。作者在HW-NAS-Bench数据集上的实验也证实了这一结论(具体内容请参阅原文附录)。

通过代理设备进行硬件适配NAS

的目的是从众多可选的神经网络架构中找到适配当前硬件的一系列Pareto最优解。不同的硬件只会影响架构的延迟,而不会改变架构的精确度。从前面的章节可以得知,在不同的硬件平台上,延迟排名很可能存在强烈的相关性。因此,一种在代理硬件上具有低延迟和高精度的架构,在其他硬件平台上也可能具有相同的优势。能否将一个代理硬件上已有的Pareto最优架构直接应用到所有硬件上呢?作者的答复是:可以,但是需要符合一定的条件。在目标设备上进行网络搜索并找到 Pareto 最优结构的一个必要条件是严格的延迟单调性,通过使用代理设备。当代理设备和目标设备之间的SRCC低于一定阈值时,代理设备上的NAS搜索可能会发现的架构与目标Pareto最优架构存在差异。在实际情况中,设备之间的低延迟单调性可能并不少见,特别是在跨平台的设备间。为了解决这个问题,作者提出了一项有效的迁移学习技术,使代理设备的延迟预测器能够适应目标设备,以提高新代理设备和目标设备之间的延时SRCC。这项研究通过大量实验证明,延迟SRCC阈值可以在0.9左右成功作为代理设备。利用迁移学习技术来改善代理设备和目标设备之间的SRCC效果如下,详细细节和算法描述请参考原始文献的相关章节。作者在多个主流的NAS搜索空间中(包括MobileNet-V2、MobileNet-V3、NAS-Bench-201和FBNet),对多个硬件设备进行了实验,包括手机、GPU/CPU和ASIC等,实验结果证明了利用延时单调性的技术结合迁移学习来提高单调性的有效性。他们还证明了使用一个代理设备来对不同目标设备进行硬件适配NAS的有效性。在目标设备上进行快速评估,总结推理延迟,是在庞大的神经网络结构空间中实现高效优化的重要步骤。目前普遍采用的方法是为每个目标设备建立延迟预测器,不能有效解决实际中目标设备不断增多带来的挑战。加州大学河滨分校的团队提出了一种全新的方法,它基于延迟单调性,只需要一个代理设备就可以进行硬件适配的神经构架搜索,并且能保持最优性。这样做可以减少构建延迟预测器的巨大成本,使得未来能够快速优化神经结构以适应不同平台和设备变得可能。{a} {a}作者简介{a} {a}本文的第一作者是卢冰倩,目前在加州大学河滨分校担任博士生研究助理,本科毕业于浙江大学。在攻读博士学位期间,我一直专注于自动机器学习(AutoML)和神经网络结构搜索(NAS)的研究工作,涉及自动选择机器学习模型、可扩展硬件适配的神经网络优化,以及硬件适配的NAS等方面。他的导师是任绍磊博士,他本科毕业于清华大学电子系,获得加州大学洛杉矶分校的博士学位,目前在加州大学河滨分校担任副教授。教授的研究领域包括系统和网络优化(如数据中心、云计算、边缘计算等),最近专注于机器学习及其应用(例如强化学习、AutoML、TinyML等)。

华人女博士提出高效NAS算法:AutoML一次「训练」适配亿万硬件

华人女博士提出高效NAS算法:AutoML一次「训练」适配亿万硬件

华人女博士提出高效NAS算法:AutoML一次「训练」适配亿万硬件

BOB半岛新版

BOB半岛下载

BOB半岛新版

华人女博士提出高效NAS算法:AutoML一次「训练」适配亿万硬件

华人女博士提出高效NAS算法:AutoML一次「训练」适配亿万硬件华人女博士提出高效NAS算法:AutoML一次「训练」适配亿万硬件

华人女博士提出高效NAS算法:AutoML一次「训练」适配亿万硬件

BOB半岛APP

华人女博士提出高效NAS算法:AutoML一次「训练」适配亿万硬件华人女博士提出高效NAS算法:AutoML一次「训练」适配亿万硬件

华人女博士提出高效NAS算法:AutoML一次「训练」适配亿万硬件

BOB半岛平台


BOB半岛平台 BOB半岛新版