La IA, específicamente el aprendizaje profundo, está revolucionando las
industrias, los productos y las capacidades centrales al ofrecer experiencias
mejoradas de manera espectacular. Sin embargo, las redes neuronales profundas
de hoy usan demasiada memoria, computación y energía. Para que la IA sea
realmente omnipresente, debe ejecutarse en dispositivos finales con
presupuestos térmicos y de energía ajustados.
En esta publicación de blog, nos centraremos en la última investigación
de eficiencia de modelos de Qualcomm AI Research, en particular la búsqueda de
arquitectura neuronal (NAS). Además, destacaremos cómo la comunidad de IA puede
aprovechar nuestros proyectos de eficiencia de modelos de código abierto, que
proporcionan técnicas de cuantificación y compresión de vanguardia.
Un enfoque holístico de la eficiencia del modelo de IA
En Qualcomm AI Research , nos esforzamos mucho en la investigación de la
eficiencia del modelo de inteligencia artificial para mejorar la eficiencia
energética y el rendimiento. Intentamos exprimir toda la eficiencia de los
modelos de IA, incluso aquellos que ya han sido optimizados para dispositivos
móviles por la industria. Qualcomm AI Research está adoptando un enfoque
holístico para la investigación de la eficiencia del modelo, ya que existen
múltiples ejes para reducir los modelos de AI y ejecutarlos de manera eficiente
en hardware. Tenemos esfuerzos de investigación en cuantificación , compresión,
NAS y compilación. Estas técnicas pueden ser complementarias, por lo que es
importante abordar el desafío de la eficiencia del modelo desde múltiples
ángulos.
En los últimos años, hemos compartido nuestra investigación líder en IA
sobre cuantificación, incluidas técnicas de post-entrenamiento como Data Free
Quantization y AdaRound , y técnicas conjuntas de cuantificación y poda, como
Bayesian Bits , a través de publicaciones de blog y seminarios web . Ahora nos
gustaría presentar nuestra investigación de NAS, que ayuda a encontrar redes
neuronales óptimas para implementaciones de la vida real.
NAS para automatizar el diseño de redes neuronales eficientes
La optimización e implementación de modelos de IA de última generación
para diversos escenarios a escala es un desafío. Las redes neuronales de
vanguardia son generalmente demasiado complejas para ejecutarse de manera
eficiente en el hardware de destino, y las redes de diseño manual no son
escalables debido a la diversidad de la red neuronal, la diversidad de dispositivos
y el costo , tanto los recursos informáticos como de ingeniería.
La investigación de NAS se inició para ayudar a abordar estos desafíos
mediante la creación de una forma automatizada de aprender una topología de red
que puede lograr el mejor rendimiento en una determinada tarea. Los métodos NAS
generalmente constan de cuatro componentes. Un espacio de búsqueda, que define
qué tipos de redes y componentes se pueden buscar. Un predictor de precisión,
que indica qué tan precisa se espera que sea una red determinada. Un predictor
de latencia, que predice qué tan rápido se ejecutará la red. Y un algoritmo de
búsqueda, que reúne los tres para encontrar la mejor arquitectura para un caso
de uso específico.
Si bien la investigación de NAS ha avanzado mucho, las soluciones
existentes aún no logran abordar todos los desafíos, en particular, carecen de
diversos espacios de búsqueda, requieren un alto costo de computación, no
escalan de manera eficiente o no brindan estimaciones confiables de rendimiento
de hardware. Nuestra última investigación sobre NAS aborda estos desafíos. Lo
llamamos DONNA, Destilación de arquitecturas de redes neuronales óptimas. DONNA
es un NAS eficiente con optimización de hardware en el ciclo. Es un método
escalable que encuentra arquitecturas de red óptimas en términos de precisión y
latencia para cualquier plataforma de hardware a bajo costo. Lo más importante
es que aborda los desafíos de implementar modelos en escenarios reales, ya que
incluye búsquedas diversas, tiene un bajo costo de cómputo, es escalable y
utiliza mediciones directas de hardware que son más confiables que los modelos
de hardware potencialmente inexactos.
0 Comentarios