Ad

header ads

Publicidad

header ads

Inteligencia a escala a través de la eficiencia del modelo de IA

Imagen: GizLogic – 2021

La IA, específicamente el aprendizaje profundo, está revolucionando las industrias, los productos y las capacidades centrales al ofrecer experiencias mejoradas de manera espectacular. Sin embargo, las redes neuronales profundas de hoy usan demasiada memoria, computación y energía. Para que la IA sea realmente omnipresente, debe ejecutarse en dispositivos finales con presupuestos térmicos y de energía ajustados.
 
En esta publicación de blog, nos centraremos en la última investigación de eficiencia de modelos de Qualcomm AI Research, en particular la búsqueda de arquitectura neuronal (NAS). Además, destacaremos cómo la comunidad de IA puede aprovechar nuestros proyectos de eficiencia de modelos de código abierto, que proporcionan técnicas de cuantificación y compresión de vanguardia.
 
Un enfoque holístico de la eficiencia del modelo de IA

En Qualcomm AI Research , nos esforzamos mucho en la investigación de la eficiencia del modelo de inteligencia artificial para mejorar la eficiencia energética y el rendimiento. Intentamos exprimir toda la eficiencia de los modelos de IA, incluso aquellos que ya han sido optimizados para dispositivos móviles por la industria. Qualcomm AI Research está adoptando un enfoque holístico para la investigación de la eficiencia del modelo, ya que existen múltiples ejes para reducir los modelos de AI y ejecutarlos de manera eficiente en hardware. Tenemos esfuerzos de investigación en cuantificación , compresión, NAS y compilación. Estas técnicas pueden ser complementarias, por lo que es importante abordar el desafío de la eficiencia del modelo desde múltiples ángulos.
 
En los últimos años, hemos compartido nuestra investigación líder en IA sobre cuantificación, incluidas técnicas de post-entrenamiento como Data Free Quantization y AdaRound , y técnicas conjuntas de cuantificación y poda, como Bayesian Bits , a través de publicaciones de blog y seminarios web . Ahora nos gustaría presentar nuestra investigación de NAS, que ayuda a encontrar redes neuronales óptimas para implementaciones de la vida real.
 
NAS para automatizar el diseño de redes neuronales eficientes

La optimización e implementación de modelos de IA de última generación para diversos escenarios a escala es un desafío. Las redes neuronales de vanguardia son generalmente demasiado complejas para ejecutarse de manera eficiente en el hardware de destino, y las redes de diseño manual no son escalables debido a la diversidad de la red neuronal, la diversidad de dispositivos y el costo , tanto los recursos informáticos como de ingeniería.
 
La investigación de NAS se inició para ayudar a abordar estos desafíos mediante la creación de una forma automatizada de aprender una topología de red que puede lograr el mejor rendimiento en una determinada tarea. Los métodos NAS generalmente constan de cuatro componentes. Un espacio de búsqueda, que define qué tipos de redes y componentes se pueden buscar. Un predictor de precisión, que indica qué tan precisa se espera que sea una red determinada. Un predictor de latencia, que predice qué tan rápido se ejecutará la red. Y un algoritmo de búsqueda, que reúne los tres para encontrar la mejor arquitectura para un caso de uso específico.
 
Si bien la investigación de NAS ha avanzado mucho, las soluciones existentes aún no logran abordar todos los desafíos, en particular, carecen de diversos espacios de búsqueda, requieren un alto costo de computación, no escalan de manera eficiente o no brindan estimaciones confiables de rendimiento de hardware. Nuestra última investigación sobre NAS aborda estos desafíos. Lo llamamos DONNA, Destilación de arquitecturas de redes neuronales óptimas. DONNA es un NAS eficiente con optimización de hardware en el ciclo. Es un método escalable que encuentra arquitecturas de red óptimas en términos de precisión y latencia para cualquier plataforma de hardware a bajo costo. Lo más importante es que aborda los desafíos de implementar modelos en escenarios reales, ya que incluye búsquedas diversas, tiene un bajo costo de cómputo, es escalable y utiliza mediciones directas de hardware que son más confiables que los modelos de hardware potencialmente inexactos.

Publicar un comentario

0 Comentarios