Abstract:
Inteligența artificială este un domeniu de cercetare amplu, cu dezvoltare explozivă în ultimii ani, ce oferă numeroase aplicații practice. Acest lucru înseamnă faptul că domeniul a ajuns într-o etapă suficient de avansată astfel încât a trecut de la nivel de cercetare la cazuri concrete de utilizare, într-o manieră sigură. Pe măsură ce algoritmii de inteligență artificială au ajuns la un nivel ridicat de maturitate, dispozitivele hardware de procesare locală („EdgeAI”), datorită avantajelor oferite față de execuția în „cloud” sau pe platforme generale de calcul tip PC, au captat atenția cercetătorilor și a industriei. Lucrarea de doctorat propune soluții tehnice pentru optimizarea și compresia rețelelor neuronale profunde cu scopul de a obține modele ce pot rula partea de inferență pe sistemele locale încorporate („embedded”) bazate pe microcontrolere cu procesoare ARM cu consum și capabilități de calcul reduse (familia Cortex-M).
Obiectivul general al tezei este reprezentat de către compresia rețelelor neuronale de tip convoluțional (CNN) cu utilizare, spre exemplu, în domeniul auto, la estimarea orientării privirii ochilor unui conducător auto. Acest lucru are o importanță deosebită din cauza dimensiunilor mari ale rețelelor neuronale de ultimă generație, care de regulă sunt antrenate pe stații de lucru sau servere la distanță cu performanțe înalte. O astfel de soluție nu este potrivită pentru aplicații care trebuie să ruleze în timp real, cu consum redus de energie și unde transmiterea datelor la distanță trebuie evitată din motive de confidențialitate și securitate. Prin urmare, compresia rețelelor neuronale are un rol important, cu scopul de a reduce dimensiunea unui model astfel încât să fie posibilă execuția inferenței pe dispozitive locale de procesare în timp real și cu consum redus de putere.
Contribuția fundamentală a acestei teze este studiul, descrierea și implementarea metodelor principale de compresie a CNN împreună cu validarea acestora folosind diferite metrici de raportare pe microcontrolere din familia STM32 pe 32 de biți cu CPU ARM Cortex-M. În caz particular, metoda de distilare a cunoștințelor este pe larg explorată folosind compresia la nivel de straturi sau de filtre, precum și combinația acestora, cu o prezentare detaliată a rezultatelor obținute.