La sostenibilità per TIM

Bilancio di Sostenibilità 2023

Vogliamo contribuire ad accelerare la crescita sostenibile dell’economia e della società portando valore e benessere alle persone, alle aziende, alle istituzioni. Approfondisci

Ultimi Comunicati Stampa

Redazione ufficio stampa

Leggi gli ultimi comunicati stampa e naviga nell'archivio dell'Ufficio Stampa del Gruppo TIM. Leggi i comunicati

L’Intelligenza Artificiale è entrata a pieno titolo tra l’insieme di tecnologie impiegate stabilmente dai Media. Tecniche di Machine Learning sono in grado di comprendere, classificare, manipolare, ottimizzare formati e modalità di distribuzione e raccomandare contenuti sulla base delle abitudini e preferenze di fruizione degli utenti. L’Intelligenza Artificiale generativa può creare immagini, video, audio e testi, supportando i processi di creazione artistica, di produzione e post-produzione. La Comunità Scientifica negli ultimi anni ha sviluppato nuove tecniche basate sulle reti neurali profonde che possono essere applicate alla compressione dei video. Gruppi di lavoro internazionali, come ISO/IEC JTC1 SC29 WG5 (MPEG)/ITU-T SG16 Joint Video Experts Team (JVET) e Moving Picture, Audio and Data Coding by Artificial Intelligence (MPAI), hanno avviato attività esplorative che dovrebbero portare alla definizione di una nuova generazione di compressori video (codec) basati su IA nel corso di questo decennio, con benefici in termini di risparmio di banda e flessibilità di utilizzo rispetto alle soluzioni oggi disponibili. Queste nuove tecnologie potrebbero rivoluzionare servizi come streaming di video e gaming, videoconferenza, realtà virtuale e aumentata, e public safety.

Scarica il PDF

Down

Intelligenza Artificiale per

997 KB

Intelligenza Artificiale e Media

Gli algoritmi di Machine Learning in ambito Media sono stati inizialmente impiegati per la gestione automatica di operazioni di indicizzazione e ricerca su cataloghi video e, sulla base delle preferenze di fruizione degli utenti, per realizzare motori di raccomandazione sempre più sofisticati che facilitano la ricerca e l’accesso a nuovi contenuti. Queste soluzioni si basano su tecnologie in grado di estrarre le caratteristiche principali dei contenuti, chiamate feature, e di sfruttare queste informazioni per operazioni di annotazione automatica, arricchimento e classificazione. Altre tecniche permettono, a partire da un contenuto, di ricavare segmenti corrispondenti ad ogni scena o con particolari requisiti (presenza di oggetti, attori, personalità o con una particolare semantica associata). I metadati prodotti possono essere utilizzati per offrire una migliore navigazione del contenuto originale, per generare in modo automatico highlights da eventi sportivi appena conclusi, o per facilitare operazioni di ricerca ed estrazione di filmati da archivi digitali per la produzione di nuovi contenuti, per la realizzazione di servizi per i notiziari o per la creazione di asset a corredo del contenuto stesso (per esempio le immagini da presentare nell’interfaccia di navigazione dei servizi di streaming). Le prime applicazioni di tecniche di Machine Learning ai processi di preparazione e distribuzione dei contenuti in streaming sono legate principalmente a soluzioni di Content Adaptive Encoding (CAE). Si tratta di soluzioni in grado di lavorare su uno specifico contenuto o su parti di esso (ad esempio ogni scena) analizzandone caratteristiche e complessità. Processando un numero molto elevato di contenuti è possibile addestrare un algoritmo per individuare la migliore configurazione possibile in termini di parametri di transcodifica (numero di livelli ABR, risoluzione, framerate, bitrate, …), ottimizzando il rapporto tra qualità percepita e banda impiegata per ogni singolo contenuto. Queste tecniche sono diventate sempre più efficaci e sono oggi disponibili in soluzioni commerciali di encoding e packaging proposte da vari fornitori, sia in modalità on premises che in cloud, fornendo fino al 30% di risparmio in termini di banda per qualità equivalente per scenari offline (on-demand). Nel 2021 Harmonic e TIM hanno collaborato all’estensione dello standard ISO/IEC 23001 Parte 10 “Carriage of timed metadata metrics of media in ISO-base file format” [1], proprio per permettere il trasporto delle informazioni generate per scenari di transcoding intelligente distribuito. Un ulteriore, recente sviluppo è l’utilizzo di tecniche di Intelligenza Artificiale generativa, che attraverso modelli LLM (Large Language Models) possono creare testo, immagini e video artificiali originali basati sulle informazioni testuali di contesto (prompt) fornite da personale umano e su quantità estremamente elevate di dati utilizzati per l’apprendimento. Queste soluzioni, in alcuni casi già commercialmente disponibili, stanno dimostrando grandi potenzialità per uno sfruttamento nel settore della produzione ed editing dei contenuti, ma il loro uso sta anche alimentando polemiche per le implicazioni etiche e di tutela delle proprietà intellettuali ed artistiche.

Stato dell’arte ed evoluzione dei compressori video

I compressori video permettono di produrre rappresentazioni estremamente compatte di un contenuto visuale naturale o sintetico rimuovendo le informazioni meno percepibili dal sistema visivo umano e applicando tecniche che sfruttano al massimo la ridondanza di informazione all’interno del contenuto stesso. Si tratta di una tecnologia abilitante che ha permesso la creazione e lo sviluppo dei mercati televisivi digitali broadcast e IPTV negli anni Novanta e, più recentemente, l’esplosione dei servizi di streaming OTT sulle reti broadband. In oltre 30 anni di evoluzione, l’architettura delle soluzioni di compressione video più diffuse è rimasta sostanzialmente la stessa, basata su un modello di codifica ibrido che utilizza sia la compressione spaziale che quella temporale. Su questi principi di base sono state tuttavia definite soluzioni e standard sempre più efficienti che, circa ogni 10 anni, hanno dimezzato la banda richiesta per comprimere un contenuto ad una determinata qualità rispetto ai compressori della generazione precedente (Fig.1). 

Figura 1: Evoluzione delle tecnologie e standard di compressione video

Clicca qui per ingrandire l'immagine

Nel 2020 il gruppo di lavoro congiunto ISO/IEC JTC1 SC29 WG5 (MPEG)/ITU-T SG16 Joint Video Experts Team (JVET), ha pubblicato lo standard internazionale noto come Versatile Video Coding (VVC o H.266)[2]. VVC è il codec video più efficiente disponibile ad oggi. Perfeziona ed estende ulteriormente l’insieme di tecnologie sviluppate per i codec di generazione precedenti quali AVC/H.264 e HEVC/H.265. Nello stesso anno, il gruppo di lavoro ISO/IEC JTC1 SC29 WG4 MPEG Video, ha pubblicato due ulteriori standard denominati Essential Video Coding (EVC) e Low Complexity Enhancement Video Coding (LCEVC) che possono offrire vantaggi specifici per alcuni scenari di servizio e di mercato. A queste soluzioni si affianca AV1, il codec definito dal consorzio industriale Alliance for Open Media nel 2018, che, pur offrendo performance inferiori a VVC, viene reso disponibile in modalità royalty-free agli integratori e può contare su un buon livello di supporto tra i prodotti consumer come TV, Set-top box e laptop. Il gruppo JVET, a partire dal completamento della prima versione dello standard VVC, ha avviato una serie di attività esplorative con l’obiettivo di valutare nuove tecnologie in grado di migliorare ulteriormente l’efficienza di compressione. Le attività si sviluppano su due filoni principali: il primo analizza nuove tecniche basate sulla manipolazione dei segnali, in linea con l’approccio seguito finora per l’evoluzione dei codec; il secondo considera per la prima volta l’impiego di tecniche di Intelligenza Artificiale e le reti neurali profonde applicati alla compressione video. Le due attività prendono il nome rispettivamente di “Enhanced compression beyond VVC capability” [3] e di “Neural Network-based Video Coding” (NNV C) [4]. Nell’ambito dei lavori su NNVC vengono studiate tecniche che adottano le reti neurali profonde per migliorare le prestazioni di alcuni componenti dell’architettura di compressione ibrida tradizionale basata su VVC (in-loop filter, predizione inter e intra frame), ma anche approcci innovativi che rimpiazzano completamente o in parte l’attuale architettura esistente con architetture end-to-end AI, basate su autoencoder. Si tratta, come detto, di un’attività esplorativa e non ancora di un vero e proprio nuovo standard, ma è significativo come sia già disponibile un modello software di riferimento utilizzato per la verifica delle prestazioni rispetto a VVC e per l’esecuzione degli exploration experiment per valutare le diverse proposte dei vari membri. Recentemente JVET ha pubblicato un’estensione dello standard Versatile Supplemental Enhancement Information (VSEI) che permette di segnalare, attraverso appositi metadata nel bitstream del compressore VVC, la possibilità per un decoder conforme di utilizzare una particolare rete neurale come filtro da applicare a valle del processo di decodifica per migliorare la qualità dell’immagine risultante o generare nuovi frame tramite interpolazione. Questa soluzione permette la massima flessibilità di utilizzo lato client, mantenendo la compatibilità a livello di bitstream. Un interessante ulteriore sviluppo è l’avvio delle attività MPEG relative a Video Coding for Machines (VCM), un nuovo standard video che ha lo scopo di definire un formato compresso facilmente utilizzabile da processi di analisi software visuale. In questo caso l’obiettivo è di rendere possibili scenari di monitoring e analisi automatiche quali object detection e object tracking e occasionali fruizioni da parte di esseri umani, per supervisione e conferma dei risultati. Lo standard prevede la possibilità di riutilizzare come base la codifica VVC o la codifica di feature salienti. Creato nel 2020, Moving Picture, Audio and Data Coding by Artificial Intelligence (MPAI) è un ente no-profit per la definizione di standard basati sull’impiego dell’Intelligenza Artificiale per la codifica dei dati, inclusi contenuti video, con una chiara gestione degli IP attraverso un apposito licence framework. Il gruppo sviluppa, tra gli altri, due progetti relativi alla compressione video: “AI-based End-to-End Video Coding” (MPAI-EEV) [5] e “AI-Enhanced Video Coding” (MPAI-EVC) [6]. Nel primo vengono esplorate tecniche basate sull’impiego di autoencoder, mentre nel secondo, a partire dal profilo base del codec EVC, vengono analizzate soluzioni basate su reti neurali profonde per sostituire i componenti esistenti di predizione intra (cioè sfruttamento delle ridondanze spaziali), di in-loop filtering e per integrare funzionalità di super resolution.

Le reti neurali profonde applicate ai segnali video

Le reti neurali profonde (Deep Neural Network - DNN), ed in particolare le reti convoluzionali (CNN), hanno dimostrato di essere, almeno per ora, le tipologie di reti che offrono le migliori performance in scenari di classificazione e riconoscimento visuale. Si basano su una serie di strati in grado di ricavare progressivamente le informazioni salienti da una o più immagini in ingresso. Il processo prevede l’estrazione di caratteristiche e pattern visuali con livelli di astrazione via via maggiori procedendo attraverso gli strati successivi della rete, in modo molto simile a quanto avviene nel sistema percettivo umano. Le operazioni effettuate sono una serie progressive di convoluzioni matriciali e vettoriali e relativi sottocampionamenti. I risultati in uscita dalla rete vengono infine generati da uno o più strati completamente connessi. Il processo di apprendimento (training) delle reti CNN utilizza un ampio numero di contenuti con caratteristiche diverse (dataset) per ottimizzare i parametri di ciascuno strato rispetto ad una funzione di costo definita. Una CNN opportunamente addestrata è in grado di generalizzare, adattandosi efficacemente a nuovi contenuti (processo di inferenza) e fornendo risultati migliori rispetto ad algoritmi basati su una serie di logiche predefinite. La capacità di estrarre le caratteristiche salienti di un contenuto visuale (feature), permette rappresentazioni estremamente compatte dei contenuti visuali. Su questo principio, la comunità scientifica ha impiegato le CNN anche per le operazioni vere e proprie di compressione video.

Estensione delle architetture ibride di compressione con DNN

Questo approccio mantiene l’architettura tradizionale ibrida a blocchi dei compressori video sostituendo o aggiungendo componenti basati su reti neurali per specifiche funzionalità. Il diagramma sotto riportato illustra il processo di codecodifica impiegato dai compressori video moderni, evidenziando gli stadi per i quali si stanno valutando alternative basate su AI. Ciascun frame viene suddiviso in blocchi di diversa dimensione per le componenti di luminanza e crominanza. Ad ogni blocco viene sottratto il risultato di una predizione che può utilizzare informazioni presenti nel frame stesso o in quelli temporalmente adiacenti al frame corrente. Il residuo viene elaborato con operazioni di trasformazione e quantizzazione. Infine, un processo di codifica entropica si occupa di comprimere in modo efficiente i coefficienti rimanenti diversi da zero generando il vero e proprio bitstream. Nel processo di codifica i coefficienti vengono inoltre riportati nel dominio originale attraverso un processo di trasformata inversa e dequantizzazione. Il risultato, ai quali vengono applicati ulteriori filtri, viene utilizzato insieme al frame predetto per generare il frame di riferimento per nuove predizioni al ciclo successivo. Come riportato nel diagramma (Fig.2), in ambito JVET e MPAI-EVC, si sta lavorando per valutare alternative per i seguenti componenti:

  • In-loop filtering per migliorare la qualità del frame ricostruito eliminando artefatti derivanti dal processo di suddivisione in blocchi dell’immagine;
  • Predizione Intra Frame per generare predizioni relative al blocco in oggetto utilizzando le informazioni presenti nel frame;
  • Predizione Inter Frame per generare predizioni relative al blocco in oggetto utilizzando le informazioni presenti nei frame temporalmente adiacenti.

Ulteriori temi di studio sono l’impiego di:

  • Super-resolution, in cui per ogni frame, è possibile scegliere se codificarne una versione sottocampionata ed applicare nel processo di ricostruzione del frame una rete neurale in grado di effettuare l’upsampling del frame alla dimensione originaria;
  • Post filtering, in cui vengono attivate reti neurali specifiche a valle del processo di decodifica da parte del client per migliorare la qualità video risultante senza richiedere modifiche al codec.

Figura 2: Codificatore Ibrido MPEG e componenti per i quali sono in fase di studio tecniche basate su AI

Clicca qui per ingrandire l'immagine

Il modello di riferimento software sviluppato da JVET, denominato NNVC e attualmente disponibile in versione 5.0, si basa sulla combinazione dei seguenti strumenti: un numero di reti neurali, ognuna per le diverse dimensioni di blocchi supportate, dedicate alla predizione intra frame costituite da strati interamente connessi (non basati su CNN) [7]. Una rete convoluzionale da utilizzare nello stadio di in-loop filtering in parallelo al deblocking filter, ottimizzata per mantenere una bassa complessità (NNLF low OP) e una rete denominata Unified NNLF HP, sempre per in-loop filtering, con maggiore complessità e prestazioni migliori. Sono inoltre integrate funzionalità di NN-based super resolution e post filtering (seppure disattivate nella configurazione di default). È in fase di integrazione anche una proposta di rete neurale per la generazione di frame di riferimento che migliorino il processo di predizione tra frame denominata Deep Reference Frame (DRF) generation che utilizza algoritmi di optical flow [8]. Ad oggi il modello NNVC nella configurazione standard (con una serie di strumenti disabilitati) offre prestazioni in grado di migliorare di circa il 20% le prestazioni di VVC, a qualità confrontabile, con un incremento di complessità tuttavia significativo, in particolare sul decoder. Il gruppo MPAI-EVC sta lavorando ad un evidence project con l’obiettivo di migliorare, attraverso un’opportuna combinazione di tecniche basate su reti neurali, le performance del profilo base di Essential Video Coding (EVC). Tecniche di super resolution vengono integrate in uno stadio di post processing a valle della decodifica, è stata migliorata la predizione intra facendo uso di una CNN e, inoltre, sono in fase di analisi soluzioni di in-loop filtering basate su Multi-Frame In-Loop Filter (MIF-NET) [9]. Attualmente il miglioramento rispetto ad EV C è pari al 25%. Le differenti proposte e tecniche vengono valutate in base all’incremento di prestazioni in termini di efficienza di codifica rispetto alle versioni di reference software VVC nel caso di JVET e EVC per MPAI-EVC. Per la valutazione dell’efficienza di codifica viene utilizzato il valore BD-rate, basato su PSNR (Peak Signal-to-Noise Ratio), tradizionalmente impiegato per lo sviluppo dei codec video in ambito MPEG e ITU-T. Vengono inoltre riportati anche il valore MS-SSIM (Multi-Scale Structural Similarity Index), una metrica in grado di catturare maggiori informazioni sulla struttura vera e propria dell’immagine e il VMAF (Video Multi-Method Assessment Fusion), metrica più correlata alle prove soggettive. È importante notare come questi valori vengano analizzati in parallelo a valori derivanti da campagne di test soggettive, ad indici che valutano la complessità computazionale delle reti utilizzate (kMAC: numero di operazioni di multiplyaccumulate per 1000 campioni durante lo stadio di inferenza o FLOPS: numero di operazioni in floating point richiesto per un singolo passaggio) e la dimensione in memoria utilizzata per i parametri, insieme alle percentuali di incremento per i tempi di codifica e decodifica.

Compressori end-to-end DNN

Un approccio alternativo a quello descritto nel paragrafo precedente consiste nella creazione di framework end-to-end basati su reti neurali profonde, in grado di ottimizzare globalmente, attraverso il processo di apprendimento, le tecniche di predizione intra, gestione del moto e codifica dei residui. In questo modello si superano i limiti imposti dallo schema a blocchi ibrido tradizionale, riducendo quindi sensibilmente gli artefatti derivanti dalla scomposizione in blocchi delle immagini. L’obiettivo è utilizzare un numero minimo di reti neurali, in modo da semplificare sensibilmente l’architettura, in grado di apprendere autonomamente il modo migliore per gestire il trade-off tra bitrate e qualità visuale percepita. I modelli attualmente analizzati utilizzano autoencoder, particolari reti neurali in grado di apprendere, in modalità non supervisionata, la codifica più efficiente per una determinata tipologia di contenuto in uno spazio latente diverso da quello basato sui pixel e di decodifica per ripristinare il dato originale, secondo lo schema di alto livello riportato nella Fig.3. 

Figura 3: Schema di architettura E2E autoencoder

Clicca qui per ingrandire l'immagine

Gli autoencoder vengono impiegati per la predizione intra, sfruttando soluzioni ad alte prestazioni sviluppate per la compressione delle immagini, per la codifica dei residui e per la stima del moto e predizione inter frame. In quest’ultimo caso, tipicamente si combinano algoritmi di optical flow in grado di modellare il movimento a livello di pixel e non solo come semplici traslazioni o trasformazioni geometriche tra blocchi. Il gruppo MPAI-EEV ha realizzato un modello di compressore end-to-end che integra reti autoencoder per la codifica dei residui e del moto. Nello specifico, sulla base delle informazioni più recenti pubblicate da MPAI, l’architettura utilizza Deep Video Compression (DVC) [10] per la codifica intra e una rete multi-scale optical flow pyramid per la stima del moto [11]. Reference frame e vettori di moto sono quindi inseriti in una rete per la compensazione del moto (MC-Net) per generare il frame predetto. Residui e vettori di moto vengono codificati come immagini in modo da permettere un’ottimizzazione globale con una unica funziona di costo. Il gruppo JVET sta analizzando le performance di alcuni nuovi tool end to end applicati alla codifica intra frame [12] e predizione inter frame [13], associati comunque all’architettura basata su compressore VVC. Le proposte non sono al momento considerate abbastanza mature per la definizione di exploration experiment specifici.

Vantaggi e limiti

L’impiego di reti neurali profonde per la compressione di contenuti video sta rivoluzionando un settore che per oltre trent’anni ha lavorato con l’obiettivo di perfezionare ed estendere l’architettura ibrida a blocchi derivata dalle prime soluzioni e standard adottati dall’industria. Tale processo è tuttora in corso, con attività MPEG/ITU-T SG16 che mostrano ulteriori margini di miglioramento possibili rispetto a VVC sfruttando sostanzialmente la stessa architettura, a fronte di un moderato incremento nella complessità dei nuovi strumenti di codifica. L’approccio tradizionale si basa su raffinate euristiche in grado di ottimizzare localmente per ogni modulo il trade off costo in bit rispetto alla qualità visuale fornita. Le logiche di funzionamento sono definite sulla base di trasformazioni lineari e modelli statistici predefiniti, con guadagni di performance possibili tipicamente attraverso l’aggiunta di nuovi tool o ampliando ad esempio le modalità e aree di ricerca per la generazione dei predittori. Attraverso l’utilizzo di reti neurali profonde è possibile superare questi limiti. I compressori basati su reti neurali profonde possono in prospettiva offrire migliori prestazioni, sfruttando feature ed informazioni di contesto ed adattandosi in modo efficace alle diverse tipologie di video in ingresso grazie al processo di apprendimento e generalizzazione effettuato su un numero elevato di contenuti. Attraverso la comprensione della struttura del contenuto e di come viene interpretato dal sistema visivo umano è possibile gestire ciascun frame e ciascuna area all’interno di un frame in modo diverso in base all’impatto relativo sulla qualità percepita globale e combinare in modo ottimale logiche di modifica dinamica dei valori di framerate e di risoluzione utilizzate nel processo di codifica. I livelli di prestazione e flessibilità offerti da questi compressori di nuova generazione hanno però, almeno per ora, impatti rilevanti sulla complessità nelle implementazioni lato encoder, ma soprattutto lato decoder. I tempi di decodifica legati alle operazioni sequenziali associate a ciascun strato e i requisiti di memoria per i vari parametri necessari alle reti neurali possono esplodere per soluzioni non ottimizzate, rendendo irrealistiche implementazioni su dispositivi utente a costo contenuto. La compressione video basata su reti neurali è una tecnologia ancora in fase embrionale, nonostante sia oggetto di un numero crescente di studi. Negli ultimi anni c’è stata una forte accelerazione sullo sviluppo e ottimizzazione di queste soluzioni, un processo a cui stanno partecipando tutti i maggiori attori globali nel mercato ICT e Media e che ha recentemente registrato notevoli progressi. Il percorso per selezionare, ottimizzare ed integrare in modo efficace le migliori proposte basate su reti neurali non è ad oggi completamente definito, per questo motivo si stanno valutando due approcci diversi basati rispettivamente sulla sostituzione o aggiunta di elementi alla tradizionale architettura di codifica ibrida e su nuove architetture end to end, che potranno avere tempistiche di realizzazione e prestazioni diverse. ISO/IEC JTC1 WG5 MPEG/ITU-T SG16 JVET e MPAI stanno esplorando in modo indipendente entrambi gli approcci, con l’obiettivo di produrre standard utilizzabili dall’industria nel corso di questo decennio.

Bibliografia

  1. Carriage of timed metadata metrics of media in ISO base media file format - Amendment 1: Support for content-guided transcoding and spatial relationship of immersive media, Standard ISO/IEC 23001-10:2020/AMD.1:2021, ISO/IEC JTC 1, Sep. 2021
  2. Versatile Video Coding, Standard ISO/IEC 23090-3 2nd Ed., ISO/IEC JTC 1, Sep. 2022
  3. JVET-AE2025, “Algorithm description of Enhanced Compression Model 10 (ECM 10)”
  4. JVET-AE2019, “Description of algorithms and software in neural network-based video coding (NNVC) version 4”
  5. AI-based End-to-End Video Coding (MPAI-EEVC), https://mpai.community/standards/mpai-eev/
  6. AI-Enhanced Video Coding (MPAI-EVC), https://mpai.community/standards/mpai-evc/
  7. JVET-AD0212-v5, “AHG11: neural network-based intra prediction with reduced complexity”, input document to JVET
  8. JVET-AD0162, EE1-2.1-related: DRF Model without QP Input, input document to JVET
  9. T. Li, M. Xu, C. Zhu, R. Yang, Z. Wang and Z. Guan, “A Deep Learning Approach for Multi-Frame In-Loop Filter of HEVC,” in IEEE Transactions on Image Processing, vol. 28, no. 11, pp. 5663-5678, Nov. 2019, doi: 10.1109/TIP.2019.2921877
  10. “DVC: An End-to-End Deep Video Compression Framework,” Guo Lu et al., CVPR 2019
  11. Anurag Ranjan and Michael J Black. Optical flow estimation using a spatial pyramid network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4161–4170, 2017
  12. JVET-AA0063-v2, “AHG 11: A hybrid codec using E2E image coding combined with VVC video coding”, input document to JVET
  13. JVET-Z0077, “AHG11: Extension of DOVC to Regular 2D Videos”, input document to JVET

Acronimi

ABR     Adaptive Bitrate Streaming

AI     Artificial Intelligence

CAE     Content Adaptive Encoding

CNN     Convolutional Neural Network

DNN     Deep Neural Network

DRF     Deep Reference Frame

DVC     Deep Video Compression

E2E     End-to-End

EVC     Essential Video Coding

IA     Intelligenza Artificiale

JVET     Joint Video Experts Team

LCEVC     Low Complexity Enhancement Video Coding

LLM     Large Language Models

MIF-NET     Multi-Frame In-Loop Filter

MPAI     Moving Picture, Audio and Data Coding by Artificial Intelligence

MPAI-EEV     AI-based End-to-End Video Coding

MPAI-EVC     AI-Enhanced Video Coding

MS-SSIM     Multi-Scale Structural Similarity Index

NNVC     Neural Network-based Video Coding

PSNR     Peak Signal-to-Noise Ratio

VCM     Video Coding for Machines

VMAF     Video Multi-Method Assessment Fusion

VSEI     Versatile Supplemental Enhancement Information

VVC     Versatile Video Coding