AMST2: multi aggregato
CasaCasa > Notizia > AMST2: multi aggregato

AMST2: multi aggregato

Jun 20, 2023

Rapporti scientifici volume 13, numero articolo: 9062 (2023) Citare questo articolo

59 Accessi

2 Altmetrico

Dettagli sulle metriche

Recentemente, molti tracker visivi esistenti hanno compiuto progressi significativi incorporando informazioni spaziali da strati di convoluzione multilivello o informazioni temporali per il tracciamento. Tuttavia, i vantaggi complementari delle informazioni spaziali e temporali non possono essere sfruttati quando questi due tipi di informazioni vengono utilizzati separatamente. In questo articolo presentiamo un nuovo approccio per un robusto tracciamento visivo utilizzando un modello basato su trasformatore che incorpora informazioni sul contesto sia spaziale che temporale a più livelli. Per integrare le mappe di somiglianza raffinate attraverso codificatori spaziali e temporali multilivello, proponiamo un codificatore di aggregazione. Di conseguenza, l'output del codificatore di aggregazione proposto contiene caratteristiche utili che integrano i contesti globali dei contesti spaziali e temporali multilivello. La funzionalità che proponiamo offre una rappresentazione contrastante ma complementare di contesti spaziali e temporali multi-livello. Questa caratteristica è particolarmente vantaggiosa in scenari aerei complessi, dove possono verificarsi errori di tracciamento a causa di occlusione, motion blur, piccoli oggetti e variazioni di scala. Inoltre, il nostro localizzatore utilizza una dorsale di rete leggera, garantendo un tracciamento degli oggetti rapido ed efficace nei set di dati aerei. Inoltre, l'architettura proposta può ottenere un tracciamento degli oggetti più affidabile rispetto a variazioni significative aggiornando le funzionalità dell'oggetto più recente mantenendo le informazioni del modello iniziale. Esperimenti approfonditi su sette impegnativi benchmark di tracciamento aereo a breve e lungo termine hanno dimostrato che il tracker proposto supera i metodi di tracciamento all'avanguardia in termini sia di velocità di elaborazione in tempo reale che di prestazioni.

Il tracciamento visivo di un oggetto di interesse è un argomento di ricerca molto importante e impegnativo nella visione artificiale1. L'obiettivo principale del tracciamento visivo è stimare la posizione e la dimensione di un oggetto arbitrario in una sequenza di fotogrammi video stabilendo corrispondenze tra pixel simili in fotogrammi diversi. Negli ultimi anni, con la crescente importanza e utilizzo di veicoli aerei senza pilota (UAV) come i droni, sono stati studiati vari metodi di tracciamento visivo che utilizzano dati aerei2,3. Nonostante i notevoli progressi nel tracciamento visivo, il tracciamento aereo deve ancora affrontare numerose sfide, tra cui il tracciamento in tempo reale, la fluttuazione dell’illuminazione, l’occlusione, il movimento rapido, il disordine dello sfondo e la sfocatura.

I paradigmi di tracciamento visivo convenzionali possono essere classificati in due categorie: (1) tracciamento per rilevamento e (2) tracciamento basato sulla rete siamese.

Il metodo di tracciamento per rilevamento rileva innanzitutto l'oggetto in ciascun fotogramma video, quindi aggiorna la posizione dell'oggetto utilizzando un modello di movimento. Il filtro di correlazione discriminante (DCF) è un metodo di tracciamento per rilevamento rappresentativo, che utilizza le trasformate di Fourier per calcolare in modo efficiente il calcolo della correlazione incrociata e ottenere un'elaborazione in tempo reale4,5,6,7,8,9,10,11. Il tracker DCF utilizza anche funzionalità artigianali come l'istogramma dei gradienti orientati (HOG) per rappresentare l'oggetto e lo sfondo. Tuttavia, il tracker DCF soffre di alcune limitazioni come l'incapacità di gestire cambiamenti di scala e variazioni significative dell'aspetto.

Utilizzando le funzionalità profonde delle reti neurali convoluzionali (CNN), i metodi basati sul deep learning hanno fatto maggiori progressi nel tracciamento delle prestazioni rispetto ai tracker basati su DCF12,13,14,15,16,17,18. Nonostante i progressi nei tracker basati sul deep learning, alcuni algoritmi mancano di risorse computazionali che li rendono inadatti alle piattaforme embedded, mentre altri non sono in grado di fornire il livello desiderato di prestazioni di tracciamento. Fino a poco tempo fa, i tracker basati su DCF venivano spesso impiegati in applicazioni di fascia bassa, ignorando le loro prestazioni di tracciamento più deboli rispetto ai metodi basati sul deep learning a causa dei vincoli dei dispositivi come quelli delle piattaforme embedded.