Canon ha fatto molto scalpore per il suo nuovo sistema AF Deep Learning, sembra incredibilmente intelligente e avanzato come sistema, ma sono nate molte domande. Chi gli insegna? Il sistema impara mentre scatti? È davvero l’intelligenza artificiale in una fotocamera? Migliora davvero l’autofocus?
I meccanismi di messa a fuoco automatica di Canon EOS-1D X Mark III sono incredibilmente intelligenti e supportano due sistemi AF individuali. Il primo è il sistema ottico, che riprende 16 fotogrammi al secondo attraverso il mirino, utilizzando un sensore di misurazione da 400.000 pixel in combinazione con un processore Digic 8 dedicato, per l’AF a 191 punti in grado di tracciare il volto.
Poi c’è il sistema Live View, in grado di scattare 20 fotogrammi al secondo, utilizzando tutti i 20,1 milioni di pixel del sensore di immagine combinato con il nuovo processore Digic X, per 3.869 punti CMOS Dual Pixel in grado di eseguire l’AF full eye detect.
Ad alimentare entrambi questi sistemi c’è la tecnologia EOS iTR AFX principale di Canon, l’ultima iterazione della sua messa a fuoco automatica di rilevamento e riconoscimento intelligente, che ha debuttato nell’originale EOS-1D X (e successivamente è arrivata alla famiglia 7D Mark II e 5D). E sepolto all’interno dei suoi circuiti c’è l’algoritmo di Deep Learning.
Non è intelligenza artificiale
Innanzitutto è importante chiarire che il Deep Learning non è da confondere con l’intelligenza artificiale (AI). Un sistema di intelligenza artificiale è qualcosa che è in uno stato di sviluppo continuo. Il deep learning, o machine learning, è un sottoinsieme dell’intelligenza artificiale.
A differenza della vera IA, il Deep Learning è un processo chiuso. È un algoritmo di pre-assemblaggio che consente all’architettura della telecamera di apprendere da sola, molto più velocemente di quanto potrebbe essere programmato manualmente da ingegneri umani. Una volta che questo apprendimento è stato completato, viene bloccato e caricato nella fotocamera.
Fornendo all’algoritmo di Deep Learning l’accesso a una vasta libreria di immagini, di qualsiasi cosa, da ginnaste capovolte a giocatori di hockey che indossano protezioni e caschi, è in grado di apprendere e differenziare la forma umana in un’infinita varietà di situazioni – ed è in definitiva in grado di per eseguire questo ‘rilevamento della testa’, in modo che anche se il viso della persona non è visibile, la testa è sempre il punto focale principale.
In effetti, l’algoritmo crea effettivamente due database: uno per servire il sistema AF del mirino ottico e la misurazione, utilizzando Digic 8, e uno per servire il sistema AF Live View che utilizza Digic X. Poiché è il Digic X che esegue tutti i calcoli per tracciamento della testa, una volta che l’algoritmo AF rileva una persona nell’inquadratura, tutto viene trasferito al nuovo processore.