Single Frame Network

Long-term Recurrent Convolutional Networks for Visual Recognition and Description.

Useful links :

To dataset που χρησιμοποιούμε είναι το UCF-101. Κατέβασμα dataset (frames & flow images) και εκτέλεση των scripts extraction_{frames,flow} Η χρήση flow images θα αποδειχθεί στη συνέχεια χρήσιμη γιατί μαθαίνει features που μέσω των rgb εικόνων δεν μπορούν να συλληφθούν.
Tα αρχεία .py περιέχουν βοηθητικές συναρτήσεις που θα χρησιμοποιηθούν αργότερα στα .ipynb notebooks.

Στο custom_models.py ορίζονται τα δίκτυα που δοκίμασα, με τα πιο σημαντικά εξ αυτών να είναι το CaffeDonahueFunctional και το LSTMCaffeDonahueFunctional.

Στο image_processing.py υπάρχουν συναρτήσεις προεπεξεργασίας των frames και των flow_images.

Στο inception_utils.py ορίζεται το δίκτυο που βασίζεται στο έτοιμο δίκτυο InceptionV3 του Keras, με freeze των κατάλληλων layers κάθε φορά. Χρησιμοποείται μόνο στο SingleFrameTraining_Inception_RGB.ipynb.

Στο LR_SGD.py ορίζεται ο ένας βελτιωμένος SGD optimizer, με τις αλλαγές που πρότεινε το δίκτυο του Caffenet.

Στο LRN2D.py ορίζεται το Local Response Normalisation layer, το οποίο είχε αφαιρεθεί από τις τελευταίες εκδόσεις του Keras.

Στο utils.py ορίζονται κάποιες συναρτήσεις που φορτώνουν τα βάρη από το ένα δίκτυο στο άλλο, κατά τη μετάβαση από το single frame network στο lstm με τα time-distributed layers. Επίσης η συνάρτηση που αναλαμβάνει το compile του μοντέλου με τον custom SGD optimizer.

Στο video_processing.py ορίζονται οι συναρτήσεις προεπεξεργασίας των video για το LSTM network.

Στο results_functions.py ορίζονται οι συναρτήσεις παρουσίασης των τελικών αποτελεσμάτων.

Single Frame Network

Το συγκεκριμένο δίκτυο προέκυψε από το CaffeNet, με τροποποιήσεις στα layers. Αρχικά υπάρχουν 5 convolutional layers, σε συνδυασμό με max-pooling layers, ενώ στη συνέχεια 3 dense layers, με το απαραίτητο dropout ανάμεσα τους για αποφυγή overfitting.

Notebooks SingleFrameTraining_Caffenet_RGB & SingleFrameTraining_Caffenet_FLOW. Στα συγκεκριμένα γίνεται το training του δικτύου που παίρνει ξεχωριστά frames κάθε video, και εκπαιδεύεται να τα αναγνωρίζει. Λόγω του περιορισμένου μεγέθους στο dataset, κάθε frame crop-άρεται τυχαία, και προκύπτουν διαφορετικές "εκδοχές" κάθε τέτοιας εικόνας.

Το δίκτυο που προκύπτει θα χρησιμεύσει αργότερα σαν pretrained δίκτυο για το πιο πολύπλοκο LSTM network που θα αναλάβει να συλλάβει και χρονικές συσχετίσεις μεταξύ των frames.

Notebook SingleFrameTraining_Inception_RGB. Εξετάζεται ένα διαφορετικό δίκτυο, που βασίζεται σε έτοιμη υλοποίηση του Keras, και σε single frame δίνει καλύτερα αποτελέσματα ταξινόμησης. Δεν υπάρχει υλοποίηση για FLOW, καθώς το training θα απαιτούσε πολύ περισσότερες επαναλήψεις από το RGB.
Notebook SingleFramePredictions. Δοκιμές διαφορετικών συνδυασμών των frame και flow networks, δίνοντας μεγαλύτερη βαρύτητα σε ένα δίκτυο κάθε φορά. Χρησιμοποείται η τεχνική late fusion, δηλαδή κάθε δίκτυο δίνει δική του πρόβλεψη και στη συνέχεια γίνεται averaging των προβλέψεων. Παρατηρούμε ότι ο καλύτερος συνδυασμός δίνεται για 2/3 flow, 1/3 rgb προβλέψεις, δίνοντας μεγαλύτερη βαρύτητα δηλαδή στο τι προβλέψεις δίνονται από flow images. Για συνδυασμό με το inception rgb ο καλύτερος συνδυασμός είναι 1/2 flow, 1/2 rgb.

LRCN Network

Το νέο δίκτυο εφαρμόζει ένα LSTM layer πάνω από το πρώτο dense layer του single frame network. Στο paper παρατήρησαν ότι δεν άξιζε να παραμείνει και το δεύτερο dense layer, καθώς δεν ανέβαζε αισθητά την ακρίβεια στο validation set. Όσο αυξάνεται το πλήθος των lstm units (από 256 έως 1024), τόσο καλύτερα αποτελέσματα δίνει, με πιο "βαρύ" δίκτυο όμως.

Notebooks VideoTraining_LSTM_RGB & VideoTraining_LSTM_FLOW. Γίνεται εκπαίδευση του δικτύου αυτού με random 16-frames clips από το dataset, βοηθώντας έτσι και στο augmentation του dataset.
Notebook VideoTraining_LSTM_FLOW_1024. Γίνεται εκπαίδευση του δικτύου για flow images με 1024 αντί για 512 lstm units.
Notebook VideoSequencePredictions. Λαμβάνονται 16-frame clips από κάθε video, με stride 8. Παίρνοντας το average των προβλέψεων για κάθε τέτοιο clip, λαμβάνουμε την συνολική πρόβλεψη για το video.

Στο app.py γίνεται αξιολόγηση των διαφόρων ταξινομητών και συνδυασμών αυτών για ένα βίντεο ξεχωριστά.
Στο Final_Results γίνεται παρουσίαση διαφόρων αποτελεσμάτων.
Στο φάκελο Results παρουσιάζονται τα αποτελέσματα που παράγονται κατά τη διάρκεια του testing στα notebooks SingleFramePredictions & VideoSequencePredictions. Εκεί υπάρχουν αναλυτικά ανά μοντέλο και συνδυασμό αυτών:

a) Οι προβλέψεις για κάθε video του test set

b) Confusion Matrices που οπτικοποιούν το πόσο "καλό" είναι κάθε μοντέλο

c) Πόσα video ανά κατηγορία προέβλεψε σωστά κάθε μοντέλο.

Τα αποθηκευμένα βάρη των εκπαιδευμένων μοντέλων μπορούν να βρεθούν εδώ.

pretrained_model : Τα βάρη που στο paper χρησιμοποιούν σαν initialization για το single frame network, pretrained στο ILSVRC-2012 dataset.
caffenet_single_rgb
caffenet_single_flow
inception_rgb
lstm_rgb
lstm_flow
lstm_flow_1024

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
data_a		data_a
results		results
.gitignore		.gitignore
Final_Results.ipynb		Final_Results.ipynb
LRN2D.py		LRN2D.py
LR_SGD.py		LR_SGD.py
README.md		README.md
SingleFramePredictions.ipynb		SingleFramePredictions.ipynb
SingleFrameTraining_Caffenet_FLOW.ipynb		SingleFrameTraining_Caffenet_FLOW.ipynb
SingleFrameTraining_Caffenet_RGB.ipynb		SingleFrameTraining_Caffenet_RGB.ipynb
SingleFrameTraining_Inception_RGB.ipynb		SingleFrameTraining_Inception_RGB.ipynb
VideoSequencePredictions.ipynb		VideoSequencePredictions.ipynb
VideoTraining_LSTM_FLOW.ipynb		VideoTraining_LSTM_FLOW.ipynb
VideoTraining_LSTM_FLOW_1024.ipynb		VideoTraining_LSTM_FLOW_1024.ipynb
VideoTraining_LSTM_RGB.ipynb		VideoTraining_LSTM_RGB.ipynb
app.py		app.py
custom_models.py		custom_models.py
extraction_flow.sh		extraction_flow.sh
extraction_frames.sh		extraction_frames.sh
image_processing.py		image_processing.py
inception_utils.py		inception_utils.py
results_functions.py		results_functions.py
utils.py		utils.py
video_processing.py		video_processing.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Single Frame Network

LRCN Network

About

Releases

Packages

Languages

pmpakos/LRCN_ActivityRecognition_Project

Folders and files

Latest commit

History

Repository files navigation

Single Frame Network

LRCN Network

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages