bi-modal first impressions recognition using temporally...

18

Bi-modal First Impressions Recognition using Temporally Ordered Deep Audio and Stochastic Visual Features Arulkumar S., Vismay P., Ashish M., Prashanth B., Anurag M. Department of Computer Science and Engineering, Indian Institute of Technology Madras, India Code: https://github.com/InnovArul/first-impressions

Upload: others

Post on 05-Mar-2020

7 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

Page 1: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Bi-modal First Impressions Recognition using Temporally Ordered Deep Audio

and Stochastic Visual Features

Arulkumar S., Vismay P., Ashish M., Prashanth B., Anurag M.

Department of Computer Science and Engineering,Indian Institute of Technology Madras, India

Code: https://github.com/InnovArul/first-impressions

https://github.com/InnovArul/first-impressions

Page 2: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Problem setup

Page 3: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Intuition behind the proposed solution

First impressions

Appearance Speech Temporal Expressions

(Face and Speech Temporal patterns)

Page 4: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

3D-landamark-aligned, Face-only images

Spectral componentsof Audio

LSTM(or)

3D CNN

ZCR, Energy, Entropy,Spectral Spread-Flux, MFCCs, Chroma vectors etc.,

Personalitytraits

Intuition behind the proposed solution

First impressions

Appearance Speech Temporal Expressions

(Face and Speech Temporal patterns)

Page 5: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Preprocessing - Audio● The mean(µ) and standard deviation(σ) of spectral Audio feature

attributes

ZCR, Energy, Spectral properties(Centroid + Spread + Entropy + Rolloff + Flux), Chroma vector + deviation, MFCCs etc., (in total of 34 feature dimensions)

● Total of 68 dimensions (µ and σ for each of 34 feature dimensions)

● Python library[1] 'pyAudioAnalysis' is used for audio feature extraction

[1] https://github.com/tyiannak/pyAudioAnalysis (Theodoros Giannakopoulos)

https://github.com/tyiannak/pyAudioAnalysis

Page 6: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Preprocessing - Video● The 3D-aligned Face is extracted from the frame(s) of

the video

● A state-of-the-art open source tool[1] 'OpenFace' is used for Face extraction

[1] https://github.com/TadasBaltrusaitis/OpenFace (Tadas Baltrušaitis)

https://github.com/TadasBaltrusaitis/OpenFace

Page 7: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Data selection for the model

Page 8: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Stochastic feature selection● Keeping N = 6

(split the Audio and Video into non-overlapping 6 partitions)

Audio Visual

68 dimensional feature vector for each of 6 partitions

= 6 x 68 feature vectors

For each of 6 non-overlapping partitions, single randomly selected image of 3 x 112 x 112. (= 6 x 3 x 112 x 112)

Typically, video length = ~15 seconds 30 frames / second = ~450 frames in total = ~75 frames / partitions

= 75^6 combinations of selecting frames(helps in increasing data points & avoids overfitting)

Page 9: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Bi-Modal 3D CNN model(~0.17 million parameters)

Page 10: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Bi-Modal 3D CNN model

Page 11: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Bi-Modal 3D CNN model

Page 12: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Bi-Modal 3D CNN model

Page 13: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Bi-Modal LSTM model(~0.32 million parameters)

Page 14: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Bi-Modal LSTM model

Page 15: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Bi-Modal LSTM model

Page 16: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Bi-Modal LSTM model

Page 17: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Results

Validation phase: Test phase:

Page 18: Bi-modal First Impressions Recognition using Temporally ...innovarul.github.io/docs/ECCV_2016_APA_presentation.pdfBi-modal First Impressions Recognition using Temporally Ordered Deep

Possible future directions

● Add linguistic feature descriptors along with Audio and Visual features ( using speech recognition)?

● Eliminate preprocessing

– of video frames (i.e., to include Background cues)

– of Audio frames (i.e., extract features directly from Audio using CNN-like setup)

Clauselets: Leveraging Temporally Related Actions for ...morariu/publications/LeeClauseletsWACV15.pdf · Clauselets: Leveraging Temporally Related Actions for Video Event Analysis

Prior image based temporally constrained reconstruction algorithm for ...cds.iisc.ac.in/faculty/yalavarthy/Prakash_Medphys_2015.pdf · Prior image based temporally constrained reconstruction

Background Subtraction for Temporally Irregular Dynamic

Fingerprints, Footprint Impressions, and Tire Impressions

Sequential & Temporally-Delayed Learningski.clps.brown.edu/cogsim/cogsim.8temporal.pdf · Sequential & Temporally-Delayed Learning 1. The Problem. 2. Sequential Learning & Context

Temporally Coherent Completion of Dynamic Shapes

PARALLEL TEXT RETRIEVAL ON TEMPORALLY VERSIONED DOCUMENT ... · PARALLEL TEXT RETRIEVAL ON TEMPORALLY VERSIONED DOCUMENT COLLECTIONS a thesis ... PARALLEL TEXT RETRIEVAL ON TEMPORALLY

Veritatem Dies Aperit - Temporally Consistent Depth Prediction Enabled …openaccess.thecvf.com/content_CVPR_2019/papers/Atapour... · 2019-06-10 · Veritatem Dies Aperit - Temporally

Functionally and Temporally Correct Simulation for Cyber ......공학박사학위논문 Functionally and Temporally Correct Simulation for Cyber-Physical Systems 사이버-물리시스템을

Types of Impressions - Mrs. Sikesmarysikes.weebly.com/uploads/6/0/5/0/60508559/1_impressions.pdfTypes of Impressions 1. Latent Impressions: hidden impressions ... identify different

TEMPORALLY DISCRIMINATED OPERANT RESPONDING IN FISH …

Spatially and temporally non-uniform plasmas

Extracting Meaningful User Locations from Temporally ...nathan/resources/... · Extracting Meaningful User Locations from Temporally 85 extracted is temporally annotated, this additional

TESTING FOR TEMPORALLY DIFFERENTIATED RELATIONSHIPS AMONG POTENTIALLY ... · TESTING FOR TEMPORALLY DIFFERENTIATED RELATIONSHIPS AMONG POTENTIALLY ... JERRY H. RATCLIFFE Department

PTIDES: Programming Temporally Integrated Distributed Embedded Systems

Multi-sensor activation for temporally correlated event ...pdfs.semanticscholar.org/e80e/37d53dd00ab6c36fa7fcb3f...activation for temporally correlated event monitoring with renewable

Synthesis of Spatially & Temporally Disaggregate …alaink/Orf467F12/NJ_aTaxisOrf467F12... · Web viewSynthesis of Spatially & Temporally Disaggregate Person Trip Demand: Application

First Impressions First Impressions First Impressions First Impressions First Impressions First Impressions First Impressions First Impressions First Impressions

Temporally Ordered Deep Audio and Stochastic Visual Features … · 2016-11-01 · Bi-modal First Impressions - Deep Audio and Stochastic Visual Features 3 the networks. In Section

Temporally downscaling precipitation intensity factors for

Rechargeable Sensor Activation under Temporally Correlated Events

CFL learners’ perception of temporally modified speech

OVERT "MEDIATING" BEHAVIOR DURING TEMPORALLY SPACED

Niche differentiation is spatially and temporally

Impression Analysis. Impressions can be individualized for forensic purposes. Types of impressions: fabric prints, shoe impressions, tire impressions

Temporally sequenced anticancer drugs overcome adaptive ...med.stanford.edu/content/dam/sm/csbs/documents/Temporally seq… · Temporally sequenced anticancer drugs overcome adaptive

TEMPORALLY CONSISTENT REGION-BASED VIDEO EXPOSURE CORRECTION › ~ayuille › Pubs15 › Temporally... · TEMPORALLY CONSISTENT REGION-BASED VIDEO EXPOSURE CORRECTION Xuan Dong1,

Architecting Methodology for Spatially and Temporally

Learning Spatio-Temporally Encoded Pattern Transformations ... · Learning Spatio-Temporally Encoded Pattern Transformations in Structured Spiking Neural ... Some Learning Algorithms

TEMPORALLY CONTIGUOUS TELLEGEN ABSORPTION …/67531/metadc501110/m2/1/high... · 209 ioqv temporally versus-non temporally contiguous administration of the tellegen absorption scale

Temporally Coherent Completion of Dynamic Shapes

ANALISA PERBANDINGAN PERFOMANSI TEMPORALLY … · 2020. 5. 9. · ANALISA PERBANDINGAN PERFOMANSI TEMPORALLY ORDERED ROUTING ALGORITHM (TORA) DENGAN DESTINATION SEQUENCED DISTANCE

TEMPORALLY MULTIPLE DYNAMIC TEXTURES SYNTHESIS …vipl.ict.ac.cn/uploadfile/upload/2014131142125840.pdf · TEMPORALLY MULTIPLE DYNAMIC TEXTURES SYNTHESIS USING PIECEWISE LINEAR DYNAMIC

Veritatem Dies Aperit - Temporally Consistent Depth ...breckon.eu/toby/publications/papers/abarghouei19depth.pdfVeritatem Dies Aperit - Temporally Consistent Depth Prediction Enabled

KOMPUTASI GEOGRAPHICALLY AND TEMPORALLY WEIGHTED