{"id":2720,"date":"2021-12-16T17:08:43","date_gmt":"2021-12-16T16:08:43","guid":{"rendered":"https:\/\/dbdmg.polito.it\/dbdmg_web\/?p=2720"},"modified":"2022-01-27T09:43:53","modified_gmt":"2022-01-27T08:43:53","slug":"rg-towards-learning-universal-audio-representations","status":"publish","type":"post","link":"https:\/\/dbdmg.polito.it\/dbdmg_web\/2021\/rg-towards-learning-universal-audio-representations\/","title":{"rendered":"RG: Towards Learning Universal Audio Representations"},"content":{"rendered":"\n<p class=\"eplus-wrapper wp-block-paragraph\"><strong>Data del RG: 17\/12\/2021<\/strong><\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">\ud83d\udd17 Paper: <a href=\"https:\/\/arxiv.org\/abs\/2111.12124\">https:\/\/arxiv.org\/abs\/2111.12124 <\/a><\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">\ud83d\udc65 Autori: <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Jaegle%2C+A\"><\/a><a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Wang%2C+L\">Luyu Wang<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Luc%2C+P\">Pauline Luc<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Wu%2C+Y\">Yan Wu<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Recasens%2C+A\">Adria Recasens<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Smaira%2C+L\">Lucas Smaira<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Brock%2C+A\">Andrew Brock<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Jaegle%2C+A\">Andrew Jaegle<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Alayrac%2C+J\">Jean-Baptiste Alayrac<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Dieleman%2C+S\">Sander Dieleman<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Carreira%2C+J\">Joao Carreira<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=van+den+Oord%2C+A\">Aaron van den Oord<\/a><\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">\ud83d\udcc5 Data di pubblicazione: <strong>1 Dec 2021 (v2)<\/strong><\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">\ud83c\uddec\ud83c\udde7 Version <a href=\"https:\/\/deeplearningupdates.ml\/2021\/12\/08\/towards-learning-universal-audio-representations\/\">here<\/a>!<\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">TLDR: Il paper presenta un nuovo benchmark per la valutazione di rappresentazioni vettoriali di sample audio (HARES). \u00c8 uno dei primi paper che indirizza esplicitamente il task di &#8220;representation learning&#8221; nel contesto audio e ne propone una valutazione abbastanza completa.<\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\"><strong>Problema:<\/strong> negli anni precedenti si \u00e8 vista un&#8217;esplosione delle tecniche di deep learning applicate al dominio della computer vision e a quelle dell&#8217;NLP. Per quanto riguarda l&#8217;audio, ci si era concentrati soprattutto sul task di ASR (Automatic Speech Recognition) che, nonostante sia uno dei task pi\u00f9 interessanti non \u00e8 di certo l&#8217;unico e, soprattutto, \u00e8 solo un task intermedio visto che la comprensione vera e propria avveniva attraverso l&#8217;uso di tecniche NLP sulle trascrizioni audio.<\/p>\n\n\n\n<h3 class=\"eplus-wrapper wp-block-heading\">HARES benchmark:<\/h3>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">Il benchmark include 12 task in totale inclusi in 3 differenti categorie:<\/p>\n\n\n<ul class=\"eplus-wrapper wp-block-list eplus-styles-uid-aa509f\"><li><strong>Environment<\/strong>: Audio tagging, animal sound, acoustic scenes<\/li><li><strong>Speech<\/strong>: Keyword, intention, language, speaker identification<\/li><li><strong>Music<\/strong>: instrument identification, pitch estimation and music tagging<\/li><\/ul>\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">Il principale limite del benchmark \u00e8 legato alla mancanza di task di <strong>generative modeling<\/strong> (molto interessanti dal punto di vista audio, vedi <a href=\"https:\/\/arxiv.org\/abs\/2102.05630\">voice cloning<\/a>).<\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">L&#8217;approccio per la valutazione dei modelli testati nel paper \u00e8 il seguente:<\/p>\n\n\n<ul class=\"eplus-wrapper wp-block-list eplus-styles-uid-ec5ed4\"><li><strong>Pretraining<\/strong> del modello (supervised o self-supervised)<\/li><li><strong>Freeze<\/strong> del modello e training di un layer (linear) per il task considerato.<\/li><li><strong>Valutazione<\/strong> del modello<\/li><\/ul>\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">Questo approccio permette di valutare <strong>quanto<\/strong> effettivamente siano efficaci le rappresentazioni vettoriali delle reti.<\/p>\n\n\n\n<h3 class=\"eplus-wrapper wp-block-heading\">Contrastive Learning<\/h3>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\"><strong>Piccola parentes<\/strong>i sul contrastive learning, una delle tecniche self-supervised pi\u00f9 efficaci e in voga al momento (2021).<\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">Il contrastive learning permette di pre-allenare reti neurali su dati senza annotazioni. Dopo una fase di pretraining possono essere specializzati utilizzando (molti) meno dati annotati con un obiettivo supervisionato.<\/p>\n\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\"><a href=\"https:\/\/arxiv.org\/abs\/2002.05709\"><strong>SimCLR<\/strong><\/a><\/h4>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">Un approccio di self-supervised learning proposto originariamente per il dominio della computer vision. Visto che un&#8217;immagine vale pi\u00f9 di mille parole:<\/p>\n\n\n\n<div class=\"wp-block-image eplus-wrapper\"><figure class=\"aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-content\/uploads\/2021\/12\/Schermata-2021-12-08-alle-10.43.58.png\" alt=\"\" class=\"wp-image-2721\" width=\"428\" height=\"422\" srcset=\"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-content\/uploads\/2021\/12\/Schermata-2021-12-08-alle-10.43.58.png 613w, https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-content\/uploads\/2021\/12\/Schermata-2021-12-08-alle-10.43.58-300x296.png 300w, https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-content\/uploads\/2021\/12\/Schermata-2021-12-08-alle-10.43.58-203x200.png 203w\" sizes=\"auto, (max-width: 428px) 100vw, 428px\" \/><figcaption>SimCLR objective (image from: <a href=\"https:\/\/arxiv.org\/pdf\/2004.11362.pdf\">Supervised Contrastive Learning<\/a> paper)<\/figcaption><\/figure><\/div>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">Il dataset \u00e8 considerato come un insieme di esempi. Ogni esempio viene &#8220;aumentato&#8221; tramite tecniche di data augmentation (e.g., cropping, flipping&#8230;). Ciascun esempio e la sua versione aumentata vengono trattati come esempi &#8220;positivi&#8221; mentre altri esempi del dataset vengono considerati come negativi. Quelli positivi verranno &#8220;avvicinati&#8221; durante il training mentre i negativi verranno &#8220;allontanati&#8221; (nello spazio vettoriale). <\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">Si evince come non sia necessario avere la label associata, bastano solo delle tecniche di data augmentation per crearne la versione aumentata. \u00c8 per\u00f2 necessario avere un modo per definire gli esempi negativi (in questo caso &#8220;random sampling&#8221;).<\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\"><strong>Nel paper discusso oggi: <\/strong>ogni &#8220;ancora&#8221; (sample audio) viene aumentata e vengono create delle coppie positive. Facendo random sampling nel dataset vengono anche definiti degli esempi negativi. Procedendo con il training la rete viene allenata con questo obiettivo self-supervised senza avere necessit\u00e0 di dati annotati.<\/p>\n\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\"><strong><a href=\"https:\/\/arxiv.org\/abs\/2006.07733\">BYOL (Bootstrap Your Own Latent)<\/a><\/strong><\/h4>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">La seconda tecnica testata nel paper si chiama BYOL. A differenza della prima tecnica non \u00e8 necessario selezionare degli esempi negativi. Anche in questo caso, un&#8217;immagine vale&#8230;:<\/p>\n\n\n\n<div class=\"wp-block-image eplus-wrapper\"><figure class=\"aligncenter size-large\"><img decoding=\"async\" src=\"https:\/\/deeplearningupdates.ml\/wp-content\/uploads\/2021\/12\/Schermata-2021-12-08-alle-10.48.10.png\" alt=\"\"\/><figcaption>BYOL architecture (image from: <a href=\"https:\/\/arxiv.org\/pdf\/2006.07733.pdf\">BYOL<\/a> paper)<\/figcaption><\/figure><\/div>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">Gli autori in questo caso rimuovono la necessit\u00e0 di esempi negativi creando un&#8217;architettura parallela. <\/p>\n\n\n<ul class=\"eplus-wrapper wp-block-list eplus-styles-uid-20ccc1\"><li>Si creano due istanze della <strong>stessa rete<\/strong><\/li><li>Una (la rete che poi verr\u00e0 tenuta) vede gli esempi reali, la seconda vede gli esempi &#8220;aumentati&#8221;<\/li><li>Le reti hanno due set di parametri <strong>diversi e non condivisi.<\/strong><\/li><li>Ad ogni ciclo di training gli esempi i pesi di ciascuna rete vengono aggiornati in modo tale da allineare le due rappresentazioni.<\/li><\/ul>\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">NB: non mi spiego come la rete non degeneri nella soluzione &#8220;ottima e assoluta&#8221; f(x)=0. Si accettano suggerimenti.<\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\"><strong>Nel paper discusso oggi:<\/strong> anche in questo caso vengono allenate delle reti usando questo approccio. I due approcci vengono poi confrontati con risultati interessanti.<\/p>\n\n\n\n<h3 class=\"eplus-wrapper wp-block-heading\">Slowfast NFNet-F0 model:<\/h3>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">Gli autori propongono una nuova architettura che combina due architetture precedenti:<\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\"><strong><a href=\"https:\/\/arxiv.org\/abs\/2102.06171\">NFNet<\/a><\/strong> <strong>architecture<\/strong>: \u00e8 una famiglia di architetture che modifica ResNet originariamente proposta per la computer vision. In questa architettura viene rimossa completamente la necessit\u00e0 di fare batch normalization (per altro, la normalizzazione viene specificatamente investigata in una sezione del paper). <\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\"><strong><a href=\"https:\/\/arxiv.org\/abs\/1812.03982\">SlowFast<\/a> architecture<\/strong>: proposta originariamente per il task di video understanding. L&#8217;ipotesi principale \u00e8 che in un flusso video esistano 2 tipi di aree: aree statiche e dinamiche. Mentre le aree statiche non cambiano o cambiano poco, le aree dinamiche cambiano velocemente e contengono le informazioni pi\u00f9 rilevanti per la comprensione. Per questo motivo questo tipo di reti propongono due routing diversi all&#8217;interno della rete per le aree statiche e dinamiche.<\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\"><strong>Architettura proposta nel paper:<\/strong> l&#8217;architettura che propongono gli autori gli &#8220;slow stream&#8221; contengono una capacit\u00e0 8 volte maggiore (in termini di numero di canali) rispetto ai &#8220;fast stream&#8221;. Essendo basata su NFNet anche in questo caso si rimuove la batch normalization con uno speedup non indifferente.<\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\"><strong>Aspetta, cosa, canali???<\/strong> Si! la rete proposta non usa self\/cross\/multihead\/younameit-attention ma dei layer convoluzionali! E questa \u00e8 una delle cose pi\u00f9 interessanti del paper.<\/p>\n\n\n\n<h3 class=\"eplus-wrapper wp-block-heading\">Risultati<\/h3>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\"><\/p>\n\n\n\n<div class=\"wp-block-image eplus-wrapper\"><figure class=\"aligncenter size-large\"><img decoding=\"async\" src=\"https:\/\/deeplearningupdates.ml\/wp-content\/uploads\/2021\/12\/Schermata-2021-12-08-alle-12.58.44.png\" alt=\"\"\/><figcaption>Risultati dal paper originale<\/figcaption><\/figure><\/div>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">La tabella riporta i risultati proposti dagli autori. A differenza degli altri appuntamenti, in questo caso \u00e8 interessante analizzare i risultati. In questo caso per\u00f2 un paio di premesse.<\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">Gli autori hanno testato (1) tecniche derivate dalla computer vision (ViT e CNNs) che analizzano gli spettrogrammi creati a partire dagli audio e (2) tecniche che analizzano l&#8217;audio utilizzando direttamente la waveform. Tutte le tecniche, tranne la rete da loro proposta, sono basate su architetture gi\u00e0 esistenti (la loro ne \u00e8 derivata).<\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\">Di seguito alcuni takeaways molto interessanti sui risultati:<\/p>\n\n\n<ul class=\"eplus-wrapper wp-block-list eplus-styles-uid-919aee\"><li>Tra le tecniche di pre-training basate su contrastive learning, SimCLR ha migliori performance rispetto a BYOL.<\/li><li>I modelli basati su spettrogrammi vincono (e di molto) rispetto alle tecniche che analizzano le waveform. L&#8217;unico caso in cui i modelli basati su spettrogrammi sono competitivi sono i task di ASR. Questo conferma come negli ultimi anni (con i transformers) si ci sia concentrati soprattutto su questo task (la ricerca in generale) o come i tranformers non siano &#8220;adatti&#8221; a questi task (spero pi\u00f9 nella prima).<\/li><li>I modelli che vengono pre-trainati con obiettivi supervisionati portano ad un bias dell&#8217;architettura che cerca di catturare features pi\u00f9 statiche che dinamiche (slow features instead of local traits).<\/li><li>I modelli di computer vision mostrano degli scores relativamente bassi nei task legati allo speech. Il gap nei risultati \u00e8 comunque molto pi\u00f9 basso rispetto a quello che hanno i modelli basati su spettrogrammi nelle altre categorie (~40% drop).<\/li><\/ul>\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"eplus-wrapper wp-block-paragraph\"><strong>QA Time!<\/strong><\/p>\n\n\n\n<div style=\"height:500px\" aria-hidden=\"true\" class=\"wp-block-spacer eplus-wrapper\"><\/div>\n\n\n\n<div style=\"height:500px\" aria-hidden=\"true\" class=\"wp-block-spacer eplus-wrapper\"><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Data del RG: 17\/12\/2021 \ud83d\udd17 Paper: https:\/\/arxiv.org\/abs\/2111.12124 \ud83d\udc65 Autori: Luyu Wang, Pauline Luc, Yan Wu, Adria Recasens, Lucas Smaira, Andrew Brock, Andrew Jaegle, Jean-Baptiste Alayrac, Sander Dieleman, Joao Carreira, Aaron van den Oord \ud83d\udcc5 Data di pubblicazione: 1 Dec 2021 (v2) \ud83c\uddec\ud83c\udde7 Version here! TLDR: Il paper presenta un nuovo &hellip;<\/p>\n","protected":false},"author":16,"featured_media":2726,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"editor_plus_copied_stylings":"{}","footnotes":""},"categories":[22],"tags":[],"class_list":["post-2720","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-research"],"_links":{"self":[{"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/posts\/2720","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/users\/16"}],"replies":[{"embeddable":true,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/comments?post=2720"}],"version-history":[{"count":10,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/posts\/2720\/revisions"}],"predecessor-version":[{"id":3033,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/posts\/2720\/revisions\/3033"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/media\/2726"}],"wp:attachment":[{"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/media?parent=2720"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/categories?post=2720"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/tags?post=2720"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}