{"id":2720,"date":"2021-12-16T17:08:43","date_gmt":"2021-12-16T16:08:43","guid":{"rendered":"https:\/\/dbdmg.polito.it\/dbdmg_web\/?p=2720"},"modified":"2022-01-27T09:43:53","modified_gmt":"2022-01-27T08:43:53","slug":"rg-towards-learning-universal-audio-representations","status":"publish","type":"post","link":"https:\/\/dbdmg.polito.it\/dbdmg_web\/2021\/rg-towards-learning-universal-audio-representations\/","title":{"rendered":"RG: Towards Learning Universal Audio Representations"},"content":{"rendered":"\n<p class=\" eplus-wrapper\"><strong>Data del RG: 17\/12\/2021<\/strong><\/p>\n\n\n\n<p class=\" eplus-wrapper\">\ud83d\udd17 Paper: <a href=\"https:\/\/arxiv.org\/abs\/2111.12124\">https:\/\/arxiv.org\/abs\/2111.12124 <\/a><\/p>\n\n\n\n<p class=\" eplus-wrapper\">\ud83d\udc65 Autori: <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Jaegle%2C+A\"><\/a><a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Wang%2C+L\">Luyu Wang<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Luc%2C+P\">Pauline Luc<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Wu%2C+Y\">Yan Wu<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Recasens%2C+A\">Adria Recasens<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Smaira%2C+L\">Lucas Smaira<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Brock%2C+A\">Andrew Brock<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Jaegle%2C+A\">Andrew Jaegle<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Alayrac%2C+J\">Jean-Baptiste Alayrac<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Dieleman%2C+S\">Sander Dieleman<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=Carreira%2C+J\">Joao Carreira<\/a>, <a href=\"https:\/\/arxiv.org\/search\/cs?searchtype=author&amp;query=van+den+Oord%2C+A\">Aaron van den Oord<\/a><\/p>\n\n\n\n<p class=\" eplus-wrapper\">\ud83d\udcc5 Data di pubblicazione: <strong>1 Dec 2021 (v2)<\/strong><\/p>\n\n\n\n<p class=\" eplus-wrapper\">\ud83c\uddec\ud83c\udde7 Version <a href=\"https:\/\/deeplearningupdates.ml\/2021\/12\/08\/towards-learning-universal-audio-representations\/\">here<\/a>!<\/p>\n\n\n\n<p class=\" eplus-wrapper\">TLDR: Il paper presenta un nuovo benchmark per la valutazione di rappresentazioni vettoriali di sample audio (HARES). \u00c8 uno dei primi paper che indirizza esplicitamente il task di &#8220;representation learning&#8221; nel contesto audio e ne propone una valutazione abbastanza completa.<\/p>\n\n\n\n<p class=\" eplus-wrapper\"><strong>Problema:<\/strong> negli anni precedenti si \u00e8 vista un&#8217;esplosione delle tecniche di deep learning applicate al dominio della computer vision e a quelle dell&#8217;NLP. Per quanto riguarda l&#8217;audio, ci si era concentrati soprattutto sul task di ASR (Automatic Speech Recognition) che, nonostante sia uno dei task pi\u00f9 interessanti non \u00e8 di certo l&#8217;unico e, soprattutto, \u00e8 solo un task intermedio visto che la comprensione vera e propria avveniva attraverso l&#8217;uso di tecniche NLP sulle trascrizioni audio.<\/p>\n\n\n\n<h3 class=\"eplus-wrapper wp-block-heading\">HARES benchmark:<\/h3>\n\n\n\n<p class=\" eplus-wrapper\">Il benchmark include 12 task in totale inclusi in 3 differenti categorie:<\/p>\n\n\n<ul class=\"eplus-wrapper wp-block-list eplus-styles-uid-aa509f\"><li><strong>Environment<\/strong>: Audio tagging, animal sound, acoustic scenes<\/li><li><strong>Speech<\/strong>: Keyword, intention, language, speaker identification<\/li><li><strong>Music<\/strong>: instrument identification, pitch estimation and music tagging<\/li><\/ul>\n\n\n<p class=\" eplus-wrapper\">Il principale limite del benchmark \u00e8 legato alla mancanza di task di <strong>generative modeling<\/strong> (molto interessanti dal punto di vista audio, vedi <a href=\"https:\/\/arxiv.org\/abs\/2102.05630\">voice cloning<\/a>).<\/p>\n\n\n\n<p class=\" eplus-wrapper\">L&#8217;approccio per la valutazione dei modelli testati nel paper \u00e8 il seguente:<\/p>\n\n\n<ul class=\"eplus-wrapper wp-block-list eplus-styles-uid-ec5ed4\"><li><strong>Pretraining<\/strong> del modello (supervised o self-supervised)<\/li><li><strong>Freeze<\/strong> del modello e training di un layer (linear) per il task considerato.<\/li><li><strong>Valutazione<\/strong> del modello<\/li><\/ul>\n\n\n<p class=\" eplus-wrapper\">Questo approccio permette di valutare <strong>quanto<\/strong> effettivamente siano efficaci le rappresentazioni vettoriali delle reti.<\/p>\n\n\n\n<h3 class=\"eplus-wrapper wp-block-heading\">Contrastive Learning<\/h3>\n\n\n\n<p class=\" eplus-wrapper\"><strong>Piccola parentes<\/strong>i sul contrastive learning, una delle tecniche self-supervised pi\u00f9 efficaci e in voga al momento (2021).<\/p>\n\n\n\n<p class=\" eplus-wrapper\">Il contrastive learning permette di pre-allenare reti neurali su dati senza annotazioni. Dopo una fase di pretraining possono essere specializzati utilizzando (molti) meno dati annotati con un obiettivo supervisionato.<\/p>\n\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\"><a href=\"https:\/\/arxiv.org\/abs\/2002.05709\"><strong>SimCLR<\/strong><\/a><\/h4>\n\n\n\n<p class=\" eplus-wrapper\">Un approccio di self-supervised learning proposto originariamente per il dominio della computer vision. Visto che un&#8217;immagine vale pi\u00f9 di mille parole:<\/p>\n\n\n\n<div class=\"wp-block-image eplus-wrapper\"><figure class=\"aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-content\/uploads\/2021\/12\/Schermata-2021-12-08-alle-10.43.58.png\" alt=\"\" class=\"wp-image-2721\" width=\"428\" height=\"422\" srcset=\"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-content\/uploads\/2021\/12\/Schermata-2021-12-08-alle-10.43.58.png 613w, https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-content\/uploads\/2021\/12\/Schermata-2021-12-08-alle-10.43.58-300x296.png 300w, https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-content\/uploads\/2021\/12\/Schermata-2021-12-08-alle-10.43.58-203x200.png 203w\" sizes=\"auto, (max-width: 428px) 100vw, 428px\" \/><figcaption>SimCLR objective (image from: <a href=\"https:\/\/arxiv.org\/pdf\/2004.11362.pdf\">Supervised Contrastive Learning<\/a> paper)<\/figcaption><\/figure><\/div>\n\n\n\n<p class=\" eplus-wrapper\">Il dataset \u00e8 considerato come un insieme di esempi. Ogni esempio viene &#8220;aumentato&#8221; tramite tecniche di data augmentation (e.g., cropping, flipping&#8230;). Ciascun esempio e la sua versione aumentata vengono trattati come esempi &#8220;positivi&#8221; mentre altri esempi del dataset vengono considerati come negativi. Quelli positivi verranno &#8220;avvicinati&#8221; durante il training mentre i negativi verranno &#8220;allontanati&#8221; (nello spazio vettoriale). <\/p>\n\n\n\n<p class=\" eplus-wrapper\">Si evince come non sia necessario avere la label associata, bastano solo delle tecniche di data augmentation per crearne la versione aumentata. \u00c8 per\u00f2 necessario avere un modo per definire gli esempi negativi (in questo caso &#8220;random sampling&#8221;).<\/p>\n\n\n\n<p class=\" eplus-wrapper\"><strong>Nel paper discusso oggi: <\/strong>ogni &#8220;ancora&#8221; (sample audio) viene aumentata e vengono create delle coppie positive. Facendo random sampling nel dataset vengono anche definiti degli esempi negativi. Procedendo con il training la rete viene allenata con questo obiettivo self-supervised senza avere necessit\u00e0 di dati annotati.<\/p>\n\n\n\n<h4 class=\"eplus-wrapper wp-block-heading\"><strong><a href=\"https:\/\/arxiv.org\/abs\/2006.07733\">BYOL (Bootstrap Your Own Latent)<\/a><\/strong><\/h4>\n\n\n\n<p class=\" eplus-wrapper\">La seconda tecnica testata nel paper si chiama BYOL. A differenza della prima tecnica non \u00e8 necessario selezionare degli esempi negativi. Anche in questo caso, un&#8217;immagine vale&#8230;:<\/p>\n\n\n\n<div class=\"wp-block-image eplus-wrapper\"><figure class=\"aligncenter size-large\"><img decoding=\"async\" src=\"https:\/\/deeplearningupdates.ml\/wp-content\/uploads\/2021\/12\/Schermata-2021-12-08-alle-10.48.10.png\" alt=\"\"\/><figcaption>BYOL architecture (image from: <a href=\"https:\/\/arxiv.org\/pdf\/2006.07733.pdf\">BYOL<\/a> paper)<\/figcaption><\/figure><\/div>\n\n\n\n<p class=\" eplus-wrapper\">Gli autori in questo caso rimuovono la necessit\u00e0 di esempi negativi creando un&#8217;architettura parallela. <\/p>\n\n\n<ul class=\"eplus-wrapper wp-block-list eplus-styles-uid-20ccc1\"><li>Si creano due istanze della <strong>stessa rete<\/strong><\/li><li>Una (la rete che poi verr\u00e0 tenuta) vede gli esempi reali, la seconda vede gli esempi &#8220;aumentati&#8221;<\/li><li>Le reti hanno due set di parametri <strong>diversi e non condivisi.<\/strong><\/li><li>Ad ogni ciclo di training gli esempi i pesi di ciascuna rete vengono aggiornati in modo tale da allineare le due rappresentazioni.<\/li><\/ul>\n\n\n<p class=\" eplus-wrapper\">NB: non mi spiego come la rete non degeneri nella soluzione &#8220;ottima e assoluta&#8221; f(x)=0. Si accettano suggerimenti.<\/p>\n\n\n\n<p class=\" eplus-wrapper\"><strong>Nel paper discusso oggi:<\/strong> anche in questo caso vengono allenate delle reti usando questo approccio. I due approcci vengono poi confrontati con risultati interessanti.<\/p>\n\n\n\n<h3 class=\"eplus-wrapper wp-block-heading\">Slowfast NFNet-F0 model:<\/h3>\n\n\n\n<p class=\" eplus-wrapper\">Gli autori propongono una nuova architettura che combina due architetture precedenti:<\/p>\n\n\n\n<p class=\" eplus-wrapper\"><strong><a href=\"https:\/\/arxiv.org\/abs\/2102.06171\">NFNet<\/a><\/strong> <strong>architecture<\/strong>: \u00e8 una famiglia di architetture che modifica ResNet originariamente proposta per la computer vision. In questa architettura viene rimossa completamente la necessit\u00e0 di fare batch normalization (per altro, la normalizzazione viene specificatamente investigata in una sezione del paper). <\/p>\n\n\n\n<p class=\" eplus-wrapper\"><strong><a href=\"https:\/\/arxiv.org\/abs\/1812.03982\">SlowFast<\/a> architecture<\/strong>: proposta originariamente per il task di video understanding. L&#8217;ipotesi principale \u00e8 che in un flusso video esistano 2 tipi di aree: aree statiche e dinamiche. Mentre le aree statiche non cambiano o cambiano poco, le aree dinamiche cambiano velocemente e contengono le informazioni pi\u00f9 rilevanti per la comprensione. Per questo motivo questo tipo di reti propongono due routing diversi all&#8217;interno della rete per le aree statiche e dinamiche.<\/p>\n\n\n\n<p class=\" eplus-wrapper\"><strong>Architettura proposta nel paper:<\/strong> l&#8217;architettura che propongono gli autori gli &#8220;slow stream&#8221; contengono una capacit\u00e0 8 volte maggiore (in termini di numero di canali) rispetto ai &#8220;fast stream&#8221;. Essendo basata su NFNet anche in questo caso si rimuove la batch normalization con uno speedup non indifferente.<\/p>\n\n\n\n<p class=\" eplus-wrapper\"><strong>Aspetta, cosa, canali???<\/strong> Si! la rete proposta non usa self\/cross\/multihead\/younameit-attention ma dei layer convoluzionali! E questa \u00e8 una delle cose pi\u00f9 interessanti del paper.<\/p>\n\n\n\n<h3 class=\"eplus-wrapper wp-block-heading\">Risultati<\/h3>\n\n\n\n<p class=\" eplus-wrapper\"><\/p>\n\n\n\n<div class=\"wp-block-image eplus-wrapper\"><figure class=\"aligncenter size-large\"><img decoding=\"async\" src=\"https:\/\/deeplearningupdates.ml\/wp-content\/uploads\/2021\/12\/Schermata-2021-12-08-alle-12.58.44.png\" alt=\"\"\/><figcaption>Risultati dal paper originale<\/figcaption><\/figure><\/div>\n\n\n\n<p class=\" eplus-wrapper\">La tabella riporta i risultati proposti dagli autori. A differenza degli altri appuntamenti, in questo caso \u00e8 interessante analizzare i risultati. In questo caso per\u00f2 un paio di premesse.<\/p>\n\n\n\n<p class=\" eplus-wrapper\">Gli autori hanno testato (1) tecniche derivate dalla computer vision (ViT e CNNs) che analizzano gli spettrogrammi creati a partire dagli audio e (2) tecniche che analizzano l&#8217;audio utilizzando direttamente la waveform. Tutte le tecniche, tranne la rete da loro proposta, sono basate su architetture gi\u00e0 esistenti (la loro ne \u00e8 derivata).<\/p>\n\n\n\n<p class=\" eplus-wrapper\">Di seguito alcuni takeaways molto interessanti sui risultati:<\/p>\n\n\n<ul class=\"eplus-wrapper wp-block-list eplus-styles-uid-919aee\"><li>Tra le tecniche di pre-training basate su contrastive learning, SimCLR ha migliori performance rispetto a BYOL.<\/li><li>I modelli basati su spettrogrammi vincono (e di molto) rispetto alle tecniche che analizzano le waveform. L&#8217;unico caso in cui i modelli basati su spettrogrammi sono competitivi sono i task di ASR. Questo conferma come negli ultimi anni (con i transformers) si ci sia concentrati soprattutto su questo task (la ricerca in generale) o come i tranformers non siano &#8220;adatti&#8221; a questi task (spero pi\u00f9 nella prima).<\/li><li>I modelli che vengono pre-trainati con obiettivi supervisionati portano ad un bias dell&#8217;architettura che cerca di catturare features pi\u00f9 statiche che dinamiche (slow features instead of local traits).<\/li><li>I modelli di computer vision mostrano degli scores relativamente bassi nei task legati allo speech. Il gap nei risultati \u00e8 comunque molto pi\u00f9 basso rispetto a quello che hanno i modelli basati su spettrogrammi nelle altre categorie (~40% drop).<\/li><\/ul>\n\n\n<p class=\" eplus-wrapper\"><\/p>\n\n\n\n<p class=\" eplus-wrapper\"><strong>QA Time!<\/strong><\/p>\n\n\n\n<div style=\"height:500px\" aria-hidden=\"true\" class=\"wp-block-spacer eplus-wrapper\"><\/div>\n\n\n\n<div style=\"height:500px\" aria-hidden=\"true\" class=\"wp-block-spacer eplus-wrapper\"><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Data del RG: 17\/12\/2021 \ud83d\udd17 Paper: https:\/\/arxiv.org\/abs\/2111.12124 \ud83d\udc65 Autori: Luyu Wang, Pauline Luc, Yan Wu, Adria Recasens, Lucas Smaira, Andrew Brock, Andrew Jaegle, Jean-Baptiste Alayrac, Sander Dieleman, Joao Carreira, Aaron van den Oord \ud83d\udcc5 Data di pubblicazione: 1 Dec 2021 (v2) \ud83c\uddec\ud83c\udde7 Version here! TLDR: Il paper presenta un nuovo &hellip;<\/p>\n","protected":false},"author":16,"featured_media":2726,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"editor_plus_copied_stylings":"{}","footnotes":""},"categories":[22],"tags":[],"class_list":["post-2720","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-research"],"_links":{"self":[{"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/posts\/2720","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/users\/16"}],"replies":[{"embeddable":true,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/comments?post=2720"}],"version-history":[{"count":10,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/posts\/2720\/revisions"}],"predecessor-version":[{"id":3033,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/posts\/2720\/revisions\/3033"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/media\/2726"}],"wp:attachment":[{"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/media?parent=2720"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/categories?post=2720"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dbdmg.polito.it\/dbdmg_web\/wp-json\/wp\/v2\/tags?post=2720"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}