Diseñar y evaluar nuevos métodos de procesado de señal orientados hacia la localización y separación de fuentes sonoras, especialmente en redes inalámbricas de sensores donde existen problemas de sincronización y calibración.
Progreso Actual: El avance en el Objetivo 1 a lo largo del proyecto ha sido excepcional, resultando en publicaciones altamente relevantes que presentan nuevos y avanzados algoritmos para la localización y separación de fuentes mediante arrays de micrófonos. En la primera etapa, destacamos contribuciones clave centradas en la estimación robusta de retardos. Un método innovador, basado en aproximaciones de bajo rango de matrices que agrupan correlaciones cruzadas generalizadas sub-banda, fue propuesto con éxito. La investigación también se extendió a la calibración y la implementación de métodos optimizados para redes inalámbricas de sensores acústicos, en colaboración con expertos de la AGH University of Science and Technology de Polonia. Durante la segunda fase del proyecto, se lograron avances significativos en la separación y localización de fuentes sonoras. Se introdujo un novedoso algoritmo basado en factorización de matrices no-negativas (NMF) en el dominio del espacio-rayo (ray-space), ampliando así las posibilidades de aplicación. Además, se exploraron técnicas avanzadas de procesado de armónicos esféricos, abriendo nuevas perspectivas en la mejora de la calidad de la separación de fuentes sonoras. En este contexto, se propusieron enfoques tanto basados puramente en procesado de señal como otros que aprovechan las capacidades de las redes neuronales profundas para potenciar la eficacia de la separación. Es importante destacar que estos logros fueron presentados en revistas y congresos de gran impacto en el campo, como IEEE/ACM Transactions on Audio, Speech and Language Processing, IEEE Signal Processing Letters, ICASSP y EUSIPCO. Estos resultados reflejan un compromiso continuo con la excelencia científica y demuestran la aplicación práctica de la investigación en el emocionante campo de la tecnología acústica.
Diseñar sistemas innovadores de monitorización acústica basados en aprendizaje automático para la identificación de fuentes sonoras.
Progreso Actual: El trabajo intensivo en el Objetivo 2 ha generado una serie de logros destacados, consolidando el proyecto con numerosas publicaciones en revistas de renombre y contribuciones en eventos de prestigio internacional, como el congreso ICASSP y el DCASE Challenge and Workshop. Este objetivo ha sido respaldado por la defensa exitosa de dos tesis doctorales directamente vinculadas a sus metas. Las contribuciones más notables se han centrado en mejorar el reconocimiento de eventos y escenas sonoras en entornos desafiantes. Se introdujo una capa de pooling innovadora basada en la traza energética de las activaciones internas de redes neuronales profundas, demostrando su utilidad para mitigar los efectos adversos del desajuste entre datos de entrenamiento y condiciones reales de operación. Además, se exploraron diseños específicos para audio, incluyendo enfoques basados en redes residuales, agrupaciones de modelos, redes extremo a extremo y soluciones para abordar problemas derivados de condiciones de conjunto abierto y aprendizaje con pocas muestras. En la primera etapa del proyecto, se destacó la propuesta de la capa de pooling mencionada y la evaluación de bloques residuales para redes neuronales extremo-a-extremo. En la segunda etapa, se continuó este trabajo, generando nuevas aportaciones en arquitecturas que abordan con mayor robustez problemas de aprendizaje con pocas muestras y conjuntos abiertos. Asimismo, se logró la integración exitosa de la detección con la localización, ampliando así las capacidades y aplicaciones del sistema desarrollado. Es relevante mencionar que algunas contribuciones importantes se llevaron a cabo en colaboración con reconocidos investigadores internacionales, como el Audio Processing Group de la Universidad de Tampere en Finlandia y el Prof. Fabio Antonacci del Politecnico di Milano. Estos logros fueron comunicados en revistas y congresos de alto impacto, reflejando el compromiso continuo con la excelencia científica y la aplicación práctica de la investigación en el ámbito del reconocimiento de eventos y escenas sonoras en entornos desafiantes.
Diseñar enfoques para el análisis acústico basado en principios psicoacústicos, incorporando información espacial y binaural, para dar soporte en entornos emergentes relacionados con la monitorización acústica.
Progreso Actual: El Objetivo 3 del proyecto ha sido una fuente continua de contribuciones innovadoras que aprovechan el poder de las redes neuronales profundas para reducir significativamente el coste computacional en el cálculo de parámetros psicoacústicos en nodos de bajo coste. Estos avances, respaldados por publicaciones relevantes en revistas y congresos de alto impacto, han demostrado la viabilidad y utilidad de implementar arquitecturas end-to-end en entornos prácticos. Durante la primera fase del proyecto, se destacaron las implementaciones de baja complejidad de cómputo basadas en redes convolucionales extremo a extremo. Estas redes fueron entrenadas para predecir parámetros que caracterizan la molestia perceptual en entornos urbanos, como loudness, roughness y fluctuation strength. La eficiencia computacional de estas redes, una vez entrenadas, ha demostrado ser considerablemente menor en comparación con los algoritmos clásicos de procesado de señal, abriendo nuevas posibilidades para la implementación práctica. Además, los algoritmos desarrollados se llevaron a la realidad al implementarse en nodos acústicos reales y desplegarse en entornos controlados. Estos despliegues no solo confirmaron el correcto funcionamiento de los sistemas propuestos, sino que también respaldaron aplicaciones emergentes en el ámbito de IoT, proporcionando soporte acústico fundamental. Los resultados exitosos obtenidos en la primera fase del objetivo motivaron la expansión de los métodos hacia la estimación de otros parámetros acústicos cruciales para la percepción del espacio y la voz. Se propusieron redes neuronales para la estimación ciega de parámetros de inteligibilidad y tiempo de reverberación, ampliando así el alcance y la versatilidad de las contribuciones. A nivel internacional, se destacó la colaboración y la publicación conjunta de un artículo de revisión en el marco de un special issue de la revista EURASIP Journal on Audio, Speech and Music Processing, organizado por el equipo de investigación junto a expertos de Chalmers University of Technology, University of Tampere y AGH University of Science and Technology. En resumen, el Objetivo 3 ha sido una fuente constante de avances que combinan la eficiencia de las redes neuronales con la aplicación práctica en nodos de bajo coste, demostrando el compromiso continuo con la innovación y la excelencia en el ámbito de la estimación de parámetros acústicos.