La Inteligencia Artificial de los investigadores alinea las partituras con el audio MIDI

En un estudio publicado en el servidor de preimpresión Arxiv.org, investigadores afiliados al Instituto de Percepción Computacional de la Universidad Johannes Kepler de Linz y al Instituto Austríaco de Investigación para la Inteligencia Artificial describen un sistema de IA que puede predecir la posición más probable dentro de las partituras que coinciden con una grabación de audio, superando ostensiblemente a los actuales seguidores de partituras basadas en imágenes de última generación en términos de precisión de alineación.

De interés: Controladores MIDI para todo tipo de músicos.

El seguimiento de la partitura es la base de aplicaciones como el acompañamiento automático, el giro de página y la sincronización de las actuaciones en vivo con las visualizaciones. Los sistemas existentes se basan en pequeños fragmentos de tamaño fijo de imágenes de partituras o requieren una representación de la partitura legible por ordenador extraída mediante reconocimiento óptico de música. Pero el sistema de los investigadores puede observar de forma única una página entera de partituras, siguiendo las interpretaciones musicales de cualquier longitud de principio a fin.

El equipo modeló el seguimiento de la partitura como una tarea de segmentación de la imagen. Basándose en una interpretación musical hasta un momento dado, su sistema predice una máscara de segmentación – una pequeña “pieza” de imagen – para la partitura que corresponde a la música que se está reproduciendo en ese momento. Si bien los rastreadores que aprovechan sólo una entrada de audio de tamaño fijo generalmente no son capaces de distinguir entre notas repetidas si exceden un determinado contexto, el sistema propuesto no tiene ningún problema ni siquiera en las partituras que abarcan períodos de tiempo más largos en el audio, dicen los investigadores.

En el curso de los experimentos, los investigadores obtuvieron muestras de piano polifónico del Conjunto de Datos de Partituras Musicales Multimodal (MSMD), que comprende canciones de varios compositores, entre ellos Bach, Mozart y Beethoven. Después de identificar y corregir manualmente los errores de alineación, entrenaron su sistema en 353 pares de partituras e información MIDI.

Los coautores informan de que su sistema superó todas las líneas de base, excepto el umbral más alto, logrando resultados más precisos en términos de diferencia de tiempo (es decir, porcentajes más altos para umbrales de error más estrictos). En ocasiones se produjeron errores, que los investigadores atribuyen a la libertad del sistema para realizar “grandes saltos” en la hoja de papel de imagen. Pero afirman que los resultados experimentales muestran que el sistema es “muy preciso” en la mayoría de los contextos.

“El trabajo futuro … requerirá pruebas en imágenes de hojas escaneadas o fotografiadas, para calibrar las capacidades de generalización del sistema en el dominio visual también”, escribieron los investigadores. “El siguiente paso hacia un sistema con mayores capacidades es incorporar explícita o implícitamente un mecanismo para manejar las repeticiones tanto en la puntuación como en el rendimiento. Suponemos que el método propuesto podrá adquirir esta capacidad de forma bastante natural a partir de datos de entrenamiento debidamente preparados, aunque sospechamos que su rendimiento dependerá en gran medida de su codificación implícita de la historia del audio hasta el momento, es decir, de la magnitud del contexto auditivo que la red recurrente sea capaz de almacenar”.

La IA musical está evolucionando rápidamente. OpenAI ha lanzado recientemente Jukebox, un marco de aprendizaje automático que genera música -incluyendo canciones rudimentarias- como audio en bruto en una gama de géneros y estilos musicales. A finales de 2018, el Proyecto Magenta, un esfuerzo de Google Brain “que explora el papel del aprendizaje automático como herramienta en el proceso creativo”, presentó Musical Transformer, un modelo capaz de generar canciones con una repetición reconocible. Y el pasado mes de marzo, Google lanzó un algoritmo Google Doodle que permite a los usuarios crear homenajes melódicos a Bach.