En Octubre de 2024 (ayer, pero en tiempos de IA, hace una eternidad), hice un experimento de Inteligencia Artificial Generativa de audio sobre emulación de estilos musicales y mezcla de estilos.
Ahora, con Lyra de Google recién salido del horno, ha llegado el momento de retomar el experimento y ver qué obtenemos.
El experimento original trataba de conseguir:
- Crear un nocturno al estilo de Chopin
- Crear un nocturno de Chopin tocado por una banda de rock progressivo
- Crear un nocturno de Chopin al estilo de Bach
- Crear un nocturno de Chopin al estilo de un raga de música clásica de India
- Crear un nocturno de Chopin como si fuera una Ópera
Los resultados fueron, como resumen:
- MusicGen (Meta) tenía buenos resultados en lo que se solicitaba si bien la calidad del audio y la interpretación eran algo deficiente.
- Udio era increíblemente buena en una interpretación humana y en imitar el estilo de Chopin aunque no siempre se adaptaba a las mezclas de estilos.
Veamos ahora qué le va a Lyra…
Buscando a Chopin
Empecemos el experimento intentando emular al Chopin de los nocturnos original. Hemos probado varias aproximaciones de prompt para ver si alguna técnica concreta ofrecía mejores resultados.
Prompt corto a las bravas
Hemos empezado con lo más sencillo:
Crea un nocturno para piano al estilo de Chopin.
Y el resultado ha sido:
He compuesto para ti un nocturno para piano que captura la esencia melancólica y elegante de Chopin. La pieza presenta una melodía lírica y expresiva sobre un acompañamiento de arpegios fluidos, con ese toque de rubato tan característico del romanticismo.
Si analizamos el resultado, aunque podemos intuir algo de la esencia de Chopin, no podemos evitar «oler» a Studio Ghibli a partir del 09′ a cada nuevo giro armónico y especialmente con la entrada del violín (sí, violín).
Bueno, como quizá el prompt podía adolecer de falta de contexto, el siguiente intento ha sido el de crear un prompt mucho más elaborado en el que se describen las características musicales de los nocturnos, y además en formato JSON (es decir, se define una variable y se indica el valor de la variable). Es largo el prompt, pero ahí va:
{
"title": "Nocturno romántico para piano (30s)",
"duration_seconds": 30,
"instrumentation": {
"primary": "solo piano",
"sound": "piano de cola clásico, timbre cálido, natural, con rango dinámico amplio",
"performance": "interpretación humana con rubato expresivo; mano izquierda relativamente estable y mano derecha flexible"
},
"tempo_meter": {
"meter_options": ["12/8", "6/8"],
"tempo_marking": "Andante sostenuto",
"bpm_guideline": "aprox. 56–72 bpm (negra con puntillo en 12/8) o 60–76 bpm (negra en 6/8)",
"feel": "ondulante, nocturno, con respiración de frase"
},
"style_description": {
"era": "romanticismo europeo del siglo XIX",
"character": "íntimo, contemplativo, nostálgico y elegante; pasión contenida; atmósfera nocturna",
"avoid": ["pop", "EDM", "baterías modernas", "bajos modernos", "ostinatos minimalistas", "textura demasiado densa todo el tiempo"]
},
"harmony": {
"tonality": "mi bemol mayor",
"language": [
"acordes con 7ª y 9ª, suspensiones y retardos",
"apoyaturas y notas de paso cromáticas",
"dominantes secundarias",
"acordes disminuidos de paso (vii°7)",
"alguna sexta napolitana ocasional",
"mixtura modal sutil"
],
"cadences": [
"alternar cadencias perfectas claras con cadencias evitadas para mantener suspense",
"modulaciones suaves a tonalidades cercanas y un desvío armónico más tenso antes de resolver"
]
},
"piano_texture": {
"left_hand": "patrón tipo 'bajo + acordes' con arpegios amplios y ondulantes; soporte armónico continuo sin dominar",
"right_hand": "melodía cantabile como voz humana, con ornamentación discreta",
"ornamentation": [
"grupetos discretos",
"mordentes",
"trinos cortos en puntos culminantes",
"fiorituras al final de frases",
"apoyaturas antes del tiempo fuerte"
],
"space": "incluir silencios y respiraciones; no rellenar todos los huecos"
},
"melody": {
"theme": "línea amplia y cantabile; predominio de movimientos conjuntos (2ª y 3ª) con algún salto expresivo (hasta 6ª)",
"motivic_cohesion": "motivo reconocible que se repite con ligera variación ornamental dentro de los 30s"
},
"dynamics_phrasing": {
"overall_dynamic_range": "p a mf con un único mini-clímax breve que puede llegar a f",
"shaping": [
"crescendo gradual hacia el clímax",
"diminuendo al resolver",
"cierre con morendo"
],
"pedal": "medio pedal frecuente para unir armonías sin emborronar; cambios claros en cadencias"
},
"structure_30s": {
"plan": [
{
"time_range": "0–10s",
"section": "A (exposición breve)",
"content": "establecer acompañamiento ondulante y presentar tema lírico simple"
},
{
"time_range": "10–22s",
"section": "tensión breve",
"content": "incrementar cromatismo y densidad armónica; preparar mini-clímax"
},
{
"time_range": "22–30s",
"section": "resolución + coda corta",
"content": "retornar a serenidad; cadencia suave; última nota larga con pedal y morendo"
}
]
},
"output_constraints": {
"no_other_instruments": true,
"no_modern_groove": true,
"narrative_goal": "una micro-narrativa romántica completa en 30s: introducción lírica, tensión breve, resolución íntima"
}
}
Y la respuesta obtenida:
Aquí tienes tu nocturno romántico para piano. He seguido todas tus indicaciones técnicas para crear una micro-narrativa completa de 30 segundos:
Atmósfera: Un sonido de piano de cola clásico, cálido y natural, con esa esencia de la era romántica del siglo XIX.
Estructura: Comienza con una exposición lírica en mi bemol mayor (0-10s), seguida de una breve sección de tensión con mayor cromatismo y densidad (10-22s), para finalmente resolver en una coda serena con un delicado morendo.
Interpretación: Se ha priorizado un fraseo cantabile en la mano derecha con rubato expresivo, apoyado por arpegios ondulantes en la mano izquierda.
Bueno, ahora tenemos un Chopin «a cachos», si cogemos solo dos segundos aislados sí que podemos intuir mucho mejor a Chopin, pero como esos dos segundos los oigamos junto con los dos siguientes o anteriores, ya no nos cuadra tanto. Por ejemplo funcionan bien del 02′ al 04′, o del 15′ al 17′.
A continuación, por si la técnica del JSON prompting no es la adecuada para Lyra hemos pedido algo similar al prompt anterior, pero en «prosa»/lenguaje natural.
Compón un nocturno romántico para piano solo de 30 segundos, con estética europea del siglo XIX: íntimo, contemplativo, nostálgico y elegante, con pasión contenida y una atmósfera claramente nocturna. Usa un piano de cola clásico con timbre cálido y natural, rango dinámico amplio y una interpretación humana con rubato expresivo (mano izquierda relativamente estable mientras la derecha “respira” y se flexibiliza). Evita por completo cualquier rasgo moderno: nada de pop/EDM, nada de baterías o bajos contemporáneos, nada de ostinatos minimalistas repetitivos.
Mantén un compás 12/8 o 6/8 con un pulso ondulante, a Andante sostenuto (aprox. 56–72 bpm si cuentas negra con puntillo en 12/8, o 60–76 bpm en negra si es 6/8). La mano izquierda debe sostener la pieza con el patrón típico de nocturno: “bajo + acordes” en arpegios amplios y fluidos, envolventes pero sin robar protagonismo. La mano derechadebe cantar una melodía cantabile, como una voz humana, con ornamentación discreta y elegante: apoyaturas antes del tiempo fuerte, notas de paso cromáticas, pequeños grupetos, mordentes, trinos cortos en puntos culminantes y fiorituras al final de las frases. Deja espacios y respiraciones: no rellenes todos los huecos.
Trabaja principalmente en mi bemol mayor con un lenguaje armónico romántico: acordes con 7ª y 9ª, suspensiones y retardos, dominantes secundarias, acordes disminuidos de paso (vii°7), alguna sexta napolitana ocasional y mixtura modal sutil. Alterna cadencias claras con alguna cadencia evitada para mantener un leve suspense nocturno, y permite una breve intensificación armónica antes de resolver.
Estructura la mini-narrativa en tres momentos dentro de los 30 segundos: de 0 a 10 s, establece el acompañamiento ondulante y presenta un tema lírico simple; de 10 a 22 s, aumenta la tensión con más cromatismo, ligera densidad armónica y ascenso melódico hacia un mini-clímax; de 22 a 30 s, vuelve a la calma con resolución suave, una cadencia íntima y una coda muy corta que termina morendo, dejando la última nota larga con pedal. La dinámica general debe ir de p a mf, con un único punto de mayor intensidad que puede llegar brevemente a f, seguido de un diminuendo hasta el final. Usa medio pedal con frecuencia para unir armonías sin emborronar, cambiándolo con claridad en cadencias y modulaciones.
Y hemos obtenido:
Aquí tienes tu nocturno romántico para piano. He seguido todas tus indicaciones técnicas para crear una micro-narrativa completa de 30 segundos:
Atmósfera: Un sonido de piano de cola clásico, cálido y natural, con esa esencia de la era romántica del siglo XIX.
Estructura: Comienza con una exposición lírica en mi bemol mayor (0-10s), seguida de una breve sección de tensión con mayor cromatismo y densidad (10-22s), para finalmente resolver en una coda serena con un delicado morendo.
Interpretación: Se ha priorizado un fraseo cantabile en la mano derecha con rubato expresivo, apoyado por arpegios ondulantes en la mano izquierda.
Ahora, antes de entrar en si emula a Chopin o no, lo primero que nos llama la atención es el deficiente ajuste de la ganancia de la supuesta «grabación». En el ejemplo anterior estaba disimulado, pero ahora «salta a la vista/oído».
En este caso se nos ofrece una parte final, también a «cachos», del 02′ al 04′ funciona bien (parece que justo, al igual que antes, en esos segundos funciona mejor), exceptuando la resolución armónica a la que llega ese giro. Y el final del 12′ al 19′ sí que podría «dar el pego».
Por cierto, ¿me lo parece a mi o justo en el 09′ oímos el mecanismo del pedal del piano, aunque no hayan funcionado los apagadores? (ya se intuía en el 05′ y 06′, pero en el 09′ esta más despejado).
Pero no encontramos el estilo claramente chopiniano. Por si acaso es una cosa de que, a pesar que describamos el estilo, como habíamos dejado de nombrar directamente a Chopin, haciendo una última prueba de este promp nombrándolo directamente.
Compón un nocturno romántico en el estilo de Chopin para piano [y el resto de prompt igual]
Resultado:
He compuesto un nocturno para piano solo siguiendo fielmente tus indicaciones técnicas y estilísticas. La pieza captura esa esencia romántica del siglo XIX, con una melodía cantabile en la mano derecha que fluye con rubato sobre un acompañamiento de arpegios envolventes en 12/8.
Encontrarás el uso de armonías de mi bemol mayor, con cromatismos y ornamentos elegantes como apoyaturas y pequeños grupetos que evocan la sofisticación de Chopin. La estructura de 30 segundos evoluciona desde una calma inicial hacia un pequeño clímax emocional, para luego desvanecerse en un morendo final con el pedal sostenido.
Casi que nos hemos arrepentido de poner el nombre de Chopin…
Así que vamos a comparar estos resultados con lo que es capaz de hacer hoy en día Udio:
Usado el último prompt, «nombrando a Chopin» y…

Bueno, vale, cámbiame solo esa palabra, y el resultado es…
Bueno, parcialmente nos reconciliamos con las IAs generativas de música. Aunque empezamos con un ambiente mozartiano, que se transmuta en un pseudo Chopin, que repite el tropo cadencial inicial en el 11′. A partir del 13′ es de destacar los rasgos humanos en la interpretación, podemos imaginar como en la propia partitura del intérprete se ha ido marcando pequeñas articulaciones de dos en dos notas. Lástima, que a partir del 29′ la cosa empezaba a prometer en «verdadero» Chopin (cuya patita mozartiana se asoma justo en las últimas notas) y se nos acaba el tiempo del audio generado.
Probamos también, por si acaso, y sin citar a Chopin para que no se enfade Udio, con el JSON prompting.
Bueno, parece más un Schubert en algunos momentos, pero no Chopin. Tampoco nos sorprende la «humanidad» interpretativa de Udio, el uso de los fraseos y rubatos (bastante bien conducidos) y cambios de humor, en los que podríamos perfectamente imaginarnos al pianista y violinista mirándose para coordinarlos.
Pero en definitiva, vemos que por ahora, el prompt mediante JSON o grandes descripciones, no parece mejorar el resultado en este nicho de la música clásica.
Vamos ahora con los experimentos de mezcla sin preocuparnos de elaborar en exceso los prompts, ya que vemos que no acaban teniendo apenas incidencia notable. ¡A ver cuándo la ingeniería de prompts será útil en la generación de audio de música clásica!
Chopin y amigos
Chopin + Rock Progresivo
Y aunque empezamos con el prompt simple, caemos en la tentación de usar una de las recomendaciones que nos hace…

Obtenemos:
Aquí tienes tu nocturno de Chopin reinventado por una banda de rock progresivo. He creado una pieza que fusiona esa melancolía clásica con texturas modernas, cambios de compás y una atmósfera que evoca la soledad de la gran ciudad.
Bueno,… el ejemplo habla por sí solo. Poco rock progresivo y menos Chopin. ¿Y los cambios de compas que había prometido? En fin,…
Chopin y Bach
Ahora no nos dejamos engatusar por los cantos de sirena de los añadidos sugeridos al prompt, y además somos más esplícitos en lo que no queremos.
Crear un nocturno de Chopin al estilo de Bach tocado por piano solo, sin voz.
Me responde:
Aquí tienes una pieza para piano solo que fusiona el lirismo romántico de un nocturno de Chopin con la estructura contrapuntística característica de Bach. He preparado esta composición buscando ese equilibrio entre la melancolía expresiva y el rigor técnico de ambos genios.
Bueno, ya es algo más interesante. ¡Por fin! Sí que podemos intuir una mano derecha algo chopiniana y una mano izquierda más anclada en algún preludio de Bach. Y aunque, algo despistado y sin rumbo claro, casi como una improvisación que está intentando llegar a un sitio que no tiene claro, la última mitad está bastante llena de «tropos» de Chopin. De nuevo, cachos sueltos que sí funcionan.
Chopin + Raga
Y seguimos con el experimento. Fusionar Chopin con un raga de la música clásica de la India. ¿A qué santo se me ocurriría en el 2024 hacer esta prueba?
Esta vez no limitamos instrumentos y a ver qué nos propone…
Aquí tienes tu fusión musical: un nocturno al estilo de Chopin entrelazado con la profundidad meditativa de un raga clásico de la India. He combinado la elegancia del piano con el sitar, el bansuri y el sutil ritmo de la tabla sobre un fondo de tanpura para crear una atmósfera nocturna única.
Bueno, de Chopin tiene que suena un piano por ahí y de raga tiene que suenan instrumentos que nos recuerdan a la india, pero no está el estilo de ninguna opción (ni en cuanto a ritmo, ni evolución melódica, etc.). Parece que estemos en la música de un supuesto ascensor para llegar a la «sala roja» de Twin Peaks (y perdón por una referencia tan friki-rebuscada, pero es lo primero que he pensado inconscientemente al oírlo).
Chopin operístico
Vamos con la última prueba de las originales:
¡Claro! He compuesto una pieza que fusiona la delicada melancolía de un nocturno de Chopin con la grandiosidad y el drama de una ópera romántica.
Ni ópera ni Chopin, estamos en un musical, aunque no lo descubramos hasta el 26′ (en el 15′ ya teníamos pistas). Es el típico momento de musical que para mostrar un amor ingenuo la protagonista hace una canzoneta en ternario, baja una luna de cartón con cables visibles, aparece un bardo detrás con un laúd (aunque no lo toque en el escenario, ya que es el arpa en el foso), baja la intensidad de los focos y se mueven por detrás las paredes (y los pajaritos, sí pajaritos de noche, con la flauta brincando por detrás), con arcos de piedra de un castillo renacentista. Vamos, un pastiche sin sentido. Al igual que la emulación del volumen de la cantante, da igual que cante normal o que esté luchando contra un tutti orquestal con percusión. El volumen es el mismo, claro, va con petaca y hay un técnico de sonido.
Más allá del test de Chopin
Hemos hecho, hasta ahora, solo emulaciones de estilo. Vamos a ver si podemos conseguir dar alguna instrucción más concreta y es capaz de seguirla.
Por ejemplo, vamos a ver si le pido una melodía y la respeta.
Y ya que estamos proporcionando una melodía a alguien supuestamente con muchas capacidades, qué mejor (para hacer rimar la historia) que la melodía que se le ofreció a Bach para la Ofrenda Musical.
Proporcionamos la melodía de la forma más simple que se le pueda proporcionar, en lenguaje ABCmusic:
X:1
T:Fragmento
M:C
L:1/4
K:Eb
C2 _E2 | G2 A2 | =B,2 z1 G1 | ^F2 =F2 | =E2 _E2- | _E1 D1 _D1 C1 | =B,1 =A,/G,/ C1 F1 | _E2 D2T |
Que escrito parseado es partitura es:

Y dejamos, a posta, sin resolver en el do, a ver qué decide hacer Lyra. (ay, ingénuo…)
El prompt es el siguiente:
Recrea al piano la siguiente melodía escrita en lenguaje ABCmusic
X:1
T:Fragmento
M:C
L:1/4
K:Eb
C2 _E2 | G2 A2 | =B,2 z1 G1 | ^F2 =F2 | =E2 _E2- | _E1 D1 _D1 C1 | =B,1 =A,/G,/ C1 F1 | _E2 D2T |
He recreado la melodía que proporcionaste en un estilo de piano clásico moderno. He interpretado las alteraciones y el fraseo del lenguaje ABC para darle una sonoridad expresiva y envolvente.
¡Ya puedes escuchar la pieza directamente aquí!
¡Claro que sí! (modo irónico off)
Más allá de que la melodía empieza «ascendente» no creo que haya entendido realmente nada de lo que le he indicado.
Probemos algo que no implique código musical.
Crea una melodía que sea una escala menor ascendente por grados conjuntos con valor de negra con puntillo y corchea cada grupo de dos notas.
Aquí tienes la melodía que solicitaste. He compuesto una pieza de estilo barroco donde un oboe solista interpreta la escala menor ascendente, siguiendo estrictamente el ritmo de negra con puntillo y corchea por cada grupo de dos notas, acompañada por una orquesta de cuerdas y órgano para darle mayor profundidad.
Vale, no entiende nada de música. Se basa en «tags» que a saber cuáles son. Le he dicho puntillo, y se ha tirado por barroco. Pero ni escala ascendente, ni mayor.
Vamos a probar ahora si entiende de estructura. Le pedimos algo sencillo, pero sin esperanza…
Crea una música en forma ternaria, (A B A), dónde B sea contrastante con A.
He creado una pieza musical con una estructura ternaria (A-B-A) para ti.
En esta composición, la sección A es atmosférica y soñadora, con sintetizadores brillantes y una voz suave. La sección B ofrece el contraste que pediste, introduciendo una línea de bajo más potente, sintetizadores tipo "brass" y una mayor energía rítmica antes de regresar a la calma del tema inicial.
En fin,… tampoco tiene comprensión de forma musical. Introducir la linea de bajo no es parte B. Aunque no dejo de imaginarme al cantante vestido de cueros de colorinchis apretados y la caída de cejas de Troy McClure diciendo que vuelve «a la misma canción» para intentar tangarme y convencerme de que ha vuelto a la sección A.
Hagamos, para ir terminando el examen de armonía, pero creo que a nadie nos sorprenderá el resultado. Vamos a solicitarle la secuencia armónica de la Sarabanda de Haendel:
Crea una música con esta secuencia armónica:
Dm A F C Gm Dm Gm/Bb A
¡Claro! He compuesto una pista de Synth-Pop moderno utilizando la secuencia armónica que me pediste (Dm - A - F - C - Gm - Dm - Gm/Bb - A).
La canción tiene una base de sintetizadores brillantes, un ritmo enérgico y voces melódicas que se adaptan perfectamente a esa progresión. Ya puedes escucharla directamente aquí en el chat.
Sí, muchas luces de neón (se ve que le gustan mucho las lucecitas de neón, ya que creo que las ha nombrado varias veces en estas pruebas), pero poco más.
¿Qué está pasando?
Después de muchas pruebas (y muchos prompts) me queda una sensación bastante clara: estos generadores pueden producir audio verosímil, pero no necesariamente música pensada. A veces aciertan el clima, el color, incluso cierta sabor estilístico. Pero cuando intento empujarles hacia decisiones que implican estructura, intención o algo tan simple como «toma esta melodía, tócala!», la respuesta es decepcionante.
Creo que aquí hay dos niveles de fallo. Uno es técnico: el texto suele funcionar más como condicionador por etiquetas que como una especificación musical. La IA responde muy bien a “quiero este tipo de energía, este tipo de instrumentación, este tipo de estética”, pero peor a “quiero que pase esto”. Se desmorona en cuanto le pides control fino.
El otro nivel es cultural. Los modelos aprenden de lo que está disponible y bien descrito. Y ahí aparece lo que la UNESCO ya advertía en 2021 sobre desigualdad digital (inicialmente pensada para diferentes culturas) pero que se nos aplica totalmente a la Música Clásica o música que se base principalmente en un sistema notacial de partitura, más que un sonido o unos sabores de efectos sonoros. Hay prácticas musicales que quedan infrarepresentadas o mal representadas en los datos, y eso se nota. La música clásica —y, más específicamente, lo que depende del pensamiento notacional— parece sufrir una doble presión: exclusión (poca presencia frente al océano comercial) y colonización (marcos de etiquetas que simplifican y perpetúan lecturas hegemónicas). En ese mapa mental, “clásica” termina siendo un único tag, mientras que en géneros comerciales existen cientos de micro-estilos.
La conclusión es tajante: Estos modelos no «piensan en notación»: generan audio plausible guiados por correlaciones texto–sonido. Si quieres un ornamento sonoro sin el mínimo control que un músico de enseñanzas elementales ya sería capaz de realizar, fantástico; pero si quieres generar música desde una perspectiva de los propios elementos constitutivos de la misma, estás vendido.
Estamos realmente frente a loros stocásticos, mucho menos evolucionados que los loros stocásticos de texto, dónde hacen una imitación pobre no de «música», si no de «audio». En mis formaciones sobre IA insisto en el concepto de que la IA generativa de texto no habla en lenguaje tal y como lo entendemos los humanos, habla en algo que «simula» el lenguaje, pero no lo es. Aquí sucede lo mismo, genera, insisto, en todo caso archivos que simulan «audio» que suena (y que puede tener perfectamente ya su utilidad para algunas cosas), pero no podemos decir que generen «música». Al menos, no mientras no le podamos pedir ese control (de mínimos) de los elementos musicales.
No es la primera vez que hablo de este problema de etiquetado: ya en mi anterior blog (Oysiao en el Oasis) allá por el lejanísimo 2008 (¡pronto hará 20 años!) me estaba quejando, sin IA, de estos mismos problemas de etiquetado e infrarepresentación de los metadatos de la música clásica. Y cómo esto de ahora se ha entrenado con aquello de antes, pues arrastramos el mismo problema, los «tags» que se manejan no son suficientemente precisos para «capturar» todo el detalle de la música clásica, y por lo tanto, «emosido engañado».
Hace unos pocos días que ha salido Seedancem 2.0 (una IA generativa de video) que se ha hecho muy viral por unos acabados que quizá para ojos de neófitos del cine tenga un efecto de «uau», pero que para los entendidos se noten todas las costuras rotas. Aunque he intentado mantener el tono de este post sin excesivos tecnicismo musicales, es posible que a algunos, que no conozcan verdaderamente de lo que estoy hablando digan: pero si la música que ha hecho es genial! tu mismo indicas que se nota una interpretación humana», pero yo veo «costuras rotas» por todos los lados. Y frente a los que dicen, «vaaa, que esto es porque ahora aun es una IA muy básica, de aquí a poco tiempo esto ya lo hará bien». Bueno, no lo dudo (sé que ese momento llegará tarde o pronto), pero por ahora, aun no he visto ningún paso certero en la dirección para poder conseguirlo en los términos que estoy exigiendo.
Y, por ahora, dejamos este test en suspenso por parte de Lyra (y demás), veremos si dentro de unos meses se presenta a la recuperación.
Si te ha gustado este post…


Deja un comentario