Использование динамической трансформации шкалы времени для сравнения аудио записей
Импортируем и обработаем четыре записи первого предложения в произведении "Алиса в стране чудес".
код на языке Wolfram Language целиком
In[2]:=
![Click for copyable input](assets.ru/use-dtw-to-compare-recordings/In_58.png)
alice = ConformAudio[
MapThread[
AudioNormalize[
AudioChannelMix[AudioTrim[AudioResample[Import[#1], 11025], #2],
1]] &, {urls, times}]]
Out[2]=
![](assets.ru/use-dtw-to-compare-recordings/O_25.png)
Покажем на графике каждую из четырех аудио волн.
In[3]:=
![Click for copyable input](assets.ru/use-dtw-to-compare-recordings/In_59.png)
AudioPlot[alice, ImageSize -> Medium]
Out[3]=
![](assets.ru/use-dtw-to-compare-recordings/O_26.png)
Рассчитаем и отобразим на графике особенности спектральной плотности MFCC для выбранных аудио файлов.
In[4]:=
![Click for copyable input](assets.ru/use-dtw-to-compare-recordings/In_60.png)
mfcc = AudioLocalMeasurements[#, "MFCC",
PartitionGranularity -> {.05, .01}]["Values"] & /@ alice;
In[5]:=
![Click for copyable input](assets.ru/use-dtw-to-compare-recordings/In_61.png)
Column[MatrixPlot[#, PlotTheme -> "Minimal", ImageSize -> Medium] & /@
Transpose /@ mfcc]
Out[5]=
![](assets.ru/use-dtw-to-compare-recordings/O_27.png)
Подсчитаем динамическое расстояние временного масштаба между записями с помощью функции WarpingDistance.
In[6]:=
![Click for copyable input](assets.ru/use-dtw-to-compare-recordings/In_62.png)
DistanceMatrix[mfcc,
DistanceFunction -> WarpingDistance] // MatrixPlot
Out[6]=
![](assets.ru/use-dtw-to-compare-recordings/O_28.png)
Рассмотрим соответствие параметров динамической трансформации шкалы времени для двух записей (из четырех) с использованием функции WarpingCorrespondence.
In[7]:=
![Click for copyable input](assets.ru/use-dtw-to-compare-recordings/In_63.png)
{n, m} = WarpingCorrespondence[mfcc[[1]], mfcc[[2]]];
код на языке Wolfram Language целиком
Out[8]=
![](assets.ru/use-dtw-to-compare-recordings/O_29.png)