오디오 파일이 많아서 각 파일을 무음 및 SOX을 기준으로 분할해야합니다. 그러나 일부 파일은 매우 시끄러운 배경을 가지고 있으며 일부는 그렇지 않으므로 분할을 수행하는 모든 파일을 반복하는 매개 변수 집합을 사용할 수 없습니다. 나는 그들이 시끄러운 배경으로 그들을 어떻게 분리하는지에 관해 계산하려고 노력한다. 여기에 내가 sox input2.flac -n stat
sox를 사용한 오디오 통계에 대한 설명
Samples read: 18207744
Length (seconds): 568.992000
Scaled by: 2147483647.0
Maximum amplitude: 0.999969
Minimum amplitude: -1.000000
Midline amplitude: -0.000015
Mean norm: 0.031888
Mean amplitude: -0.000361
RMS amplitude: 0.053763
Maximum delta: 0.858917
Minimum delta: 0.000000
Mean delta: 0.018609
RMS delta: 0.039249
Rough frequency: 1859
Volume adjustment: 1.000
및
Samples read: 198976896
Length (seconds): 6218.028000
Scaled by: 2147483647.0
Maximum amplitude: 0.999969
Minimum amplitude: -1.000000
Midline amplitude: -0.000015
Mean norm: 0.156168
Mean amplitude: -0.000010
RMS amplitude: 0.211787
Maximum delta: 1.999969
Minimum delta: 0.000000
Mean delta: 0.091605
RMS delta: 0.123462
Rough frequency: 1484
Volume adjustment: 1.000
전자는 시끄러운 배경을 포함하지 않고, 후자는 수행을 sox input1.flac -n stat
에서 얻고 것입니다. 큰 차이 때문에 Sample Mean
이 Max delta
일 수 있다고 생각합니다. 누구나 그 통계의 의미를 설명해 주거나 적어도 내가 직접 얻을 수있는 곳을 보여줄 수 있습니까 (공식적인 문서를 보려고했지만 설명하지는 않았습니다). 많은 감사합니다.