Padding amount was too high for loading files with FFMPEG. (#72)

* Getting the pad amount as low as possible for mp3 to pass. * Fleshing out comment. * Bumping version * Raising threshold. * Adding source * updating comment * Adding offset option to dataset * Changing to hann window * Update regression data. * Raising atol but why --------- Co-authored-by: pseeth <[email protected]>
descriptinc · Feb 14, 2023 · 3ec92c5 · 3ec92c5
1 parent 5f31615
commit 3ec92c5
Show file tree

Hide file tree

Showing 45 changed files with 93 additions and 82 deletions.
diff --git a/.gitignore b/.gitignore
@@ -140,3 +140,4 @@ test_out.md
 
 # generated test data
 tests/audio/chords/
+notebooks/*
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
@@ -4,7 +4,7 @@ repos:
   hooks:
     - id: reorder-python-imports
 - repo: https://github.com/psf/black
-  rev: 22.3.0
+  rev: 23.1.0
   hooks:
     - id: black
       language_version: python3

diff --git a/audiotools/__init__.py b/audiotools/__init__.py
@@ -1,4 +1,4 @@
-__version__ = "0.6.0"
+__version__ = "0.6.1"
 from .core import AudioSignal
 from .core import STFTParams
 from .core import Meter

diff --git a/audiotools/core/audio_signal.py b/audiotools/core/audio_signal.py
@@ -1063,7 +1063,7 @@ def stft_params(self):
     def stft_params(self, value: STFTParams):
         default_win_len = int(2 ** (np.ceil(np.log2(0.032 * self.sample_rate))))
         default_hop_len = default_win_len // 4
-        default_win_type = "sqrt_hann"
+        default_win_type = "hann"
         default_match_stride = False
         default_padding_type = "reflect"
 

diff --git a/audiotools/core/ffmpeg.py b/audiotools/core/ffmpeg.py
@@ -178,8 +178,12 @@ def load_from_file_with_ffmpeg(cls, audio_path: str, quiet: bool = True, **kwarg
             # offset in a video container.
             pad = ffprobe_offset(audio_path)
             # Don't pad files with discrepancies less than
-            # 0.1s - it's likely due to codec latency.
-            if pad < 0.1:
+            # 0.0.27s - it's likely due to codec latency.
+            # The amount of latency introduced by mp3 is
+            # 1152, which is 0.0261 44khz. So we
+            # set the threshold here slightly above that.
+            # Source: https://lame.sourceforge.io/tech-FAQ.txt.
+            if pad < 0.027:
                 pad = 0.0
             ff = ffmpy.FFmpeg(
                 inputs={wav_file: None},

diff --git a/audiotools/data/datasets.py b/audiotools/data/datasets.py
@@ -334,6 +334,7 @@ def __init__(
         sample_rate: int,
         n_examples: int = 1000,
         duration: float = 0.5,
+        offset: float = None,
         loudness_cutoff: float = -40,
         num_channels: int = 1,
         transform: Callable = None,
@@ -355,6 +356,7 @@ def __init__(
         self.transform = transform
         self.sample_rate = sample_rate
         self.duration = duration
+        self.offset = offset
         self.aligned = aligned
         self.shuffle_loaders = shuffle_loaders
 
@@ -367,7 +369,7 @@ def __init__(
 
     def __getitem__(self, idx):
         state = util.random_state(idx)
-        offset = None
+        offset = None if self.offset is None else self.offset
         item = {}
 
         keys = list(self.loaders.keys())

diff --git a/audiotools/data/transforms.py b/audiotools/data/transforms.py
@@ -493,7 +493,6 @@ def __init__(
         name: str = None,
         prob: float = 1.0,
     ):
-
         transforms = [copy.copy(transform) for _ in range(n_repeat)]
         super().__init__(transforms, name=name, prob=prob)
 
@@ -1479,7 +1478,6 @@ def __init__(
         name: str = None,
         prob: float = 1,
     ):
-
         super().__init__(t_center=t_center, t_width=t_width, name=name, prob=prob)
 
     def _transform(self, signal, tmin_s: float, tmax_s: float):

diff --git a/audiotools/metrics/spectral.py b/audiotools/metrics/spectral.py
@@ -48,10 +48,16 @@ def __init__(
         pow: float = 2.0,
         weight: float = 1.0,
         match_stride: bool = False,
+        window_type: str = None,
     ):
         super().__init__()
         self.stft_params = [
-            STFTParams(window_length=w, hop_length=w // 4, match_stride=match_stride)
+            STFTParams(
+                window_length=w,
+                hop_length=w // 4,
+                match_stride=match_stride,
+                window_type=window_type,
+            )
             for w in window_lengths
         ]
         self.loss_fn = loss_fn
@@ -128,10 +134,16 @@ def __init__(
         match_stride: bool = False,
         mel_fmin: List[float] = [0.0, 0.0],
         mel_fmax: List[float] = [None, None],
+        window_type: str = None,
     ):
         super().__init__()
         self.stft_params = [
-            STFTParams(window_length=w, hop_length=w // 4, match_stride=match_stride)
+            STFTParams(
+                window_length=w,
+                hop_length=w // 4,
+                match_stride=match_stride,
+                window_type=window_type,
+            )
             for w in window_lengths
         ]
         self.n_mels = n_mels

diff --git a/audiotools/ml/layers/spectral_gate.py b/audiotools/ml/layers/spectral_gate.py
@@ -35,7 +35,6 @@ class SpectralGate(nn.Module):
     """
 
     def __init__(self, n_freq: int = 3, n_time: int = 5):
-
         super().__init__()
 
         smoothing_filter = torch.outer(

diff --git a/audiotools/post.py b/audiotools/post.py
@@ -111,7 +111,6 @@ def _default_format_fn(label, x, **kwargs):
 
         v_keys = list(v.keys())
         if columns is None:
-
             columns = [first_column] + v_keys
             output.append(" | ".join(columns))
 

diff --git a/setup.py b/setup.py
@@ -6,7 +6,7 @@
 
 setup(
     name="audiotools",
-    version="0.6.0",
+    version="0.6.1",
     classifiers=[
         "Intended Audience :: Developers",
         "Intended Audience :: Education",

diff --git a/tests/core/test_grad.py b/tests/core/test_grad.py
@@ -9,12 +9,10 @@
 
 
 def test_audio_grad():
-
     audio_path = "tests/audio/spk/f10_script4_produced.wav"
     ir_path = "tests/audio/ir/h179_Bar_1txts.wav"
 
     def _test_audio_grad(attr: str, target=True, kwargs: dict = {}):
-
         signal = AudioSignal(audio_path)
         signal.audio_data.requires_grad = True
 
@@ -26,7 +24,6 @@ def _test_audio_grad(attr: str, target=True, kwargs: dict = {}):
 
         try:
             if isinstance(result, AudioSignal):
-
                 # If necessary, propagate spectrogram changes to waveform
                 if result.stft_data is not None:
                     result.istft()
@@ -88,7 +85,6 @@ def _test_audio_grad(attr: str, target=True, kwargs: dict = {}):
 
 
 def test_batch_grad():
-
     audio_path = "tests/audio/spk/f10_script4_produced.wav"
 
     signal = AudioSignal(audio_path)

diff --git a/tests/data/test_transforms.py b/tests/data/test_transforms.py
@@ -25,7 +25,7 @@ def _compare_transform(transform_name, signal):
     if regression_data.exists():
         regression_signal = AudioSignal(regression_data)
         assert torch.allclose(
-            signal.audio_data, regression_signal.audio_data, atol=1e-6
+            signal.audio_data, regression_signal.audio_data, atol=1e-4
         )
     else:
         signal.write(regression_data)

diff --git a/tests/regression/transforms/BackgroundNoise.wav b/tests/regression/transforms/BackgroundNoise.wav
diff --git a/tests/regression/transforms/BaseTransform.wav b/tests/regression/transforms/BaseTransform.wav
diff --git a/tests/regression/transforms/Choose.wav b/tests/regression/transforms/Choose.wav
diff --git a/tests/regression/transforms/ClippingDistortion.wav b/tests/regression/transforms/ClippingDistortion.wav
diff --git a/tests/regression/transforms/Compose.wav b/tests/regression/transforms/Compose.wav
diff --git a/tests/regression/transforms/CorruptPhase.wav b/tests/regression/transforms/CorruptPhase.wav
diff --git a/tests/regression/transforms/CrossTalk.wav b/tests/regression/transforms/CrossTalk.wav
diff --git a/tests/regression/transforms/Equalizer.wav b/tests/regression/transforms/Equalizer.wav
diff --git a/tests/regression/transforms/FrequencyMask.wav b/tests/regression/transforms/FrequencyMask.wav
diff --git a/tests/regression/transforms/FrequencyNoise.wav b/tests/regression/transforms/FrequencyNoise.wav
diff --git a/tests/regression/transforms/GlobalVolumeNorm.wav b/tests/regression/transforms/GlobalVolumeNorm.wav
diff --git a/tests/regression/transforms/HighPass.wav b/tests/regression/transforms/HighPass.wav
diff --git a/tests/regression/transforms/Identity.wav b/tests/regression/transforms/Identity.wav
diff --git a/tests/regression/transforms/InvertPhase.wav b/tests/regression/transforms/InvertPhase.wav
diff --git a/tests/regression/transforms/LowPass.wav b/tests/regression/transforms/LowPass.wav
diff --git a/tests/regression/transforms/MaskLowMagnitudes.wav b/tests/regression/transforms/MaskLowMagnitudes.wav
diff --git a/tests/regression/transforms/MuLawQuantization.wav b/tests/regression/transforms/MuLawQuantization.wav
diff --git a/tests/regression/transforms/NoiseFloor.wav b/tests/regression/transforms/NoiseFloor.wav
diff --git a/tests/regression/transforms/Quantization.wav b/tests/regression/transforms/Quantization.wav
diff --git a/tests/regression/transforms/Repeat.wav b/tests/regression/transforms/Repeat.wav
diff --git a/tests/regression/transforms/RepeatUpTo.wav b/tests/regression/transforms/RepeatUpTo.wav
diff --git a/tests/regression/transforms/RescaleAudio.wav b/tests/regression/transforms/RescaleAudio.wav
diff --git a/tests/regression/transforms/RoomImpulseResponse.wav b/tests/regression/transforms/RoomImpulseResponse.wav
diff --git a/tests/regression/transforms/ShiftPhase.wav b/tests/regression/transforms/ShiftPhase.wav
diff --git a/tests/regression/transforms/Silence.wav b/tests/regression/transforms/Silence.wav
diff --git a/tests/regression/transforms/Smoothing.wav b/tests/regression/transforms/Smoothing.wav
diff --git a/tests/regression/transforms/SpectralDenoising.wav b/tests/regression/transforms/SpectralDenoising.wav
diff --git a/tests/regression/transforms/SpectralTransform.wav b/tests/regression/transforms/SpectralTransform.wav
diff --git a/tests/regression/transforms/TimeMask.wav b/tests/regression/transforms/TimeMask.wav
diff --git a/tests/regression/transforms/TimeNoise.wav b/tests/regression/transforms/TimeNoise.wav
diff --git a/tests/regression/transforms/VolumeChange.wav b/tests/regression/transforms/VolumeChange.wav
diff --git a/tests/regression/transforms/VolumeNorm.wav b/tests/regression/transforms/VolumeNorm.wav