OpenMOSS · PanQiWei · Apr 26, 2023 · Apr 26, 2023 · Apr 26, 2023 · Apr 26, 2023
diff --git a/models/custom_autotune.py b/models/custom_autotune.py
diff --git a/models/modeling_moss.py b/models/modeling_moss.py
@@ -733,6 +733,17 @@ def _reorder_cache(
         )
 
     def quantize(self, wbits, groupsize):
-        from .quantization import quantize_with_gptq
-        return quantize_with_gptq(self, wbits, groupsize)
-
+        from auto_gptq.modeling._utils import make_quant, find_layers
+        try:
+            import triton
+            use_triton = True
+        except ImportError:
+            use_triton = False
+
+        layers = find_layers(self)
+        for name in ["lm_head"]:
+            if name in layers:
+                del layers[name]
+        make_quant(self, layers, wbits, groupsize, use_triton=use_triton)
+
+        return self