Disable tma on AMD by default on fp8_gemm_rowwise

Summary: Updates fp8_gemm_rowwise to set the TMA default based on if we are running with Nvidia or AMD. Reviewed By: danzimm Differential Revision: D69680948 fbshipit-source-id: 4628b9a0a0a30d06e8f695f05e8810fdcd291110
pytorch-labs · Feb 19, 2025 · 79d2949 · 79d2949
1 parent 592d65f
commit 79d2949
Showing 1 changed file with 9 additions and 1 deletion.
diff --git a/tritonbench/operators/fp8_gemm_rowwise/operator.py b/tritonbench/operators/fp8_gemm_rowwise/operator.py
@@ -26,14 +26,22 @@ def parse_args(args: List[str]) -> argparse.Namespace:
     parser.add_argument(
         "--no_fp8_fast_accum", dest="fp8_fast_accum", action="store_false"
     )
-    parser.add_argument("--no_use_tma", dest="use_tma", action="store_false")
+    parser.add_argument(
+        "--no_use_tma", dest="use_tma", default=None, action="store_false"
+    )
+    parser.add_argument("--use_tma", dest="use_tma", action="store_true")
     parser.add_argument(
         "--no_use_persistent",
         dest="no_use_persistent",
         action="store_true",
     )
     parser.add_argument("--warp_specialization", action="store_true")
     parsed_args = parser.parse_args(args)
+    if parsed_args.use_tma is None:
+        # Default to True for CUDA, False for ROCm
+        parsed_args.use_tma = True if torch.version.hip is None else False
+    if torch.version.hip is not None and parsed_args.use_tma:
+        raise RuntimeError("TMA is not supported on ROCm")
     return parsed_args