open-mmlab · cir7 · Sep 6, 2023 · Aug 25, 2023 · Aug 29, 2023 · Aug 29, 2023
diff --git a/demo/demo.ipynb b/demo/demo.ipynb
@@ -70,7 +70,7 @@
     "label = '../tools/data/kinetics/label_map_k400.txt'\n",
     "results = inference_recognizer(model, video)\n",
     "\n",
-    "pred_scores = results.pred_scores.item.tolist()\n",
+    "pred_scores = results.pred_score.tolist()\n",
     "score_tuples = tuple(zip(range(len(pred_scores)), pred_scores))\n",
     "score_sorted = sorted(score_tuples, key=itemgetter(1), reverse=True)\n",
     "top5_label = score_sorted[:5]\n",

diff --git a/demo/demo.py b/demo/demo.py
@@ -119,7 +119,7 @@ def main():
     model = init_recognizer(cfg, args.checkpoint, device=args.device)
     pred_result = inference_recognizer(model, args.video)
 
-    pred_scores = pred_result.pred_scores.item.tolist()
+    pred_scores = pred_result.pred_score.tolist()
     score_tuples = tuple(zip(range(len(pred_scores)), pred_scores))
     score_sorted = sorted(score_tuples, key=itemgetter(1), reverse=True)
     top5_label = score_sorted[:5]

diff --git a/demo/demo_audio.py b/demo/demo_audio.py
@@ -39,7 +39,7 @@ def main():
         raise NotImplementedError('Demo works on extracted audio features')
     pred_result = inference_recognizer(model, args.audio)
 
-    pred_scores = pred_result.pred_scores.item.tolist()
+    pred_scores = pred_result.pred_score.tolist()
     score_tuples = tuple(zip(range(len(pred_scores)), pred_scores))
     score_sorted = sorted(score_tuples, key=itemgetter(1), reverse=True)
     top5_label = score_sorted[:5]

diff --git a/demo/demo_skeleton.py b/demo/demo_skeleton.py
@@ -152,7 +152,7 @@ def main():
     model = init_recognizer(config, args.checkpoint, args.device)
     result = inference_skeleton(model, pose_results, (h, w))
 
-    max_pred_index = result.pred_scores.item.argmax().item()
+    max_pred_index = result.pred_score.argmax().item()
     label_map = [x.strip() for x in open(args.label_map).readlines()]
     action_label = label_map[max_pred_index]
 

diff --git a/demo/demo_video_structuralize.py b/demo/demo_video_structuralize.py
@@ -373,7 +373,7 @@ def skeleton_based_action_recognition(args, pose_results, h, w):
     skeleton_model = init_recognizer(
         skeleton_config, args.skeleton_checkpoint, device=args.device)
     result = inference_skeleton(skeleton_model, pose_results, (h, w))
-    action_idx = result.pred_scores.item.argmax().item()
+    action_idx = result.pred_score.argmax().item()
     return label_map[action_idx]
 
 
@@ -382,7 +382,7 @@ def rgb_based_action_recognition(args):
     rgb_config.model.backbone.pretrained = None
     rgb_model = init_recognizer(rgb_config, args.rgb_checkpoint, args.device)
     action_results = inference_recognizer(rgb_model, args.video)
-    rgb_action_result = action_results.pred_scores.item.argmax().item()
+    rgb_action_result = action_results.pred_score.argmax().item()
     label_map = [x.strip() for x in open(args.label_map).readlines()]
     return label_map[rgb_action_result]
 
@@ -460,7 +460,7 @@ def skeleton_based_stdet(args, label_map, human_detections, pose_results,
 
             output = inference_recognizer(skeleton_stdet_model, fake_anno)
             # for multi-label recognition
-            score = output.pred_scores.item.tolist()
+            score = output.pred_score.tolist()
             for k in range(len(score)):  # 81
                 if k not in label_map:
                     continue

diff --git a/demo/fuse/bone.pkl b/demo/fuse/bone.pkl
diff --git a/demo/fuse/joint.pkl b/demo/fuse/joint.pkl
diff --git a/demo/long_video_demo.py b/demo/long_video_demo.py
@@ -216,7 +216,7 @@ def inference(model, data, args, frame_queue):
 
     result = inference_recognizer(
         model, cur_data, test_pipeline=args.test_pipeline)
-    scores = result.pred_scores.item.tolist()
+    scores = result.pred_score.tolist()
 
     if args.stride > 0:
         pred_stride = int(args.sample_length * args.stride)

diff --git a/demo/mmaction2_tutorial.ipynb b/demo/mmaction2_tutorial.ipynb
diff --git a/demo/webcam_demo.py b/demo/webcam_demo.py
@@ -139,7 +139,7 @@ def inference():
         # Forward the model
         with torch.no_grad():
             result = model.test_step(cur_data)[0]
-        scores = result.pred_scores.item.tolist()
+        scores = result.pred_score.tolist()
         scores = np.array(scores)
         score_cache.append(scores)
         scores_sum += scores

diff --git a/docs/en/get_started/guide_to_framework.md b/docs/en/get_started/guide_to_framework.md
@@ -179,7 +179,8 @@ class VideoPack(BaseTransform):
     def transform(self, results):
         packed_results = dict()
         inputs = to_tensor(results['imgs'])
-        data_sample = ActionDataSample().set_gt_labels(results['label'])
+        data_sample = ActionDataSample()
+        data_sample.set_gt_label(results['label'])
         metainfo = {k: results[k] for k in self.meta_keys if k in results}
         data_sample.set_metainfo(metainfo)
         packed_results['inputs'] = inputs
@@ -219,7 +220,7 @@ print('num_clips: ', data_sample.num_clips)
 print('clip_len: ', data_sample.clip_len)
 
 # Get label of the inputs
-print('label: ', data_sample.gt_labels.item)
+print('label: ', data_sample.gt_label)
 ```
 
 ```
@@ -321,7 +322,7 @@ print('num_clips: ', data_sample.num_clips)
 print('clip_len: ', data_sample.clip_len)
 
 # Get label of the inputs
-print('label: ', data_sample.gt_labels.item)
+print('label: ', data_sample.gt_label)
 
 from mmengine.runner import Runner
 
@@ -481,7 +482,7 @@ class ClsHeadZelda(BaseModule):
 
     def loss(self, feats, data_samples):
         cls_scores = self(feats)
-        labels = torch.stack([x.gt_labels.item for x in data_samples])
+        labels = torch.stack([x.gt_label for x in data_samples])
         labels = labels.squeeze()
 
         if labels.shape == torch.Size([]):
@@ -589,8 +590,8 @@ with torch.no_grad():
     data_batch_test = copy.deepcopy(batched_packed_results)
     data = model.data_preprocessor(data_batch_test, training=False)
     predictions = model(**data, mode='predict')
-print('Label of Sample[0]', predictions[0].gt_labels.item)
-print('Scores of Sample[0]', predictions[0].pred_scores.item)
+print('Label of Sample[0]', predictions[0].gt_label)
+print('Scores of Sample[0]', predictions[0].pred_score)
 ```
 
 ```shell
@@ -661,8 +662,8 @@ class AccuracyMetric(BaseMetric):
         data_samples = copy.deepcopy(data_samples)
         for data_sample in data_samples:
             result = dict()
-            scores = data_sample['pred_scores']['item'].cpu().numpy()
-            label = data_sample['gt_labels']['item'].item()
+            scores = data_sample['pred_score'].cpu().numpy()
+            label = data_sample['gt_label'].item()
             result['scores'] = scores
             result['label'] = label
             self.results.append(result)

diff --git a/docs/en/get_started/installation.md b/docs/en/get_started/installation.md
@@ -121,7 +121,7 @@ label_file = 'tools/data/kinetics/label_map_k400.txt'
 model = init_recognizer(config_file, checkpoint_file, device='cpu')  # or device='cuda:0'
 pred_result = inference_recognizer(model, video_file)
 
-pred_scores = pred_result.pred_scores.item.tolist()
+pred_scores = pred_result.pred_score.tolist()
 score_tuples = tuple(zip(range(len(pred_scores)), pred_scores))
 score_sorted = sorted(score_tuples, key=itemgetter(1), reverse=True)
 top5_label = score_sorted[:5]

diff --git a/docs/zh_cn/get_started/guide_to_framework.md b/docs/zh_cn/get_started/guide_to_framework.md
@@ -180,7 +180,7 @@ class VideoPack(BaseTransform):
     def transform(self, results):
         packed_results = dict()
         inputs = to_tensor(results['imgs'])
-        data_sample = ActionDataSample().set_gt_labels(results['label'])
+        data_sample = ActionDataSample().set_gt_label(results['label'])
         metainfo = {k: results[k] for k in self.meta_keys if k in results}
         data_sample.set_metainfo(metainfo)
         packed_results['inputs'] = inputs
@@ -220,7 +220,7 @@ print('num_clips: ', data_sample.num_clips)
 print('clip_len: ', data_sample.clip_len)
 
 # 获取输入的标签
-print('label: ', data_sample.gt_labels.item)
+print('label: ', data_sample.gt_label)
 ```
 
 ```
@@ -322,7 +322,7 @@ print('num_clips: ', data_sample.num_clips)
 print('clip_len: ', data_sample.clip_len)
 
 # 获取输入的标签
-print('label: ', data_sample.gt_labels.item)
+print('label: ', data_sample.gt_label)
 
 from mmengine.runner import Runner
 
@@ -482,7 +482,7 @@ class ClsHeadZelda(BaseModule):
 
     def loss(self, feats, data_samples):
         cls_scores = self(feats)
-        labels = torch.stack([x.gt_labels.item for x in data_samples])
+        labels = torch.stack([x.gt_label for x in data_samples])
         labels = labels.squeeze()
 
         if labels.shape == torch.Size([]):
@@ -590,8 +590,8 @@ with torch.no_grad():
     data_batch_test = copy.deepcopy(batched_packed_results)
     data = model.data_preprocessor(data_batch_test, training=False)
     predictions = model(**data, mode='predict')
-print('Label of Sample[0]', predictions[0].gt_labels.item)
-print('Scores of Sample[0]', predictions[0].pred_scores.item)
+print('Label of Sample[0]', predictions[0].gt_label)
+print('Scores of Sample[0]', predictions[0].pred_score)
 ```
 
 ```shell
@@ -662,8 +662,8 @@ class AccuracyMetric(BaseMetric):
         data_samples = copy.deepcopy(data_samples)
         for data_sample in data_samples:
             result = dict()
-            scores = data_sample['pred_scores']['item'].cpu().numpy()
-            label = data_sample['gt_labels']['item'].item()
+            scores = data_sample['pred_score'].cpu().numpy()
+            label = data_sample['gt_label'].item()
             result['scores'] = scores
             result['label'] = label
             self.results.append(result)

diff --git a/docs/zh_cn/get_started/installation.md b/docs/zh_cn/get_started/installation.md
@@ -120,7 +120,7 @@ label_file = 'tools/data/kinetics/label_map_k400.txt'
 model = init_recognizer(config_file, checkpoint_file, device='cpu')  # or device='cuda:0'
 pred_result = inference_recognizer(model, video_file)
 
-pred_scores = pred_result.pred_scores.item.tolist()
+pred_scores = pred_result.pred_score.tolist()
 score_tuples = tuple(zip(range(len(pred_scores)), pred_scores))
 score_sorted = sorted(score_tuples, key=itemgetter(1), reverse=True)
 top5_label = score_sorted[:5]

diff --git a/mmaction/apis/inference.py b/mmaction/apis/inference.py
@@ -70,7 +70,7 @@ def inference_recognizer(model: nn.Module,
 
     Returns:
         :obj:`ActionDataSample`: The inference results. Specifically, the
-        predicted scores are saved at ``result.pred_scores.item``.
+        predicted scores are saved at ``result.pred_score``.
     """
 
     if test_pipeline is None:
@@ -131,7 +131,7 @@ def inference_skeleton(model: nn.Module,
 
     Returns:
         :obj:`ActionDataSample`: The inference results. Specifically, the
-        predicted scores are saved at ``result.pred_scores.item``.
+        predicted scores are saved at ``result.pred_score``.
     """
     if test_pipeline is None:
         cfg = model.cfg

diff --git a/mmaction/apis/inferencers/actionrecog_inferencer.py b/mmaction/apis/inferencers/actionrecog_inferencer.py
@@ -356,6 +356,6 @@ def pred2dict(self, data_sample: ActionDataSample) -> Dict:
             dict: The output dictionary.
         """
         result = {}
-        result['pred_labels'] = data_sample.pred_labels.item.tolist()
-        result['pred_scores'] = data_sample.pred_scores.item.tolist()
+        result['pred_labels'] = data_sample.pred_label.tolist()
+        result['pred_scores'] = data_sample.pred_score.tolist()
         return result
diff --git a/mmaction/datasets/transforms/formatting.py b/mmaction/datasets/transforms/formatting.py
@@ -4,28 +4,19 @@
 import numpy as np
 import torch
 from mmcv.transforms import BaseTransform, to_tensor
-from mmengine.structures import InstanceData, LabelData
+from mmengine.structures import InstanceData
 
 from mmaction.registry import TRANSFORMS
 from mmaction.structures import ActionDataSample
 
 
 @TRANSFORMS.register_module()
 class PackActionInputs(BaseTransform):
-    """Pack the input data for the recognition.
-
-    PackActionInputs first packs one of 'imgs', 'keypoint' and 'audios' into
-    the `packed_results['inputs']`, which are the three basic input modalities
-    for the task of rgb-based, skeleton-based and audio-based action
-    recognition, as well as spatio-temporal action detection in the case
-    of 'img'. Next, it prepares a `data_sample` for the task of action
-    recognition (only a single label of `torch.LongTensor` format, which is
-    saved in the `data_sample.gt_labels.item`) or spatio-temporal action
-    detection respectively. Then, it saves the meta keys defined in
-    the `meta_keys` in `data_sample.metainfo`, and packs the `data_sample`
-    into the `packed_results['data_samples']`.
+    """Pack the inputs data.
 
     Args:
+        collect_keys (tuple[str], optional): The keys to be collected
+            to ``packed_results['inputs']``. Defaults to ``
         meta_keys (Sequence[str]): The meta keys to saved in the
             `metainfo` of the `data_sample`.
             Defaults to ``('img_shape', 'img_key', 'video_id', 'timestamp')``.
@@ -95,9 +86,7 @@ def transform(self, results: Dict) -> Dict:
                     bboxes=to_tensor(results['proposals']))
 
         if 'label' in results:
-            label_data = LabelData()
-            label_data.item = to_tensor(results['label'])
-            data_sample.gt_labels = label_data
+            data_sample.set_gt_label(results['label'])
 
         img_meta = {k: results[k] for k in self.meta_keys if k in results}
         data_sample.set_metainfo(img_meta)