[NeMo-UX] Support `load_strictness` #10612

ashors1 · 2024-09-25T04:42:27Z

What does this PR do ?

Add a one line overview of what this PR aims to accomplish.

Collection: llm

Changelog

Add specific line by line info of high level changes in this PR.

Usage

You can potentially add a usage example below

# Add a code snippet demonstrating how to use this

GitHub Actions CI

The Jenkins CI system has been replaced by GitHub Actions self-hosted runners.

The GitHub Actions CI will run automatically when the "Run CICD" label is added to the PR.
To re-run CI remove and add the label again.
To run CI on an untrusted fork, a NeMo user with write access must first click "Approve and run".

Before your PR is "Ready for review"

Pre checks:

Make sure you read and followed Contributor guidelines
Did you write any new necessary tests?
Did you add or update any necessary documentation?
Does the PR affect components that are optional to install? (Ex: Numba, Pynini, Apex etc)
- Reviewer: Does the PR have correct import guards for all optional libraries?

PR Type:

New Feature
Bugfix
Documentation

If you haven't finished some of the above items you can still open "Draft" PR.

Who can review?

Anyone in the community is free to review the PR once the checks have passed.
Contributor guidelines contains specific people who can review PRs to various areas.

Additional Information

Related to # (issue)

Signed-off-by: ashors1 <[email protected]>

mikolajblaz

Thanks!

marcromeyn

PL does this like this. So I feel like we should adopt the same design and not add a custom arg to our strategy.

mikolajblaz · 2024-10-02T10:55:37Z

PL does this like this. So I feel like we should adopt the same design and not add a custom arg to our strategy.

If only we can propagate this flag to dist_checkpointing.load then using this flag would be ideal

marcromeyn · 2024-10-02T11:07:11Z

PL does this like this. So I feel like we should adopt the same design and not add a custom arg to our strategy.

If only we can propagate this flag to dist_checkpointing.load then using this flag would be ideal

Yeah, an example of how PL does that can be found here.

github-actions · 2024-10-17T01:58:43Z

This PR is stale because it has been open for 14 days with no activity. Remove stale label or comment or update or this will be closed in 7 days.

github-actions · 2024-10-25T01:59:26Z

This PR was closed because it has been inactive for 7 days since being marked as stale.

This reverts commit 54df253.

This reverts commit 4be9bae.

ashors1 · 2024-10-28T22:03:42Z

If only we can propagate this flag to dist_checkpointing.load then using this flag would be ideal

Yeah, an example of how PL does that can be found here.

Revisiting this PR. I don't think this is quite what we want. It looks like PTL's strict is just passed to load_model_state_dict, which is called after the checkpoint is loaded using dist_checkpointing.load, so we're not able to propagate the value of strict to dist_checkpointing.load

Signed-off-by: ashors1 <[email protected]>

…t-load-strictness

nemo/lightning/_strategy_lib.py

nemo/lightning/io/pl.py

+
+        ckpt_sharded_metadata = dist_checkpointing.load_tensors_metadata(path)
+        loaded_keys = []
+        missing_keys = []


…ry workaround Signed-off-by: ashors1 <[email protected]>

nemo/lightning/_strategy_lib.py

mikolajblaz · 2024-11-12T12:08:11Z

nemo/lightning/_strategy_lib.py

@@ -516,6 +516,19 @@ def load_model_state_dict(megatron_parallel, checkpoint: Mapping[str, Any], stri
    from megatron.core import parallel_state
    from megatron.core.dist_checkpointing.validation import StrictHandling, parse_strict_flag

+    ## convert from StrictHandling to bool for PTL
+    if os.environ.get("MCORE_STRICT_HANDLING") is not None:


Let's avoid such logic, it will be terrible to debug later on.

What's the reason this can't be passed by argument?

My previous approach was using PTL's strict_loading to control mcore load strictness, but that required overwriting PTL's getter and setter because we want to allow strict_loading to be a string, while PTL only allows bool. @marcromeyn was opposed to overwriting the getter and setter. He is working on a separate PR that should make it easier to control load_strictness. This PR is intended as a stopgap solution until that PR is in.

@marcromeyn do you have any comments on the current approach?

I would prefer if it's set in a global var as opposed to a environment variable.

Discussed with @marcromeyn offline and we decided it would be best to pass the variable as an argument into MegatronStrategy for now. Please take a look at the latest changes and let me know what you think

Signed-off-by: ashors1 <[email protected]>

nemo/lightning/io/pl.py

Signed-off-by: ashors1 <[email protected]>

github-actions · 2024-11-26T14:18:47Z

beep boop 🤖: 🙏 The following files have warnings. In case you are familiar with these, please try helping us to improve the code base.

Your code was analyzed with PyLint. The following annotations have been identified:

************* Module nemo.lightning._strategy_lib
nemo/lightning/_strategy_lib.py:573:0: C0301: Line too long (130/119) (line-too-long)
nemo/lightning/_strategy_lib.py:35:0: C0115: Missing class docstring (missing-class-docstring)
nemo/lightning/_strategy_lib.py:36:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/_strategy_lib.py:139:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/_strategy_lib.py:166:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/_strategy_lib.py:202:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/_strategy_lib.py:515:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/_strategy_lib.py:598:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/_strategy_lib.py:611:4: C0115: Missing class docstring (missing-class-docstring)
************* Module nemo.lightning.io.pl
nemo/lightning/io/pl.py:82:0: C0301: Line too long (130/119) (line-too-long)
nemo/lightning/io/pl.py:58:0: C0115: Missing class docstring (missing-class-docstring)
nemo/lightning/io/pl.py:64:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/io/pl.py:73:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/io/pl.py:303:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/io/pl.py:308:4: C0116: Missing function or method docstring (missing-function-docstring)
************* Module nemo.lightning.pytorch.callbacks.peft
nemo/lightning/pytorch/callbacks/peft.py:381:0: C0301: Line too long (130/119) (line-too-long)
nemo/lightning/pytorch/callbacks/peft.py:207:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/callbacks/peft.py:324:0: C0115: Missing class docstring (missing-class-docstring)
************* Module nemo.lightning.pytorch.strategies.megatron_strategy
nemo/lightning/pytorch/strategies/megatron_strategy.py:315:0: C0301: Line too long (159/119) (line-too-long)
nemo/lightning/pytorch/strategies/megatron_strategy.py:90:0: C0115: Missing class docstring (missing-class-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:272:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:305:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:386:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:396:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:402:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:445:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:449:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:481:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:491:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:558:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:577:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:604:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:612:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:620:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:624:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:663:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:684:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:719:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:742:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:751:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:759:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:771:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:801:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:826:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:842:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:60:0: W0611: Unused _ModuleStepFunction imported from nemo.lightning.megatron_parallel (unused-import)
nemo/lightning/pytorch/strategies/megatron_strategy.py:76:0: W0611: Unused AdapterPath imported from nemo.lightning.resume (unused-import)

-----------------------------------
Your code has been rated at 9.52/10

Thank you for improving NeMo's documentation!

github-actions · 2024-11-26T14:18:54Z

beep boop 🤖: 🙏 The following files have warnings. In case you are familiar with these, please try helping us to improve the code base.

Your code was analyzed with PyLint. The following annotations have been identified:

************* Module nemo.lightning._strategy_lib
nemo/lightning/_strategy_lib.py:573:0: C0301: Line too long (130/119) (line-too-long)
nemo/lightning/_strategy_lib.py:35:0: C0115: Missing class docstring (missing-class-docstring)
nemo/lightning/_strategy_lib.py:36:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/_strategy_lib.py:139:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/_strategy_lib.py:166:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/_strategy_lib.py:202:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/_strategy_lib.py:515:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/_strategy_lib.py:598:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/_strategy_lib.py:611:4: C0115: Missing class docstring (missing-class-docstring)
************* Module nemo.lightning.io.pl
nemo/lightning/io/pl.py:82:0: C0301: Line too long (130/119) (line-too-long)
nemo/lightning/io/pl.py:58:0: C0115: Missing class docstring (missing-class-docstring)
nemo/lightning/io/pl.py:64:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/io/pl.py:73:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/io/pl.py:303:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/io/pl.py:308:4: C0116: Missing function or method docstring (missing-function-docstring)
************* Module nemo.lightning.pytorch.callbacks.peft
nemo/lightning/pytorch/callbacks/peft.py:381:0: C0301: Line too long (130/119) (line-too-long)
nemo/lightning/pytorch/callbacks/peft.py:207:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/callbacks/peft.py:324:0: C0115: Missing class docstring (missing-class-docstring)
************* Module nemo.lightning.pytorch.strategies.megatron_strategy
nemo/lightning/pytorch/strategies/megatron_strategy.py:315:0: C0301: Line too long (159/119) (line-too-long)
nemo/lightning/pytorch/strategies/megatron_strategy.py:90:0: C0115: Missing class docstring (missing-class-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:272:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:305:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:386:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:396:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:402:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:445:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:449:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:481:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:491:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:558:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:577:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:604:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:612:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:620:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:624:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:663:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:684:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:719:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:742:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:751:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:759:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:771:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:801:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:826:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:842:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/lightning/pytorch/strategies/megatron_strategy.py:60:0: W0611: Unused _ModuleStepFunction imported from nemo.lightning.megatron_parallel (unused-import)
nemo/lightning/pytorch/strategies/megatron_strategy.py:76:0: W0611: Unused AdapterPath imported from nemo.lightning.resume (unused-import)

-----------------------------------
Your code has been rated at 9.52/10

Thank you for improving NeMo's documentation!

github-actions · 2024-11-26T15:54:35Z

[🤖]: Hi @ashors1 👋,

We wanted to let you know that a CICD pipeline for this PR just finished successfully

So it might be time to merge this PR or get some approvals

I'm just a bot so I'll leave it you what to do next.

//cc @pablo-garay @ko3n1g

cuichenx

LGTM

ashors1 added 2 commits September 23, 2024 10:35

add load_strictness to nemo 2.0

4be9bae

Signed-off-by: ashors1 <[email protected]>

bug fix

54df253

Signed-off-by: ashors1 <[email protected]>

ashors1 requested a review from mikolajblaz September 25, 2024 04:42

ashors1 added Run CICD and removed Run CICD labels Sep 25, 2024

mikolajblaz previously approved these changes Oct 2, 2024

View reviewed changes

marcromeyn self-requested a review October 2, 2024 08:46

marcromeyn requested changes Oct 2, 2024

View reviewed changes

github-actions bot added the stale label Oct 17, 2024

github-actions bot closed this Oct 25, 2024

ashors1 added 2 commits October 28, 2024 13:03

Revert "bug fix"

13e5c81

This reverts commit 54df253.

Revert "add load_strictness to nemo 2.0"

82c4eee

This reverts commit 4be9bae.

ashors1 reopened this Oct 28, 2024

github-actions bot removed the stale label Oct 29, 2024

use 'strict' arg from PTL rather than adding another arg

40b39e9

Signed-off-by: ashors1 <[email protected]>

ashors1 dismissed mikolajblaz’s stale review via 40b39e9 October 31, 2024 22:16

ashors1 and others added 2 commits October 31, 2024 22:17

Apply isort and black reformatting

7308b57

Signed-off-by: ashors1 <[email protected]>

Merge branch 'main' of github.com:NVIDIA/NeMo into ashors/nemo-ux-ckp…

2d309cb

…t-load-strictness

github-advanced-security bot found potential problems Nov 7, 2024

View reviewed changes

nemo/lightning/_strategy_lib.py Fixed Show fixed Hide fixed

nemo/lightning/io/pl.py

ckpt_sharded_metadata = dist_checkpointing.load_tensors_metadata(path)

loaded_keys = []

missing_keys = []

Check notice

Code scanning / CodeQL

Unused local variable Note

Variable missing_keys is not used.

control mcore strict loading via an environment variable as a tempora…

0c1c9b2

…ry workaround Signed-off-by: ashors1 <[email protected]>

github-advanced-security bot found potential problems Nov 8, 2024

View reviewed changes

nemo/lightning/_strategy_lib.py Fixed Show fixed Hide fixed

mikolajblaz reviewed Nov 12, 2024

View reviewed changes

ashors1 and others added 2 commits November 15, 2024 09:31

pass ckpt_load_strictness to megatron strategy

ddb968e

Signed-off-by: ashors1 <[email protected]>

Apply isort and black reformatting

001f1fd

Signed-off-by: ashors1 <[email protected]>

github-advanced-security bot found potential problems Nov 15, 2024

View reviewed changes

nemo/lightning/io/pl.py Fixed Show fixed Hide fixed

bug fix

7450936

Signed-off-by: ashors1 <[email protected]>

ashors1 dismissed mikolajblaz’s stale review via 7450936 November 22, 2024 21:28

ashors1 added Run CICD and removed Run CICD labels Nov 22, 2024

remove unused import

1c5a576

Signed-off-by: ashors1 <[email protected]>

ashors1 added Run CICD and removed Run CICD labels Nov 22, 2024

fix selective restore

304744a

Signed-off-by: ashors1 <[email protected]>

ashors1 added Run CICD and removed Run CICD labels Nov 25, 2024

Apply isort and black reformatting

56a919f

Signed-off-by: ashors1 <[email protected]>

ashors1 added Run CICD and removed Run CICD labels Nov 25, 2024

fix selective restore

28d5846

Signed-off-by: ashors1 <[email protected]>

ashors1 added Run CICD and removed Run CICD labels Nov 26, 2024

Apply isort and black reformatting

b4ad6ef

Signed-off-by: ashors1 <[email protected]>

ashors1 added Run CICD and removed Run CICD labels Nov 26, 2024

forward strict arg to peft

1188591

Signed-off-by: ashors1 <[email protected]>

ashors1 requested a review from cuichenx November 26, 2024 14:18

ashors1 added Run CICD and removed Run CICD labels Nov 26, 2024

marcromeyn approved these changes Nov 26, 2024

View reviewed changes

cuichenx approved these changes Nov 26, 2024

View reviewed changes

ashors1 merged commit 5d97b70 into main Nov 26, 2024
172 of 173 checks passed

ashors1 deleted the ashors/nemo-ux-ckpt-load-strictness branch November 26, 2024 17:54

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[NeMo-UX] Support `load_strictness` #10612

[NeMo-UX] Support `load_strictness` #10612

ashors1 commented Sep 25, 2024

mikolajblaz left a comment

marcromeyn left a comment

mikolajblaz commented Oct 2, 2024

marcromeyn commented Oct 2, 2024

github-actions bot commented Oct 17, 2024

github-actions bot commented Oct 25, 2024

ashors1 commented Oct 28, 2024

mikolajblaz Nov 12, 2024

ashors1 Nov 12, 2024

marcromeyn Nov 12, 2024

ashors1 Nov 15, 2024

github-actions bot commented Nov 26, 2024

github-actions bot commented Nov 26, 2024

github-actions bot commented Nov 26, 2024

cuichenx left a comment

[NeMo-UX] Support load_strictness #10612

[NeMo-UX] Support load_strictness #10612

Conversation

ashors1 commented Sep 25, 2024

What does this PR do ?

Changelog

Usage

GitHub Actions CI

Before your PR is "Ready for review"

Who can review?

Additional Information

mikolajblaz left a comment

Choose a reason for hiding this comment

marcromeyn left a comment

Choose a reason for hiding this comment

mikolajblaz commented Oct 2, 2024

marcromeyn commented Oct 2, 2024

github-actions bot commented Oct 17, 2024

github-actions bot commented Oct 25, 2024

ashors1 commented Oct 28, 2024

mikolajblaz Nov 12, 2024

Choose a reason for hiding this comment

ashors1 Nov 12, 2024

Choose a reason for hiding this comment

marcromeyn Nov 12, 2024

Choose a reason for hiding this comment

ashors1 Nov 15, 2024

Choose a reason for hiding this comment

github-actions bot commented Nov 26, 2024

github-actions bot commented Nov 26, 2024

github-actions bot commented Nov 26, 2024

cuichenx left a comment

Choose a reason for hiding this comment

[NeMo-UX] Support `load_strictness` #10612

[NeMo-UX] Support `load_strictness` #10612