TinyLM

Building and training my own tiny langugae model from scratch. The model achitecture is blend between architectures of popular open-source models like LLaMA, Qwen2.5-Coder, etc. The architecture uses RoPE for positional encoding, Grouped Query Attention (GQA), QKV bias, weight tying, etc.

Future Enhancements

Initialize weights according to Maximal Update Parameterization (muP).

Name		Name	Last commit message	Last commit date
Latest commit History 49 Commits
docs/tokenizer		docs/tokenizer
.gitignore		.gitignore
README.md		README.md
bpe.py		bpe.py
config.yaml		config.yaml
gpt.py		gpt.py
ruff.toml		ruff.toml
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TinyLM

Future Enhancements

About

Releases

Packages

Languages

svarunid/tinylm

Folders and files

Latest commit

History

Repository files navigation

TinyLM

Future Enhancements

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages