Multi-Figurative Language Generation (COLING 2022)

Overview

Quick Start

How to use

git clone git@github.com:laihuiyuan/mFLAG.git
cd mFLAG

from model import MultiFigurativeGeneration
from tokenization_mflag import MFlagTokenizerFast
tokenizer = MFlagTokenizerFast.from_pretrained('laihuiyuan/mFLAG')
model = MultiFigurativeGeneration.from_pretrained('laihuiyuan/mFLAG')


# an example for hyperbole-to-sarcasm generation
# a token (<hyperbole>) is added at the beginning of the source sentence to indicate its figure of speech
inp_ids = tokenizer.encode("<hyperbole> I am not happy that he urged me to finish all the hardest tasks in the world", return_tensors="pt")
# the target figurative form (<sarcasm>)
fig_ids = tokenizer.encode("<sarcasm>", add_special_tokens=False, return_tensors="pt")
outs = model.generate(input_ids=inp_ids[:, 1:], fig_ids=fig_ids, forced_bos_token_id=fig_ids.item(), num_beams=5, max_length=60,)
text = tokenizer.decode(outs[0, 2:].tolist(), skip_special_tokens=True, clean_up_tokenization_spaces=False)
# special tokens: <literal>, <hyperbole>, <idiom>, <sarcasm>, <metaphor>, or <simile>

Training

Step 1: Pre-training

python train_pt.py -dataset ParapFG -figs hyperbole idiom metaphor sarcasm simile

Step 2: Fine-tuning

# parallel paraphrase pretraining data
python train_ft.py -dataset ParapFG -figs hyperbole idiom metaphor sarcasm simile

# literal-figurative parallel data
python train_ft.py -dataset MultiFG -figs hyperbole idiom metaphor sarcasm simile

Step 3: Figurative Generation

# Generating idioms form hyperbolic text
python inference.py -src_form hyperbole -tgt_form idiom

Model and Outputs

Our model mFLAG can be found in Hugging Face, the corresponding outputs are in the /data/outputs/ directory

Citation

@inproceedings{lai-etal-2022-multi,
    title = "Multi-Figurative Language Generation",
    author = "Lai, Huiyuan and Nissim, Malvina",
    booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
    month = October,
    year = "2022",
    address = "Gyeongju, Republic of korea",
}

Name	Name	Last commit message	Last commit date
Latest commit laihuiyuan update Jan 30, 2023 f2d1584 · Jan 30, 2023 History 29 Commits
classifier	classifier	code	Mar 26, 2022
data	data	rename outputs	Oct 13, 2022
figs	figs	code	Mar 26, 2022
utils	utils	update	Sep 1, 2022
.gitattributes	.gitattributes	update	Jul 28, 2022
LICENSE	LICENSE	first commit	Mar 9, 2022
README.md	README.md	update	Jan 30, 2023
inference.py	inference.py	update	Sep 2, 2022
model.py	model.py	add some comments	Sep 2, 2022
requirements.txt	requirements.txt	requirements	Sep 1, 2022
tokenization_mflag.py	tokenization_mflag.py	tokenizer	Sep 1, 2022
train_ft.py	train_ft.py	update	Aug 30, 2022
train_pt.py	train_pt.py	update	Aug 30, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Multi-Figurative Language Generation (COLING 2022)

Overview

Quick Start

How to use

Training

Step 1: Pre-training

Step 2: Fine-tuning

Step 3: Figurative Generation

Model and Outputs

Citation

About

Releases

Languages

License

laihuiyuan/mFLAG

Folders and files

Latest commit

History

Repository files navigation

Multi-Figurative Language Generation (COLING 2022)

Overview

Quick Start

How to use

Training

Step 1: Pre-training

Step 2: Fine-tuning

Step 3: Figurative Generation

Model and Outputs

Citation

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Languages