This repository consists of code used for "The Effects of Input and Temperature of GPT Model on Labeling Medical Data" 2024 BSc thesis. Thesis supervisor is Hendrik Šuvalov. Parts of the code were provided by the supervisor. The provided codeblocks are marked with a comments.
The code has two parts:
- Fine-tuning XLM-RoBERTa and estmedBERT models on GPT annotations and on human annotations
- Researching the data from NCBI dataset and synthetic Estonian medical dataset
There are 8 files.
See repositoorium koosneb koodist, mida kasutati "GPT mudeli sisendi ja temperatuuri mõju meditsiiniliste andmete märgendamisele" BSc lõputöös. Töö juhendajaks on Hendrik Šuvalov. Osa koodist on juhendaja poolt antud ning need on koodi sees kommentaariga ära märgitud.
Kood koosneb kahest osast:
- XLM-RoBERTa ja estmedBERT baasmudelite peenhäälestamine GPT mudeli märgendustega ja inimese märgendatud andmetega
- NCBI andmestiku ja eestikeelse sünteetilise meditsiinilise andmestiku pinnapealne uurimine
Repositooriumis on 8 faili.