-
Notifications
You must be signed in to change notification settings - Fork 8
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
模型微调的训练数据处理 #7
Comments
这里可以详见我处理数据制作训练集的代码。我是将所有的提及名称都进行了去重并且组合,也就是N*M,论文中我提到,在评测时候只要是命中了其中一个,就算是命中了这个三元组,然后这个三元组的其他提及组合即使预测对了,也不会再进行统计,而一旦预测错误了,即使是错误三元组的其他提及组合,都进行统计。以此来保证我评测的合理性。(也就是对的只统计一个,错误的我都进行统计,而错误的里面也有很多是数据集未标注的,因此模型实际上的效果应该是更好一些)。 Best~ |
非常感谢您的解答。您提到的处理数据制作训练集的代码具体是哪个文件下的呢,我找了一圈没有找到,非常抱歉。还有就是我理解的您的意思是在构造训练集的标签时,假如三元组[h,r,t]中h有两个不同的提及h1和h2,那么最终给与的训练标签就是[h1,r,t]和[h2,r,t]。我看有的论文也将实体列表放入提示里,您当时有实验过吗,我看您的论文中是没有将实体列表放入提示中的。如果您能帮助解答,我将非常感谢!!! |
https://github.com/THUDM/AutoRE/blob/main/AutoRE/utils/pre_process_data.py |
好的,非常感谢您的解答!我再去仔细研读下您的文章和相关数据处理的代码。祝您生活愉快,工作顺心! |
您好!这篇论文的工作对DocRE方向起到了非常好的指导性工作。但有一个问题请问一下:对于RE-DocRED数据集,您在使用训练数据进行模型微调时,labels中的是三元组信息是怎么转换的呢?例如对于labels中的一组信息[h:11,r:P1580,t:6],这里r:P1580很好理解它是代表id为P1580的关系,但对于h:11,它表示是实体编号为11的那个实体,但如果该实体有多个提及,我应该取哪个提及呢,还是说默认取第一个?还是所有提及都取一次?这个问题一直困惑着我,因为如果不确定取哪个提及的话,那提供的训练数据在微调时可能会存在很大问题。还请您百忙之中能帮助解答一下这个问题,非常感谢!
The text was updated successfully, but these errors were encountered: