-
Notifications
You must be signed in to change notification settings - Fork 2
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于原始数据的格式问题 #1
Comments
感谢你的关注 原始数据集是protubuf格式的,它的格式是由 我之所以处理该数据的目的是为了获得其中的实体类型。这里面还有依存路径等信息你也可以获取。但我的建议是如果没有特别必要,完全可以使用NRE的数据集,因为后续的文章都在使用。我在处理之后,为了公平比较,也做了一次对齐。 |
好的,十分感谢~是这样,我实际上不太关注NYT的具体句子内容,而是想将Multi-instance Multi-label Relation Extraction这篇论文的模型用到其他领域关系抽取问题上作为baseline,这个模型使用了NYT数据集,但是README和程序没有清楚地写出来用了哪一部分数据(LICENSE原因),所以如果要将其用到其他问题上,我需要将自己的数据复现成模型用到的类似NYT的格式。我目前想知道的数据格式的核心问题是: relation和heldout文件夹中的trainPositive, trainNegative以及trainNewEntities都是protobuf中message定义的的Relation类吗?(你的Java代码好像说明了是Relation类)我使用python3.6 结合probobuf 3.8.0总是会报UnicodeError错误,多次尝试表明不同编码均不能正确解析pb文件,我的代码如下:
是不是python无法解析必须用java?您的code是先要用java解析才行。 |
对,格式的定义都在 我也试过只使用python,但是发现python解析protobuf数据时分隔符容易出现问题。在参考了别人的做法后,我也先使用java进行解析,然后再用python进行处理。 |
好的我继续研究一下哈~ |
不客气。Good luck! |
您好,我是刚入门关系抽取的学生,最近正在处理NYT数据集,刚看到您的代码觉得很受用。
您可以简要写一下原始数据的格式吗?比如relation和heldout relation文件夹内的数据训练就足够了?manual那个文件夹需要吗?另外那个tsv数据是用来做什么的?我发现目前没有对原始数据的很好的说明,这样可以让更多愿意研究关系抽取的人受用,十分感谢!
The text was updated successfully, but these errors were encountered: