Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

您好,求一份wiki处理后的train跟test_wiki.txt 数据,代码里没找到呢 #3

Open
dh12306 opened this issue Jul 25, 2019 · 3 comments

Comments

@dh12306
Copy link

dh12306 commented Jul 25, 2019

rt,想从头训练下bert,现在我用的一份其他的数据,每行一句话

@sangensong
Copy link

rt,想从头训练下bert,现在我用的一份其他的数据,每行一句话

维基每个月都会提供一个接口打包它的数据给人使用wiki,另外,劝你别从头开始训练,因为个人支付这个花费属于可能但特别不划算的做法

@dh12306
Copy link
Author

dh12306 commented Jul 29, 2019

rt,想从头训练下bert,现在我用的一份其他的数据,每行一句话

维基每个月都会提供一个接口打包它的数据给人使用wiki,另外,劝你别从头开始训练,因为个人支付这个花费属于可能但特别不划算的做法

好的好的,我就想按您的代码跑个流程,最主要想确认下train_wiki.txt 里的数据是不是这样,每个json一行?,如果是这样,我自己也可以生成,几百条就够了,跑个流程:
{'text1': '眼蛱蝶族(学名:Junoniini)是蛱蝶科蛱蝶亚科中的一个族。', 'text2': '此分类的物种在始新世末至渐新世初开始形成。'}
{'text1': '眼蛱蝶族(学名:Junoniini)是蛱蝶科蛱蝶亚科中的一个族。', 'text2': '此分类的物种在始新世末至渐新世初开始形成。'}

@aespresso
Copy link
Owner

rt,想从头训练下bert,现在我用的一份其他的数据,每行一句话

不好意思, 之前忘记上传, 现在已经上传, 在readme文件里有百度网盘的下载地址, 这边再贴一份:
训练集:
链接:https://pan.baidu.com/s/1fXRlhhAPDdOJXGJhfgfpoQ 密码:u49e
测试集:
链接:https://pan.baidu.com/s/1Q_ccloyTMONURmodpzeJ4A 密码:4s9w

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants