You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
I want to reproduce the MRC task result on ViSquad 1. dataset. I tried using your code but there are some problems:
ViSquad dataset: there are still some samples with wrong answers, and what did you do to deal with it:
For example:
{
"context": "Ngày 22-7-1954 , Chủ_tịch Hồ_Chí_Minh ra lời kêu_gọi : " Đấu_tranh để củng_cố hoà_bình , thực_hiện thống_nhất , hoàn_thành độc_lập dân_chủ cũng là một cuộc đấu_tranh lâu_dài và gian_khổ " và khẳng_định : " Trung , Nam , Bắc đều là bờ_cõi của nước ta , nước ta nhất_định thống_nhất , đồng_bào cả nước nhất_định được giải_phóng " . Cũng trong ngày này Thủ_tướng Quốc_gia Việt_Nam Ngô_Đình_Diệm ra_lệnh treo cờ rủ toàn Miền Nam từ vĩ_tuyến 17 trở vào để bày_tỏ quan_điểm phản_đối sự chia đôi đất_nước . Tuy_nhiên , trưởng_đoàn đại_biểu Việt_Nam Dân_chủ Cộng_hoà đã lên_tiếng : " Những_ai yêu nước Việt_Nam , những_ai yêu sự thống_nhất Việt_Nam thì không cần phải khóc hôm_nay . Hãy thực_hiện tốt những gì đã ký_kết hôm_nay , thì 2 năm nữa sẽ có một nước Việt_Nam thống_nhất , độc_lập , hoà_bình và giàu_mạnh . Những gì Chính_phủ Việt_Nam Dân_chủ Cộng_hoà làm trong những năm qua chính là vì mục_đích đó . Nước_mắt của chúng_tôi đổ ra trong cuộc đấu_tranh cho sự_nghiệp đó nhiều hơn rất nhiều so với những giọt lệ mà quý_vị ( Quốc_gia Việt_Nam ) nhỏ ra ở đây " .",
"question": "Mục_đích đấu_tranh của Chính_phủ Việt_Nam Dân_chủ Cộng_Hoà là gì ?",
"answers": {
"answer_start": [
-1
],
"answer_end": [
-1
],
"text": [
"Việt_Nam thống_nhất , độc_lập , hoà_bình và giàu mạn"
]
}
},
With pyvi lib, how did you segment? just segment each context, each answer seperately? Because I have problem doing that like below:
{
"context": "Nguồn_gốc của Mặt_Trăng hiện_nay còn chưa chắc_chắn , mặc_dù đa_số bằng_chứng tồn_tại ủng_hộ giả_thuyết sự va_chạm dữ_dội . Trái_Đất có_thể không phải là hành_tinh duy_nhất được tạo thành ở khoảng_cách 150 triệu km từ Mặt_trời . Một giả_thuyết cho rằng một tập_hợp vật_chất khác với khoảng_cách 150 triệu km từ cả Trái_Đất và Mặt_trời , ở điểm Lagrange thứ tư hay thứ năm . Hành_tinh này được gọi là Theia , nó được cho là nhỏ hơn so với Trái_Đất lúc đó , có_lẽ có cùng kích_thước và khối_lượng như Sao_Hoả . Quỹ_đạo của nó ban_đầu là ổn_định nhưng về sau khi Trái_Đất ngày_càng có khối_lượng lớn hơn khi thu_thập thêm vật_chất ở xung_quanh , thì quỹ_đạo của Theia trở_nên bất_ổn_định . Theia đu_đưa tới_lui theo Trái_Đất cho tới khi , cuối_cùng , cách nay khoảng 4.533 tỷ năm ( có_lẽ 0 giờ 05 phút đêm theo giờ cái đồng_hồ của chúng_ta ) , nó va_chạm vào Trái_Đất theo một góc thấp và chéo . Tốc_độ chậm và góc nhỏ không đủ để nó tiêu_diệt Trái_Đất , nhưng một tỷ_lệ lớn lớp vỏ của nó bị bắn ra . Những phần_tử nặng từ Theia chìm sâu vào vỏ Trái_Đất , trong khi những phần còn lại và vật_chất phóng ra tập_hợp lại thành một vật_thể duy_nhất trong vài tuần . Dưới ảnh_hưởng của trọng_lực của chính nó , có_lẽ trong một năm , nó trở_thành một vật_thể có hình_cầu : là Mặt_Trăng . Sự va_chạm cũng được cho rằng đã làm thay_đổi trục của Trái_Đất làm nó nghiêng đi 23,5 ° , trục_quay nghiêng gây ra mùa trên Trái_Đất . ( Một hình_thức lý_tưởng và đơn_giản về nguồn_gốc hành_tinh sẽ có các trục nghiêng 0 ° và không gây ra mùa . ) Có_thể nó cũng đã làm tốc_độ quay của Trái_Đất tăng thêm và khởi_động những kiến_tạo địa_tầng .",
"question": "Mặt_Trăng có kích_thước gần giống với hành_tinh nào trong hệ Mặt_Trời ?",
"answers": {
"answer_start": [
-1,
-1,
-1,
-1
],
"answer_end": [
-1,
-1,
-1,
-1
],
"text": [
"Sao Hoả",
"Sao Hoả",
"Sao Hoả",
"Sao Hoả"
]
}
},
Correct me if im wrong. Wish you could provide more details or your code so that I can reproduce the results. Thanks in advance!
The text was updated successfully, but these errors were encountered:
I want to reproduce the MRC task result on ViSquad 1. dataset. I tried using your code but there are some problems:
ViSquad dataset: there are still some samples with wrong answers, and what did you do to deal with it:
For example:
{
"context": "Ngày 22-7-1954 , Chủ_tịch Hồ_Chí_Minh ra lời kêu_gọi : " Đấu_tranh để củng_cố hoà_bình , thực_hiện thống_nhất , hoàn_thành độc_lập dân_chủ cũng là một cuộc đấu_tranh lâu_dài và gian_khổ " và khẳng_định : " Trung , Nam , Bắc đều là bờ_cõi của nước ta , nước ta nhất_định thống_nhất , đồng_bào cả nước nhất_định được giải_phóng " . Cũng trong ngày này Thủ_tướng Quốc_gia Việt_Nam Ngô_Đình_Diệm ra_lệnh treo cờ rủ toàn Miền Nam từ vĩ_tuyến 17 trở vào để bày_tỏ quan_điểm phản_đối sự chia đôi đất_nước . Tuy_nhiên , trưởng_đoàn đại_biểu Việt_Nam Dân_chủ Cộng_hoà đã lên_tiếng : " Những_ai yêu nước Việt_Nam , những_ai yêu sự thống_nhất Việt_Nam thì không cần phải khóc hôm_nay . Hãy thực_hiện tốt những gì đã ký_kết hôm_nay , thì 2 năm nữa sẽ có một nước Việt_Nam thống_nhất , độc_lập , hoà_bình và giàu_mạnh . Những gì Chính_phủ Việt_Nam Dân_chủ Cộng_hoà làm trong những năm qua chính là vì mục_đích đó . Nước_mắt của chúng_tôi đổ ra trong cuộc đấu_tranh cho sự_nghiệp đó nhiều hơn rất nhiều so với những giọt lệ mà quý_vị ( Quốc_gia Việt_Nam ) nhỏ ra ở đây " .",
"question": "Mục_đích đấu_tranh của Chính_phủ Việt_Nam Dân_chủ Cộng_Hoà là gì ?",
"answers": {
"answer_start": [
-1
],
"answer_end": [
-1
],
"text": [
"Việt_Nam thống_nhất , độc_lập , hoà_bình và giàu mạn"
]
}
},
With pyvi lib, how did you segment? just segment each context, each answer seperately? Because I have problem doing that like below:
{
"context": "Nguồn_gốc của Mặt_Trăng hiện_nay còn chưa chắc_chắn , mặc_dù đa_số bằng_chứng tồn_tại ủng_hộ giả_thuyết sự va_chạm dữ_dội . Trái_Đất có_thể không phải là hành_tinh duy_nhất được tạo thành ở khoảng_cách 150 triệu km từ Mặt_trời . Một giả_thuyết cho rằng một tập_hợp vật_chất khác với khoảng_cách 150 triệu km từ cả Trái_Đất và Mặt_trời , ở điểm Lagrange thứ tư hay thứ năm . Hành_tinh này được gọi là Theia , nó được cho là nhỏ hơn so với Trái_Đất lúc đó , có_lẽ có cùng kích_thước và khối_lượng như Sao_Hoả . Quỹ_đạo của nó ban_đầu là ổn_định nhưng về sau khi Trái_Đất ngày_càng có khối_lượng lớn hơn khi thu_thập thêm vật_chất ở xung_quanh , thì quỹ_đạo của Theia trở_nên bất_ổn_định . Theia đu_đưa tới_lui theo Trái_Đất cho tới khi , cuối_cùng , cách nay khoảng 4.533 tỷ năm ( có_lẽ 0 giờ 05 phút đêm theo giờ cái đồng_hồ của chúng_ta ) , nó va_chạm vào Trái_Đất theo một góc thấp và chéo . Tốc_độ chậm và góc nhỏ không đủ để nó tiêu_diệt Trái_Đất , nhưng một tỷ_lệ lớn lớp vỏ của nó bị bắn ra . Những phần_tử nặng từ Theia chìm sâu vào vỏ Trái_Đất , trong khi những phần còn lại và vật_chất phóng ra tập_hợp lại thành một vật_thể duy_nhất trong vài tuần . Dưới ảnh_hưởng của trọng_lực của chính nó , có_lẽ trong một năm , nó trở_thành một vật_thể có hình_cầu : là Mặt_Trăng . Sự va_chạm cũng được cho rằng đã làm thay_đổi trục của Trái_Đất làm nó nghiêng đi 23,5 ° , trục_quay nghiêng gây ra mùa trên Trái_Đất . ( Một hình_thức lý_tưởng và đơn_giản về nguồn_gốc hành_tinh sẽ có các trục nghiêng 0 ° và không gây ra mùa . ) Có_thể nó cũng đã làm tốc_độ quay của Trái_Đất tăng thêm và khởi_động những kiến_tạo địa_tầng .",
"question": "Mặt_Trăng có kích_thước gần giống với hành_tinh nào trong hệ Mặt_Trời ?",
"answers": {
"answer_start": [
-1,
-1,
-1,
-1
],
"answer_end": [
-1,
-1,
-1,
-1
],
"text": [
"Sao Hoả",
"Sao Hoả",
"Sao Hoả",
"Sao Hoả"
]
}
},
Correct me if im wrong. Wish you could provide more details or your code so that I can reproduce the results. Thanks in advance!
The text was updated successfully, but these errors were encountered: