TopDup là dự án cộng đồng được khởi xướng bởi Forum Machine Learning Cơ bản nhằm hỗ trợ các website, blog công nghệ bảo vệ bản quyền bài viết và chống sao chép.
Ý tưởng cơ bản cuả dự án là quét toàn bộ tin tức từ các website, blog công nghệ phổ biến tại Việt Nam, sử dụng NLP để xác định những bài viết giống nhau. Qua đó giúp chủ bài viết dễ dàng phát hiện nếu bài viết cuả mình bị sao chép trái phép.
Dự án là một nỗ lực nhằm chống lại tình trạng vi phạm bản quyền bài viết phổ biến trong giới công nghệ Việt Nam. Xem thêm Vụ việc Topdev sao chép nhiều bài viết từ Viblo mà không xin phép
Tính đến ngày 26/9/2020, dự án đã cơ bản hoàn thành bộ quét bài viết từ các trang công nghệ phổ biến tại Việt Nam trên cơ sở bộ quét Đọc báo. Model phát hiện bài viết trùng lặp và frontend hiển thị dữ liệu cơ bản cũng đã được hoàn tất.
Để đóng góp cho dự án, mời bạn tham khảo CONTRIBUTING.md
/src: chứa toàn bộ mã nguồn cuả dự án
/docbao: mã nguồn quét dữ liệu
/topdup_open: mã nguồn lọc bài viết trùng và frontend