Skip to content

Latest commit

 

History

History
18 lines (13 loc) · 1.64 KB

README.md

File metadata and controls

18 lines (13 loc) · 1.64 KB

Giới thiệu về TopDup

TopDup là dự án cộng đồng được khởi xướng bởi Forum Machine Learning Cơ bản nhằm hỗ trợ các website, blog công nghệ bảo vệ bản quyền bài viết và chống sao chép.

Ý tưởng cơ bản cuả dự án là quét toàn bộ tin tức từ các website, blog công nghệ phổ biến tại Việt Nam, sử dụng NLP để xác định những bài viết giống nhau. Qua đó giúp chủ bài viết dễ dàng phát hiện nếu bài viết cuả mình bị sao chép trái phép.

Dự án là một nỗ lực nhằm chống lại tình trạng vi phạm bản quyền bài viết phổ biến trong giới công nghệ Việt Nam. Xem thêm Vụ việc Topdev sao chép nhiều bài viết từ Viblo mà không xin phép

Tiến độ và kết quả dự án

Tính đến ngày 26/9/2020, dự án đã cơ bản hoàn thành bộ quét bài viết từ các trang công nghệ phổ biến tại Việt Nam trên cơ sở bộ quét Đọc báo. Model phát hiện bài viết trùng lặp và frontend hiển thị dữ liệu cơ bản cũng đã được hoàn tất.

Để đóng góp cho dự án, mời bạn tham khảo CONTRIBUTING.md

Cấu trúc thư mục

/src: chứa toàn bộ mã nguồn cuả dự án
    /docbao: mã nguồn quét dữ liệu 
    /topdup_open: mã nguồn lọc bài viết trùng và frontend