[English] [Vietnamese]
Trang này chứa các thí nghiệm với bài toán nhận dạng thực thể tên riêng tiếng Việt. Đây là một phần của dự án underthesea
Bước 1: Tạo dự án
Cài đặt môi trường
# clone project
$ git clone [email protected]:magizbox/underthesea.ner.git
# create environment
$ cd underthesea.ner
$ conda create -n ner python=3.5
$ pip install -r requirements.txt
$ pip uninstall -y languageflow
$ pip install https://github.com/undertheseanlp/languageflow/archive/develop.zip
Chạy thử chương trình
$ cd experiment/v16
$ source activate ner
$ python train.py
Bước 2: Chuẩn bị dữ liệu
Tạo một thư mục con trong thư mục data. Ví dụ sample_data
Tạo thư mục raw
trong thư mục mới, copy dữ liệu bạn thu thập được vào trong thư mục raw
Tạo file preprocess.py
, xử lý dữ liệu trong thư mục raw
, lưu kết quả vào thư mục corpus
Tạo file eda.py
, phân tích tập dữ liệu trong thư mục corpus
, lưu kết quả vào thư mục eda
Bước 3: Xây dựng mô hình
Bước 4: Tích hợp vào underthesea
Bước 5: Xây dựng demo
Cập nhật lần cuối: Tháng 2 năm 2018