SEANLPç®åæ以äžåèœïŒ
-
æ³°è¯ïŒ
- TCCïŒThai Character ClusterïŒåå
- é³èåå
- å±å æ¡ä»¶éæºåºåè¯
- åå±æ¡ä»¶éæºåºåè¯
- è¯å žæéåè¯
- è¯å žæ£åæé¿å¹é åè¯
- è¯å žéåæé¿å¹é åè¯
- è¯å žæ£åæçå¹é åè¯
- è¯å žéåæçå¹é åè¯
- è¯æ§æ 泚
- å¥åçžäŒŒåºŠè®¡ç®
- å ³é®è¯æœå
- èªåšæèŠ
-
è¶åè¯ïŒ
- æ¡ä»¶éæºåºåè¯
- è¯å žæéåè¯
- è¯å žæ£åæé¿å¹é åè¯
- è¯å žéåæé¿å¹é åè¯
- è¯å žæ£åæçå¹é åè¯
- è¯å žéåæçå¹é åè¯
- è¯æ§æ 泚
- å¥åçžäŒŒåºŠè®¡ç®
- å ³é®è¯æœå
- èªåšæèŠ
-
æ¬å寚è¯ïŒé«æ£è¯ïŒïŒ
- KCCåå
- æ¡ä»¶éæºåºåè¯
- è¯å žæéåè¯
- è¯å žæ£åæé¿å¹é åè¯
- è¯å žéåæé¿å¹é åè¯
- è¯å žæ£åæçå¹é åè¯
- è¯å žéåæçå¹é åè¯
- è¯æ§æ 泚
- å¥åçžäŒŒåºŠè®¡ç®
- å ³é®è¯æœå
- èªåšæèŠ
-
èæè¯ïŒ
- è¯å žæéåè¯
- è¯å žæ£åæé¿å¹é åè¯
- è¯å žéåæé¿å¹é åè¯
- è¯å žæ£åæçå¹é åè¯
- è¯å žéåæçå¹é åè¯
- è¯æ§æ 泚
- å¥åçžäŒŒåºŠè®¡ç®
- å ³é®è¯æœå
- èªåšæèŠ
-
çŒ çžè¯ïŒ
- é³èåå
- æ¡ä»¶éæºåºåè¯
- è¯å žæéåè¯
- è¯å žæ£åæé¿å¹é åè¯
- è¯å žéåæé¿å¹é åè¯
- è¯å žæ£åæçå¹é åè¯
- è¯å žéåæçå¹é åè¯
- å¥åçžäŒŒåºŠè®¡ç®
-
ä»ä¹æ¯TCC (Thai Character Cluster)ïŒåçšWittawat JitkrittumçåŠäžç§TCCååå®ç°äžç解éïŒproposed in Character Cluster Based Thai Information Retrieval is a group of inseparable Thai characters. This inseparability derives from Thai writing system which is independent of any context. As a result, TCC can be determined by a simple list of rules describing e.g., what characters need to follow/precede other characters.
-
æ³°è¯TCCåé«æ£è¯KCCåå䜿çš
è§å+æ£å衚蟟åŒ
å®ç°ïŒæçèŸäœïŒæ³°è¯TCCååå¯åèWittawat JitkrittumçåŠäžç§å®ç°ã -
æ³°è¯åå±æ¡ä»¶éæºåºåè¯æš¡åæ¯å±å æ¡ä»¶éæºåºåè¯æš¡å倧åŸå€ïŒéèŠåŸå€§çå åæèœè¿è¡ïŒ
-Xmx>2G
ïŒã -
çŒ çžè¯é³èååèœäžïŒç±äºé³èè¯å žäžååšäžåççŒç åååºïŒäžåççŒç åååºä¹Šå顺åºååšåºå«ïŒæçšçŒ çžè¯é³èååç®ååºæ¬äžèœçšã
-
çŒ çžè¯æ²¡æè¯æ§æ 泚åèœïŒææçŒ çžè¯å ³é®è¯æœåä¹ååšé®é¢ã
-
åè¯äžå±å æ¡ä»¶éæºåºæææ奜ïŒæçå¹é åè¯æææå·®ã
-
åçšè¯äžå€å šïŒäž»èŠå å«äºæ³°è¯åè¶åè¯çåçšè¯ã
å¯ä»¥èªå·±æ¥äžèœœæ¬é¡¹ç®æºç è¿è¡æå
wget https://github.com/zhaoshiyu/SEANLP/archive/master.zip
unzip master.zip
cd SEANLP-master
mvn clean package -Dmaven.test.skip=true
æè git cloneæ¬é¡¹ç®ïŒ
git clone https://github.com/ZhaoShiyu/SEANLP.git
cd SEANLP
mvn clean package -Dmaven.test.skip=true
泚æïŒæ€å€äžèœœçæºç äžäžå å«æ³°è¯åå±æ¡ä»¶éæºåºåè¯æš¡åïŒéèŠå®æŽæš¡å请çšæ¹æ³äºã
äžèœœSEANLP-1.1.0.jar, æè 䜿çšseanlp-1.1.0-sources.jaräžçæš¡åã
SEANLPææçåèœéœå¯ä»¥éè¿å·¥å
·ç±»SEANLP
è¿è¡è°çšãè°çšæ ŒåŒäžºSEANLP.è¯èš.åèœ
ã
åå±æ¡ä»¶éæºåºæ³°è¯åè¯æš¡ååŸå€§ïŒéèŠ-Xmx>2G
demoå¯ä»¥åèäžåäœçœ®ïŒ
1. åè¯åè¯æ§æ 泚
2. å¥åçžäŒŒåºŠè®¡ç®
3. å
³é®è¯æœååèªåšæèŠ
package cn.edu.kmust.seanlp.demo;
import cn.edu.kmust.seanlp.SEANLP;
/**
* åè¯demo
* @author Zhao Shiyu
*
*/
public class SegmentDemo {
public static void main(String[] args) {
//æ³°è¯åè¯
String thText = "àžàž§àž²àž¡àžªàž±àž¡àžàž±àžàžà¹à¹àžàžàž²àžà¹àžšàž£àž©àžàžàžŽàžàžàž±àžàž£àž°àžàžàžàž§àž²àž¡àžªàž±àž¡àžàž±àžàžà¹àžàž²àžàžàžàž«àž¡àž²àž¢";
System.out.println(SEANLP.Thai.syllableSegment(thText));
System.out.println(SEANLP.Thai.dCRFSegment(thText));
//System.out.println(SEANLP.Thai.gCRFSegment(thText));
System.out.println(SEANLP.Thai.datSegment(thText));
System.out.println(SEANLP.Thai.maxSegment(thText));
System.out.println(SEANLP.Thai.minSegment(thText));
System.out.println(SEANLP.Thai.reMaxSegment(thText));
System.out.println(SEANLP.Thai.reMinSegment(thText));
//è¶åè¯åè¯
String viText = "Há» thá»ng tÃn dụng - ngân hà ng cÅ©ng tÄng trÆ°á»ng khá, ngà y cà ng giữ vai trò quan trá»ng trong cÆ¡ cấu kinh tế Thủ ÄÃŽ.";
System.out.println(SEANLP.Vietnamese.crfSegment(viText));
System.out.println(SEANLP.Vietnamese.datSegment(viText));
System.out.println(SEANLP.Vietnamese.maxSegment(viText));
System.out.println(SEANLP.Vietnamese.minSegment(viText));
System.out.println(SEANLP.Vietnamese.reMaxSegment(viText));
System.out.println(SEANLP.Vietnamese.reMinSegment(viText));
//æ¬å寚è¯ïŒé«æ£è¯ïŒåè¯
String khText = "áá¶áá»áá·ááá·ááá¶ááááááááá¶áááá ááááááŸá¢ááááá¶ááá¶ááá·áááá·ááá»ááááá
ááááá»áá¶áááá¶ááá¶ááááááááá¢ááááŸáá¶ááááŸáá¢ááááááá";
System.out.println(SEANLP.Khmer.crfSegment(khText));
System.out.println(SEANLP.Khmer.datSegment(khText));
System.out.println(SEANLP.Khmer.maxSegment(khText));
System.out.println(SEANLP.Khmer.minSegment(khText));
System.out.println(SEANLP.Khmer.reMaxSegment(khText));
System.out.println(SEANLP.Khmer.reMinSegment(khText));
//èæè¯åè¯
String loText = "àºà»àº²àºàº§àºŽàºà»àºàº±àºà»àºàº±àºàºàº°àºàº²àºàºà»àº¥àºŽàºªàº±àºàºàºœàº§à»àºàºµàº§àºµà»àºàºµà»àºàº.ວີ.àºàºžà»àº¡àºà»àº¥àºŽàºªàº±àºàºàº²àºàºàºŽàº¡àºàºàºàºàº²àº§àºàº±àº.";
System.out.println(SEANLP.Lao.datSegment(loText));
System.out.println(SEANLP.Lao.maxSegment(loText));
System.out.println(SEANLP.Lao.minSegment(loText));
System.out.println(SEANLP.Lao.reMaxSegment(loText));
System.out.println(SEANLP.Lao.reMinSegment(loText));
//çŒ
çžè¯åè¯
String buText = "áá¶ááá¯ážáá¶áá¬áá¬áá¶ááá¯ááºáá¶áááá¯áá¶ááŸáá¯ážáá±á¬áº";
System.out.println(SEANLP.Burmese.datSegment(buText));
System.out.println(SEANLP.Burmese.maxSegment(buText));
System.out.println(SEANLP.Burmese.minSegment(buText));
System.out.println(SEANLP.Burmese.reMaxSegment(buText));
System.out.println(SEANLP.Burmese.reMinSegment(buText));
System.out.println(SEANLP.Burmese.syllableSegment(buText));
}
}
package cn.edu.kmust.seanlp.demo;
import cn.edu.kmust.seanlp.SEANLP;
/**
* å¥åçžäŒŒåºŠè®¡ç®demo
* @author Zhao Shiyu
*
*/
public class SimilarityDemo {
public static void main(String[] args) {
String thText = "àžàž§àž²àž¡àžªàž±àž¡àžàž±àžàžà¹à¹àžàžàž²àžà¹àžšàž£àž©àžàžàžŽàžàžàž±àžàž£àž°àžàžàžàž§àž²àž¡àžªàž±àž¡àžàž±àžàžà¹àžàž²àžàžàžàž«àž¡àž²àž¢";
String viText = "Há» thá»ng tÃn dụng - ngân hà ng cÅ©ng tÄng trÆ°á»ng khá, ngà y cà ng giữ vai trò quan trá»ng trong cÆ¡ cấu kinh tế Thủ ÄÃŽ.";
String khText = "áá¶áá»áá·ááá·ááá¶ááááááááá¶áááá ááááááŸá¢ááááá¶ááá¶ááá·áááá·ááá»ááááá
ááááá»áá¶áááá¶ááá¶ááááááááá¢ááááŸáá¶ááááŸáá¢ááááááá";
String loText = "àºà»àº²àºàº§àºŽàºà»àºàº±àºà»àºàº±àºàºàº°àºàº²àºàºà»àº¥àºŽàºªàº±àºàºàºœàº§à»àºàºµàº§àºµà»àºàºµà»àºàº.ວີ.àºàºžà»àº¡àºà»àº¥àºŽàºªàº±àºàºàº²àºàºàºŽàº¡àºàºàºàºàº²àº§àºàº±àº.";
String buText = "áá¶ááá¯ážáá¶áá¬áá¬áá¶ááá¯ááºáá¶áááá¯áá¶ááŸáá¯ážáá±á¬áº";
System.out.println(SEANLP.Thai.sentenceSimilarity(thText, thText));
System.out.println(SEANLP.Vietnamese.sentenceSimilarity(viText, viText));
System.out.println(SEANLP.Khmer.sentenceSimilarity(khText, khText));
System.out.println(SEANLP.Lao.sentenceSimilarity(loText, loText));
System.out.println(SEANLP.Burmese.sentenceSimilarity(buText, buText));
}
}
package cn.edu.kmust.seanlp.demo;
import cn.edu.kmust.seanlp.SEANLP;
/**
* å
³é®è¯æœååèªåšæèŠdemo
* @author Zhao Shiyu
*
*/
public class ExtractDemo {
public static void main(String[] args) {
String thDocument = "àžàžµà¹àžàžžà¹àžàžàž§àž£àž£àž°àž¡àž±àžàž£àž°àž§àž±àžàžàž³àžàž¹àžà¹àž¥àž°àžàž€àžàžŽàžàž£àž£àž¡à¹àžàžµà¹àž¢àž§àžàž±àžàžàž±àžàž«àž²àžàž°à¹àž¥àžàžµàžà¹àžà¹ \n"
+ "àžªàž³àžàž±àžàžà¹àž²àž§à¹àž«à¹àžàžàž£àž°à¹àžàžšàžàžµàžàž£àž²àž¢àžàž²àžàž§à¹àž² àžàž²àž¢àž«àž à¹àž«àž¥à¹àž¢ à¹àžàž©àžàžàž£àž°àžàž£àž§àžàžàž²àž£àžà¹àž²àžàžàž£àž°à¹àžàžšàžàžµàžàžàž¥à¹àž²àž§à¹àž¡àž·à¹àžàž§àž±àžàžàžµà¹ 19 àž¡àžàž£àž²àžàž¡àž§à¹àž² àžàžµà¹àžàžžà¹àžàžàž§àž£àžàžàžàž³àžàž£àž°àž§àž±àžàžŽàžšàž²àžªàžàž£à¹àžàž²àž£àž£àžžàžàž£àž²àžà¹àž«à¹à¹àž¡à¹àžàž¢àž³ àžªàž³àžàž¶àžàžàžŽàžàžàž¢à¹àž²àžàž¢àžŽà¹àž à¹àž¥àž°àž£àž°àž¡àž±àžàž£àž°àž§àž±àžàžàž³àžàž¹àžà¹àž¥àž°àžàž€àžàžŽàžàž£àž£àž¡à¹àžàžµà¹àž¢àž§àžàž±àžàžàž±àžàž«àž²àžàž°à¹àž¥àžàžµàžà¹àžà¹ \n"
+ "àžàž²àž¢àžàžŽàžà¹àž àžàž²à¹àžàž° àžàž²àž¢àžàž£àž±àžàž¡àžàžàž£àžµàžàžµà¹àžàžžà¹àžàžàž¥à¹àž²àž§à¹àž¡àž·à¹àžàž§àž±àžàžàžµà¹ 18 àž¡àžàž£àž²àžàž¡àž§à¹àž² àžàžµà¹àžàžžà¹àžàžªà¹àžªà¹à¹àžàžàž¢à¹àž²àžàž¢àžŽà¹àžàžà¹àžàžàž²àž£àžàžµà¹àžàžµàžàžªàž£à¹àž²àžà¹àžàž²àž°à¹àžàžµàž¢àž¡àžàž¥àž²àžàžàž°à¹àž¥àžàžµàžà¹àžà¹ à¹àž¥àž°àžàžàž¥àžàžàžàžžàžà¹àžàžŽàžàžàž£àž±àžàž¢àž²àžàž£àžàž±à¹àžàžà¹àž³àž¡àž±àžà¹àž¥àž°à¹àžà¹àžªàžàž£àž£àž¡àžàž²àžàžŽà¹àžàžàž°à¹àž¥àžàžµàžàžàž°àž§àž±àžàžàžàž à¹àž£àžµàž¢àžàž£à¹àžàžàžàž£àž°àžàž²àžàž¡à¹àž¥àžà¹àžªàžàžàžàž§àž²àž¡à¹àž«à¹àžà¹àžàžµà¹àž¢àž§àžàž±àžà¹àž£àž·à¹àžàžàžàžµà¹àž¡àž²àžàžàž¶à¹àž \n"
+ "àžàž²àž¢àž«àž à¹àž«àž¥à¹àž¢àžàž¥à¹àž²àž§àžà¹àžàžàž²àž£àžàžµà¹àž§à¹àž² àžàž²àž£àžàžžàžà¹àžàžŽàžàžà¹àž³àž¡àž±àžà¹àž¥àž°à¹àžà¹àžªàžàž£àž£àž¡àžàž²àžàžŽàžàžàžàžàžµàž àž¥à¹àž§àžàžàž£àž°àžàž³à¹àžàžà¹àž²àžàžà¹àž³àžàž°à¹àž¥àžàžµà¹àžàž¢àž¹à¹àž àž²àž¢à¹àžà¹àžàž²àž£àžàž§àžàžàžžàž¡àžàžàžàžàžµàžà¹àžàžà¹àžàž¢àžàž£àž²àžšàžàž²àžàžà¹àžàžàž±àžàžàž² àžàžžàžàžªàžŽà¹àžàžàžžàžàžàž¢à¹àž²àžàžàž¢àž¹à¹à¹àžàžàž£àžàžàžàžàžŽàžà¹àžàž¢àžàžàžàžàžµàžà¹àžàž àžàžàž¶à¹àž àžàžµàžàžàž£àžàžàžàžàžŽàžà¹àžàž¢à¹àž«àžàž·àžàž«àž¡àž¹à¹à¹àžàž²àž°àž«àžàž²àžàžàž²à¹àž¥àž°àžà¹àž²àžàžà¹àž³àžàž°à¹àž¥à¹àžàž¢àž£àžàžàžàž¢à¹àž²àžàž¡àžŽàžàž²àžà¹àžà¹à¹àž¢à¹àžà¹àžà¹";
String viDocument = "Äại há»i lần thứ XII của Äảng há»p phiên trù bá»"
+ "NDÄT- Sáng 20-1, Äại há»i Äại biá»u toà n quá»c lần thứ XII của Äảng há»p phiên trù bá», hoà n tất cÃŽng tác chuẩn bá» cần thiết cho phiên khai mạc sẜ diá»
n ra và o 8 giỠsáng 21-1."
+ "Má» Äầu phiên há»p trù bá», Äá»ng chà Lê Há»ng Anh, Ịy viên Bá» ChÃnh trá», ThÆ°á»ng trá»±c Ban Bà thÆ° Trung Æ°Æ¡ng Äảng tuyên bá» lÃœ do."
+ "Äá»ng chà TrÆ°Æ¡ng Tấn Sang, Ịy viên Bá» ChÃnh trá», Chủ tá»ch nÆ°á»c Äiá»u khiá»n phiên há»p. Tiếp Äó, Chủ tá»ch nÆ°á»c TrÆ°Æ¡ng Tấn Sang xin Ãœ kiến Äại há»i thÃŽng qua chÆ°Æ¡ng trình phiên há»p trù bá», thÃŽng qua Quy chế là m viá»c của Äại há»i."
+ "Äại há»i Äã hoà n thà nh các phần viá»c quan trá»ng gá»m: bầu Äoà n Chủ tá»ch, Äoà n thÆ° kÃœ, Ban thẩm tra tÆ° cách Äại biá»u, thÃŽng qua chÆ°Æ¡ng trình là m viá»c của Äại há»i, thÃŽng qua Quy chế bầu cá» của Äại há»i và thÃŽng qua Báo cáo thẩm tra tÆ° cách Äại biá»u."
+ "Buá»i chiá»u, các Äại biá»u nghiên cứu tà i liá»u tại Äoà n."
+ "Ngà y mai 21-1, Äại há»i Äại biá»u toà n quá»c lần thứ XII của Äảng khai mạc tại Trung tâm Há»i nghá» quá»c gia, Hà Ná»i. Äại há»i tiến hà nh từ ngà y 21 Äến 28-1-2016, có nhiá»m vụ Äánh giá viá»c thá»±c hiá»n Nghá» quyết Äại há»i XI của Äảng và nhìn lại chặng ÄÆ°á»ng 30 nÄm Äá»i má»i Äất nÆ°á»c; thảo luáºn, thÃŽng qua Báo cáo ChÃnh trá» của Ban Chấp hà nh Trung Æ°Æ¡ng khóa XI; các báo cáo: Äánh giá kết quả thá»±c hiá»n nhiá»m vụ phát triá»n kinh tế- xã há»i nÄm nÄm 2011-2015 và phÆ°Æ¡ng hÆ°á»ng nhiá»m vụ phát triá»n kinh tế- xã há»i nÄm nÄm 2016- 2020; kiá»m Äiá»m sá»± lãnh Äạo, chá» Äạo của Ban Chấp hà nh Trung Æ°Æ¡ng khóa XI; tá»ng kết thi hà nh Äiá»u lá» Äảng khóa XI và Äá» xuất bá» sung, sá»a Äá»i (nếu có); viá»c thá»±c hiá»n Nghá» quyết T.Ư 4 khóa XI vá» xây dá»±ng Äảng. Äại há»i bầu Ban Chấp hà nh Trung Æ°Æ¡ng khóa XII. Chủ Äá» của Äại há»i là TÄng cÆ°á»ng xây dá»±ng Äảng trong sạch, vững mạnh; phát huy sức mạnh toà n dân tá»c và dân chủ xã há»i chủ nghÄ©a; Äẩy mạnh toà n diá»n, Äá»ng bá» cÃŽng cuá»c Äá»i má»i; bảo vá» vững chắc Tá» quá»c, giữ vững mÃŽi trÆ°á»ng hòa bình, á»n Äá»nh; phấn Äấu sá»m ÄÆ°a nÆ°á»c ta cÆ¡ bản trá» thà nh nÆ°á»c cÃŽng nghiá»p theo hÆ°á»ng hiá»n Äại."
+ "Tham dá»± Äại há»i XII có 1510 Äại biá»u, Äại diá»n cho hÆ¡n 4,5 triá»u Äảng viên, trong Äó Äại biá»u ÄÆ°Æ¡ng nhiên có 197 Äá»ng chà là Ịy viên Trung Æ°Æ¡ng chÃnh thức và dá»± khuyết khóa XI; 1300 Äại biá»u Äược bầu tại các Äại há»i Äảng bá» trá»±c thuá»c Trung Æ°Æ¡ng; 13 Äại biá»u chá» Äá»nh. CÃŽng tác chuẩn bá» Äại há»i Äã Äược Ban Chấp hà nh Trung Æ°Æ¡ng, trá»±c tiếp là Bá» ChÃnh trá», Ban Bà thÆ° chá» Äạo chặt chẜ, Äến nay Äã hoà n tất.";
String loDocument = "àºàº°àºàº²àºâàºàº°âà»àºàºâàºàºµàºâà»àº¥àºµà»âມຢà»àºœàº¡àº¢àº²àº¡âàºàº²âàºàºžâàºàºŽàºàºàº²àº£àº±àºàºàºµ \n"
+ "à»àº§àº¥àº² 13:35 âà»àº¡àºâàºàºàºâວັàºâàºàºµ 19 ມັàºàºàºàºâàºàºµà»âàºàº²àº¡âà»àº§àº¥àº²âàºà»àºàºâàºàºŽà»àº, àºà»àº²àºâ ສີâàºàºµà»âàºàºàºŽâຠàºàº°àºàº²àºâàºàº°âà»àºàºâàºàºµàºâà»àºà»âà»àºàºµàºàºàº²àºâà»àºâຮàºàºâສະà»àº²àº¡âàºàºŽàºâສາàºàº»àºàºàº°àºªàº±àºâàºàº²âà»àº¥àº±àºâàºàºµà»âàºàº°àºàºàºàº«àºŒàº§àºàº¥àºµâàºàº±àºâàºà»àº§àºâàºàº»àºâàºàºŽâà»àºªàº âà»àºàº·à»àºâຢà»àºœàº¡àº¢àº²àº¡âàºàº²âàºàºžâàºàºŽàºàºàº²àº£àº±àºàºàºµàºàº²âàºàº¥àº±àºàºàº°àºàºŽàº. \n"
+ "àºà»àº²àº ສີâàºàºŽà»àºàºàºŽâຠàºàºµà»âàºàºàºâວà»àº², àºàº²âàºàºžâàºàºŽàºàºàº²àº£àº±àºàºàºµâà»àº¡à»àºâàºàº°âà»àºàºâàºàº²àº£àº±àºâà»àº¥àº°âàºàºŽàºªàº¥àº²àº¡âàºàºµà»âà»àº«àºà», âà»àº¥àº°âàºà»âà»àº¡à»àºâສະມາâàºàºŽàºàºàºµà»àºªàº³àºàº±àºâàºàºàºâàºàºžà»àº¡ 20 àºàº°âà»àºàº. àºàº±àºâà»àºà»âàºàºµàºâàºàº±àºâàºàº²âàºàºžâàºàºŽàºàºàº²àº£àº±àºàºàºµâສà»àº²àºàºªàº²âàºàºàº»àº§àºàº±àºâàºàº²àºâàºàº¹àºâàºàº³âàºàº±àºâà»àºàº±àºâà»àº§àº¥àº² 26 àºàºµâມາâàºàºµà», àºàº²àºâàºàº»àº§àºàº±àºâລະຫວà»àº²àºâສàºàºâàºà»àº²àºâà»àºà»âຮັàºâàºàº²àºâàºàº±àºàºàº°àºàº²âà»àºàºâàºà»àº²àº§âàºàº°âà»àºàº âà»àºàºâມີâàºàº§àº²àº¡âà»àº§à»âà»àºàº·à»àºâà»àºàº·à»àºâà»àºâàºàº±àºâàºà»àº²àºâàºàº²àºâà»àº¡àº·àºàºâàºàº±àºâມືà»âàºàº±àºâà»àº¥àºŽàºâà»àºàºŽà»àº, àºàº²àºâຮà»àº§àº¡âມືâà»àºâàºàºžàºâàºàº»àºâà»àºàºââà»àºà»âຮັàºâà»àº²àºàºàº»àºâàºàºµà»âàºàºžàºàº»àº¡àºªàº»àº¡àºàº¹àº âàºàº±àºà»àºà»âàºàº³àº¡àº²âà»àºàºŽà»àºàºàº§àº²àº¡àºàº²àºªàºžàºàºàºµà»à»àº«àºà»àº«àºŒàº§àºâà»àºà»âàºàº°àºàº²àºàº»àºâສàºàºâàºàº°âà»àºàº. âà»àºâà»àº¥àºàº°âຢà»àºœàº¡àº¢àº²àº¡âàºàº±à»àºàºàºµà», àºà»àº²àºàº°âà»àºàº»à»àº²àºàº°âຮà»àº§àº¡âàºàº±àºâສົມâà»àºàº±àºâ âà»àº¡âຮາມâà»àº¡àº±àº àºàºŽàº àºàº²ââà»àº¥àºµàº¡àº²àº âà»àºàº·à»àºâà»àº¥àºàºà»àºœàºâàºàº§àº²âມàºàºŽàºâà»àº«àº±àºâàºà»àºœàº§âàºàº±àºâàºàº²àºâàºàº»àº§àºàº±àºâສàºàºâàºà»àº²àºâàºà»àºàº¡âàºà»àº§àºâàºàº±àºàº«àº²âສາàºàº»àºâà»àº¥àº°âàºàº²àºâàºàº·à»àºâàºàºµà»âສົàºâà»àºàº®à»àº§àº¡âàºàº±àº, âà»àº¥àº°âà»àºàº·à»àºâàºàºžàºàºàº¹à»âສາàºâàºàº»àº§àºàº±àºâມຎâàºàºàº°àºàº²àºâà»àº¥àº°âàºàº²àºâຮà»àº§àº¡âມືâລະຫວà»àº²àºâàºàºµàºâ-âàºàº²âàºàºžâàºàºŽàºàºàº²àº£àº±àºàºàºµâà»àº«à»âàºàº±àºàºàº°àºàº²âວà»àºàºà»àº§âà»àº¥àº°âà»àº«àºà»àº«àºŒàº§àºâàºàº§à»àº²âà»àºàº»à»àº². àºà»àº²àºàº°âà»àºàº»à»àº²âà»àºàº·à»àºâà»àº±à»àºàº§à»àº², àºàº²àºâຢà»àºœàº¡àº¢àº²àº¡âà»àºàº·à»àºâàºàºµà» àºàº°ââà»àºàº±àº¡âà»àºâàºà»àº§àºââà»àº¡àºàºµâàºàºŽàºâມຎàºàºàº°àºàº²àºâà»àº¥àº°âà»àº²àºàºàº»àºâàºàºµà»âàºàºžàºàº»àº¡àºªàº»àº¡àºàº¹àº âà»àºàºŽà»àºàºàº°âàºà»àº§àºâàºàºžàºàºàº¹à»âàºàº²àºâຮà»àº§àº¡âມືâລະຫວà»àº²àºâສàºàºâàºà»àº²àºâà»àºâàºàºžàºâàºàº»âàºâà»àºàºâàºàº¶à»àºàºªàº¹à»âລະàºàº±àºâà»à»à» àºàº±àºâàºàº°âມີâàºàº»àºâàºàºµâàºà»à»âàºàº²àºâàºàº»àºâລະàºàº±àºâàºàº²àºâຮà»àº§àº¡âມືâລະຫວà»àº²àºâàºàºµàºâàºàº±àºàºàº°âà»àºàºâສະມາàºàºŽàºâà»àºâສະàºàº²âຮà»àº§àº¡àº¡àº·âàºà»àº²àº§à»àºàºµâà»àºàºâà»àº«à»âສູàºâàºàº¶à»àº. \n"
+ "ຫຌັàºàºàº²àºâສຎà»àºàºªàºžàºâàºàº²àºâຢà»àºœàº¡àº¢àº²àº¡âàºàº²âàºàºžâàºàºŽàºàºàº²àº£àº±àºàºàºµâà»àº¥à»àº§, àºà»àº²àº ສີâàºàºŽà»àºàºàºŽâຠàºàº±àºâàºàº°âà»àºàºµàºâàºàº²àºâà»àºâຢà»àºœàº¡àº¢àº²àº¡ââà»àºàº¢àºŽàºâà»àº¥àº°âàºàºµàº£àº²àºàºàº²àºâລັàºàºàº°àºàºŽàºàºàº·à»àº¡âàºàºµàº. ";
String kmDocument = "á¢ááááâá
ááááâááŒáá
\n "
+ "ááá¡á»áâáááá¶áâ á¢á á á©-á¢á á¡á£ âááááááá¶áâáááááááá¶áâááœáá
áááœáâááááŒáâáá¶áâáááá
áâááŒá
áá¶â ááááá¶áâáááâáááážáážâáá¶áá¢áá·ááááâááááááá·áááá¶â áá·áâááááá
âááááá·ááááá·âááááá¶ááâááááŸááá¶áâáááááááááâáááá¶áâááááá¶ááâáááááâ áá·áááá¶â áááááááá¶áâáááážáážâáá¶áá¶âáá»áá¶áâáááááážâáá
âáááááâáá·áááá¶â áá·áâáá¶áâáááááá¢âáááááá·áážáá·áááá¶âáâááááááááâáá·áááá¹ááá¶áâááááŒááááááâ ááŸáá»ááá·áááá¶âááá·ááá·áááá¶âáá·áâáá·áááá¶áá¶áááááâááááŒáâáá¶áâáááá
áâá âáááááá·áážâáááá·áâáážáá·áâáá
áá
áááá·áááá¶â áááááá¶áâ áá·áâáááá
áááâááááŒáâáá¶áâá¢áá»áááâ áá·áâááááááá¶áâááááá¶áááâáá
âááááááá·áááá¶âáááá»áâáááá
áâáá¶âááá
áááážâáááá¶áá \n"
+ "áá¶áá
áŒáááá âáá·áâáá»ááá¶áâáá
âááááá·áâáááâáá¶áâáá¶áááááááááœáâáá·á
ááœá
âá âá¢áááá¶âááááœáâáááá¶ááâáá¶áâááá
á»áâ áá·á
ááœá
âááá»ááááâá¢áááá¶âááááááâáá¶ááá·áááá¶âáá·ááá¶áâááááááááœáááâá âáá·áááâáá¶áá
áááŸâááá¶áâááááŸáááŸáâááâáá»ááá·áááá¶â áá·áááá¶áá¶áááááâáá·áâá âáááááá¶ááá¶âáááááâ áá»ááá¶áâáá
âááááá·áâáááâáá·áâáá¶ááâá¢á¶á
âáá¶áááááâáá¶áâáá
âá¡áŸáâ ááááá¶áâáá»ááá¶ááâáá¶áâááááŸâáááááâáá¶áâáááááâáááá¶ááâáá¶áá·âáá
âáááá¶ááááž á¡á¢âá âá¢á¶á á¶ááŒáááááâáá¶áâáááááâáá¶âááááá¶ááâáááá¶áâá áá·áááâáá¶áâáááœáâáááá¶áâááŸâáá»ááá·áááá¶âááá·ááá·áááá¶âáá·áâáá·áááá¶áá¶ááááá âáážâáááááá·áážâáááááœáâááážááâá¢áŒá¢áŒá¡á¶ááááá¶áâ áá·áâáááááá·áážâáááááœáâá¢áááááá¶áá·âááááááâáááâá \n"
+ "ááááááááâáá¶ááááááâ áááá¶áááá¶áá·âááááŒáâáá¶áâáá¶ááá±ááâá¢áá»ááááâáá·áâáá¶áâááá·áá¶âááááá¶ááâááááŸááá¶áâá áá¶ááááá¡áâáááá¶áááá¶áá·âáá
âáááá¶ááâáážâ á© âáá·áâááž âá¡á¢â ááááŒáâáá¶áâá¢áá»ááááâáá¶âááááá¶ááâá \n"
+ "á
áááœáâá¢áá»áá·áááá¶áááâ áá·áâáá·áááá¶áááâáá¶áâááŸáá¡áŸáâá âáá¶áá¶âáááááâáá·áááá¶âáááááŒáá·â á¥á âáá¶áááâ âáá¶áâá¢áá·ááááâáá
âáá¶âáá¶áá¶âáááááâáá·áááá¶âáá»áá·áááŒáá·âá âáááááááááâáááá¶áâáá
âáááááâáá·áááá¶âááááŒáâáá¶áâáááá¶áâáá
âáááááâáá¶ááá¶ááž âáááááâá âáá¶áá¶âáááááâáá·áááá¶âáááâááŒáá·âá
áááœáâ á¡á€á¡ âáááá»áâáááááâ ášâ áá¶áâááááááâáá»áááááŒáááâá ááááááááâááâáá¶áááááá»áááááá¶áâáá·áâáá·áááá¹ááá¶áâááááŒááááááâ áá¶áá·áááâááááŒááááááâááááá·áâá¢ááááááŒááááá¶áâáá
âáááááááááâááá»ááááááâááŒáá·áá¶áâ áá·áâáá·áááá¶áááá¶áâáá¶áá·âá¢ááááâáááá»áâááááŒáâáá¶áâááááážáâá áá¶ááá¶áâáá·áááá¹ááá¶áâááŸâáá»ááá·áááá¶âááá·ááá·áááá¶âáá·áâáá·áááá¶áá¶ááááá âááâáááá»áâááááážáâáááááâá âáá¶ááâáá¶áá¶âáááááâáá·áááá¶âáá»áá·áááŒáá·âáá¶ááá¢ááâ áá·áâáá¶ááâáá¶áá¶âáááááâáá·áááá¶âáááâááŒáá·âááœáâá
áááœáâáá¶áâáááœáâáá¶áâáááááâáááážáážâ áá¶ááááááááááâáá·áâáá¹ááá¶áâá ááááá¶áâáááá»áâáá
áá
áááááâááâáááááááááâáááá¶áâáá
âáááááâáá·áááá¶âáá·áâááááá¶áâ áá¶ááá¢ááâáá¶áâáááœáâáá¶ááááááâ áááážáážâááááááá¶áâáááááá·áážáá·áááá¶âá áááááááá¶ááá¶áá¶áá»áá¶ááááááážááááŒááá¶áá¢áá»áááááá
áá¶áá¶á
áááœá ášá¢á£ (á¥á ,á§á€ áá¶áááâááâáá¶áá¶âáááááâáá·áááá¶âáááááŒáá·â)á \n"
+ "áááá á¶âáááááâáááâáá¶ááá»áâááºâ áá¶ááááááŸáâáááááâáááá»ááá¶áâá
áŒááááâáá
âááááááá·áááá¶â áá¶ááááâáááááŸáâá
áááœáâáá¶áá¶âáááááâáá·áááá¶âáááâááŒáá·âá±áááá¶áâááááááá»áâ ááááá¶ááâáá·ááá·áááá¶áááâáá
âááááááááá»áâ ááááâá áá»ááá¶áâááááâáá·áááâáááá
ááâáááá¶ááááž âá¡á¢â ááááŒáâááŸáâááááááâ áá·áâáááááâááŒáâá
áááááá¹áâáá¶áááááááâááááááâ ááááá¶ááâáá¶áá¢ááááâáá
áá
áááááâ áá·áááá¶áážáá âáá·áâá§áááááá·áááá¶âá âáá¶áá¶âáááááâáá·áááá¶âáá¶áá
áááŸáâ áá¶áá·áááâáá
âáááááâááááâáááááá¶áâáá¶áá»âá
áŒáâáááâáá¶ááá»ááá¶áâááŒá
áá¶â ááááŒááááááâáá¶ááá»ááá·áááᶠâááááá¶ááâááááááâáá·áâáááá¿áâááá·áááá¶áâ ááááá
âáá·áááá¶áááâ áááááááá·áááâáá·áááá¶áá¶áááááâ ááááááâáá»áááááŒáááâáá·áâáá¶áá¶â áá·áâááá·áááá¶áâááááá¶áááâá áá·áážáá¶áááááâáááá»ááá¶áâááááááâáááá»áâááááá
áá
á»ááááááâá¢áá»ááááâáá¶áááááâ áá¶áááááâ á
ááááâáá¶áâ áááááááâ áá·áâáá¶áá
áá
á¶áâáâ áá·áážáá¶áááááâáá¶áááááâááœáâááááŒáâáááá
áŒáâááŒáâáá¶ááá·áâ áá·áâáááá¶ááá·áá¶áâá âááááááá¶áâááááŒááááááâááœáâááááŒáâáá·áá·áááâáá¶ááá¶á áá¶ááááááâ áá·áâá¢áá·ááááâáá¶áááá
á¶áâá \n"
+ "áá¶áá¢ááááâáá
áá
áááááâáá¶âáá»ááá¶áâáááážâááœáâáááá»áâ áááááœáâ áá·áâááŸáááâáá¶áâá¢áá»áááâáááááááá¶áâáááážáážâ áá¶áá¢ááááâáá
áá
áááááâá âáááá»áâáááááááá¶áâáááâáá¶áâááŸáâá¡áŸáâááž âáá¶ááááááŸáâáá·áááá¶áááâá
ááááâááŒáá
âáá·áâ áá
áá
áááááâáá
âáááááâáá¶ááá¶ááž âáááááâá áá¶ááááá
áá
á»ááááááâ áá¶áá¶âáááááâáá·áááá¶âá
ááááááŒáá
âáá·áâáá
áá
áááááâá
áááœááážáâáááá»áâááááŸááá¶á âáá·áâáááááâááŒáâáá»ááá·áááá¶âáááá¶ááâááœáâáâ áá·áááâáááâáááá
ááâáá¶ááá·áááá¶âáá
âáá¶áá¶âáá¶áááááâ á¢á¶á
âáááá¶ááá¶áâáá¶áâá \n"
+ "áááááá·ááž âá¢ááááâáá
áá
áááááâáááâáááá»áâá¢áá»ááááâáá¶ááááá
áá
á»áááááá âáá¶áâááááááá¶áâáá¶ááâááááááááâáá»ááá¶áâáááá¹ááá¶áâ áá·áâáá¶áá»âá
áŒáâáááâáá¶ááá»ááá¶áâá ááááááááâáááœááááá¶ááâáá·áâáááááááááá¶áá¶áá»ááá¶áâáá¶áá¶áááâáá·áâáá¶ááâáá¶áâáááááŸáâ ááááâáá¶ááâáááá¶ááááááâááá¶áâááááááááá¢ááááâáá·áâáážáááá¶áâáá¶ááá¶áâáá
âáá¶áááááá·áâ á âááááááááâááááááááá áááááá¶áâáá·áâá á·ááááááááá»âáá¶áá¶áááâáá·áâáá¶ááâáááááŸáâá áá¶ááá¶áâá¢ááááâáá
áá
áááááâááááŒáâáááááá·áááâáážááááááâáááâá ááááŒâá¢áá·ááááâáá¶á
áááŸáâáá¶áâá
á¶ááá¢á¶ááááááâáá¶ááááâáááâáááááá·áážáááâá";
String buDocument = "ááºá¬áá¬áá¬-ááá¹á±áá«áá¹áž á»ááá¹ááœá¯á¯áá¹ážá»ááá¹áááá¬ážááá¹áž á±áá«áá¹áá¯áá¹ááá¹\n"
+ "ááá¯áá¹áá¯ááá¹áá¶á±áá¬á¹á±áá¬áá¹á
á®ááá¹ ááá¹áá¯á¶ááá¹ ááá¯áá¹-á¡áá¹áá¯ááá®ážááœá¬áž áá°ážá±áá«áá¹áž á±áá¬áá¹áá¯áá¹á±áᬠááºá¬áá¬áá¬-ááá¹á±áá«áá¹áž á»ááá¹ááœá¯áá¹ážá»ááá¹áááá¬áž á
ááá¹ á±áá«áá¹áá¯áá¹á±ááž á¡ááá¹ážá¡áá¬ážáá¯áá ááá¹á±áá¬áá¹ááá¹ áá- ááá¹á±áááᜠáá ááá¹á±ááá¡áá á¡áá¹áá¯ááá®ážááœá¬ážáá¯áá ááá®ážááŒáá¹ááŒá¬ážááá¹ á»áá
á¹á±áŸáá¬áá¹ážá á¡áá¹áá¯ááá®ážááœá¬áž áááŒá ááºáá³áá¯áááá¹ááá¹áž á¡ááá¹ážá¡áá¬ážáá¯áá ááá¹á±áá¬áá¹ááá¹ á»áá
á¹á±áŸáá¬áá¹ážá ááá¹ážááá¬ážááá¹ážááá¹ á¡áá¹áá¯ááá®ážááœá¬ážá áááá¥á®ážáá¯á¶áž á»ááá¹ááœá¯áá¹ážá»ááá¹áááá¬ážááá¹áž á»áá
á¹á»áá®áž á¡áá¹áá¯ááá®ážááœá¬ážá á¡á±á»ááᶠá¡á±áá¬áá¹á¡á¡á¯á¶ á±áá¬áá¹ážááŒáá¹ á±á
á±áážááœáá¹á á¡á»ááá¹á¡ááœáá¹ ááá¹ááŒáá¹ááœá¯ á¡ááá¹áá¡ááá¹áž áá¯áážá»ááœáá¹áá±áážá¡ááŒáá¹ á¡ááºáá³ážááœáááá¹ á»áá
á¹á±áŸáá¬áá¹áž ááá¯áá¹á»ááá¹áá°áá±ááá
á¥á¹áááá¹ážá
á¬áᜠáááá¹ážá¡á ááááá«ááá¹á"
+ "ááºá¬áá¬áá¬-ááá¹á±áá«áá¹áž á»ááá¹ááœá¯á¯áá¹ážá»ááá¹áááá¬ážááá¹ážááá¹ á
á¯á
á¯á±áá«áá¹áž á¡ááœáá¹ áá®áá¯ááá®áᬠáá
á ááœáá»áá®áž áá
á¹áá¬áá®ááœáºáá¹ á¡á»ááá¹áá¯á¶áž áá®áá¯ááá®áᬠááá áá¯áá¹á±áá¬áá¹ážáá¯ááá¹ááá¹ á»áá
á¹áᬠááá¬ážááá¹áž á±áá«áá¹áá¯áá¹á»áá®ážá±áá¬áá¹ ááºá¬áá¬áá¬áᜠááá¹á±áá«áá¹ážáá¯áá á±áá«áá¹á±áá¬áá¹ááá¹ á¡ááºááá¹ááœá¬ ááá¹ááœá áá¯á¶ážáá¬áá®ááœá±áá á¡á¬áááá¹ áááá
á¹ áá áá±ááºá¬á¹á±á¡á¬áá¹ á»áá
á¹ááŒá¬ážááá¹ á»áá
á¹á±áŸáá¬áá¹ážá ááºá¬áá¬áá¬-ááá¹á±áá«áá¹áž á»ááá¹ááœá¯á¯áá¹ážá»ááá¹áááá¬ážááá¹ážááá¹ á¡áá¹áá¯ááá®ážááœá¬ážáá¯ááá¹áá¶áᬠáá á¡á±ááœáá±áá¬áá¹á¡á¬ááœá±ááááŒáá¹ áááá¥á®ážáá¯á¶áž á»ááá¹ááœá¯áá¹ážá»ááá¹áááá¬ážááá¹áž á»áá
á¹ááá¹ á»áá
á¹á±áŸáá¬áá¹ážá á»ááá¹ááœá¯áá¹ážá»ááá¹áááá¬ážááá¹áž á±áá«áá¹áá¯áá¹á»ááá¹ážááá¹ á¡áá¹áá¯ááá®ážááœá¬ážáá¯ááá¹áá¶á¡ááŒáá¹ ááœá
á¹á
á¥á¹ á¡áá¯áá¹á¡áá¯ááá¹á±ááᬠá á±áá¬áá¹ážá±ááºá¬á¹áá¯á á¡áá
á¹ ááá¹áá®ážá±áážááá¹ á»áá
á¹á»áá®áž ááá¬ážááá¹áž áá±ááœáºá¬áá¹á á±ááááºá¬ážááŒáá¹ á
á®ážááŒá«ážá±ááž áááá¹ááá¯ááž ááŒá¶áá»ááá³ážááŒá¬ážááá¹ á»áá
á¹á±áŸáá¬áá¹áž ááááá«ááá¹á"
+ "ááºá¬áá¬áá¬-ááá¹á±áá«áá¹áž á»ááá¹ááœá¯á¯áá¹ážá»ááá¹áááá¬ážááá¹ážááá¹ ááá¯áá¹á»ááá¹á áá¯ááá¹áá¶á»áá¬ážá áá®áá¯ááá¹ážá±áážáá²áŒá»ááá¹ážá á±áá¬áá¹áá¯áá¹á»ááá¹ážá ááá¹ááá¹á»ááá¹ážááœáá¹á á
á®áá¶ááá¹ááá²áŒá»ááá¹áž á»áá
á¹á
á¥á¹ áá
á¹ááá¹áá¯á¶ážááŒáá¹ áá«ááá¹á±áá¬áá¹ááŒáá¹á±áᬠááááá¯á¶ážá±áᬠá»ááá¹ááœá¯áá¹ážá»ááá¹áááá¬ážááá¹áž á»áá
á¹á±áŸáá¬áá¹ážá ááá¯áá¹áá¯ááá¹áá¶ááŒáá¹ ááá»á¬á±ááááŒáá¹ á¡áá¯ááá¹ážá¡áᬠá¡áŸáá®ážáá¬ážáá¯á¶ážá á»ááá¹ááœá¯áá¹áž á¡á»ááá¹ááá¯á¶ážá á¡á±ááá¹áá®áá¯á¶ážá á
á®áá¶ááá¹ááá²áŒááœá¯ á¡á±ááŒáá¡áŸáá¶á³ á¡ááá¹áááºáá¹áá¯á¶ážá±áᬠá»ááá¹ááœá¯áá¹ážá»ááá¹áááá¬ážááá¹áž ááŒáá¹ááá¹ ááœáá»áá®áž ááá¯áá¹á»ááá¹á á»ááá¹ááœá¯áá¹ážá»ááá¹áááá¬ážááá¹ážááºá¬ážááá¹ áá¯ááá¹áá¶ááᬠá
á¶ááºááá¹á
á¶ááœá¯áá¹áž áá¯ááá¹áá®á±áážá¡áá²áŒáá áá¯ááá¹áá¶ááᬠáá®ážááá¬ážáá¯áá¹ááá¹áž á¡áá²áŒáááºá³áá¹áá¯ááá ááá¹ážááᬠá
á¶ááºááá¹á
á¶ááœá¯áá¹ážááœáá¹á ááá¹áž áá¯ááá¹áá®á±áŸáá¬áá¹áž á»ááá¹áá°áá±ááá
á¥á¹áááá¹ážá
á¬ááŒáá¹ á±áážáá¬ážáá¬ážááá¹á";
//å
³é®è¯æå
System.out.println(SEANLP.Thai.extractKeyword(thDocument, 6));
//èªåšæèŠ
System.out.println(SEANLP.Thai.extractSummary(thDocument, 3));
System.out.println(SEANLP.Lao.extractKeyword(loDocument, 6));
System.out.println(SEANLP.Lao.extractSummary(loDocument, 3));
System.out.println(SEANLP.Khmer.extractKeyword(kmDocument, 6));
System.out.println(SEANLP.Khmer.extractSummary(kmDocument, 3));
System.out.println(SEANLP.Vietnamese.extractKeyword(viDocument, 6));
System.out.println(SEANLP.Vietnamese.extractSummary(viDocument, 3));
System.out.println(SEANLP.Burmese.extractKeyword(buDocument, 6));
System.out.println(SEANLP.Burmese.extractSummary(buDocument, 3));
}
}
æ¬é¡¹ç®åèååéŽäºäŒç§åŒæºé¡¹ç®HanLPãåšæ€è¡šç€ºæè°¢ïŒ
æè°¢ææç工倧åŠæºèœä¿¡æ¯å€çéç¹å®éªå®€åäœèåžçæ富ïŒæè°¢ç»ææäŸåž®å©çææ人ïŒè°¢è°¢ïŒ
äœè @Zhao Shiyu