Skip to content

Southeast Asia Natural Language Processing [Thai Vietnamese Khmer Lao Burmese(Myanmar) ]

License

Notifications You must be signed in to change notification settings

zhaoshiyu/SEANLP

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

77 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

SEANLP: Southeast Asia Natural Language Processing

䞜南亚语蚀信息倄理

SEANLP目前有以䞋功胜

  • 泰语

    • TCCThai Character Cluster切分
    • 音节切分
    • 层叠条件随机场分词
    • 单层条件随机场分词
    • 词兞极速分词
    • 词兞正向最长匹配分词
    • 词兞逆向最长匹配分词
    • 词兞正向最短匹配分词
    • 词兞逆向最短匹配分词
    • 词性标泚
    • 句子盞䌌床计算
    • 关键词抜取
    • 自劚摘芁
  • 越南语

    • 条件随机场分词
    • 词兞极速分词
    • 词兞正向最长匹配分词
    • 词兞逆向最长匹配分词
    • 词兞正向最短匹配分词
    • 词兞逆向最短匹配分词
    • 词性标泚
    • 句子盞䌌床计算
    • 关键词抜取
    • 自劚摘芁
  • 柬埔寚语高棉语

    • KCC切分
    • 条件随机场分词
    • 词兞极速分词
    • 词兞正向最长匹配分词
    • 词兞逆向最长匹配分词
    • 词兞正向最短匹配分词
    • 词兞逆向最短匹配分词
    • 词性标泚
    • 句子盞䌌床计算
    • 关键词抜取
    • 自劚摘芁
  • 老挝语

    • 词兞极速分词
    • 词兞正向最长匹配分词
    • 词兞逆向最长匹配分词
    • 词兞正向最短匹配分词
    • 词兞逆向最短匹配分词
    • 词性标泚
    • 句子盞䌌床计算
    • 关键词抜取
    • 自劚摘芁
  • 猅甞语

    • 音节切分
    • 条件随机场分词
    • 词兞极速分词
    • 词兞正向最长匹配分词
    • 词兞逆向最长匹配分词
    • 词兞正向最短匹配分词
    • 词兞逆向最短匹配分词
    • 句子盞䌌床计算

诎明

  1. 什么是TCC (Thai Character Cluster)借甚Wittawat Jitkrittum的及䞀种TCC切分实现䞭的解释proposed in Character Cluster Based Thai Information Retrieval is a group of inseparable Thai characters. This inseparability derives from Thai writing system which is independent of any context. As a result, TCC can be determined by a simple list of rules describing e.g., what characters need to follow/precede other characters.

  2. 泰语TCC和高棉语KCC切分䜿甚规则+正则衚蟟匏实现效率蟃䜎泰语TCC切分可参考Wittawat Jitkrittum的及䞀种实现。

  3. 泰语单层条件随机场分词暡型比层叠条件随机场分词暡型倧埈倚需芁埈倧的内存才胜运行-Xmx>2G。

  4. 猅甞语音节切功胜䞭由于音节词兞䞭存圚䞍同的猖码和字库䞍同的猖码和字库乊写顺序存圚区别所甚猅甞语音节切分目前基本䞍胜甚。

  5. 猅甞语没有词性标泚功胜所有猅甞语关键词抜取也存圚问题。

  6. 分词䞭层叠条件随机场效果最奜最短匹配分词效果最差。

  7. 停甚词䞍借党䞻芁包含了泰语和越南语的停甚词。

䞋蜜

方法䞀、盎接䞋蜜源码猖译

可以自己接䞋蜜本项目源码进行打包

wget https://github.com/zhaoshiyu/SEANLP/archive/master.zip
unzip master.zip
cd SEANLP-master
mvn clean package -Dmaven.test.skip=true

或者git clone本项目

git clone https://github.com/ZhaoShiyu/SEANLP.git
cd SEANLP
mvn clean package -Dmaven.test.skip=true

泚意歀倄䞋蜜的源码䞭䞍包含泰语单层条件随机场分词暡型需芁完敎暡型请甚方法二。

方法二、䞋蜜jar

䞋蜜SEANLP-1.1.0.jar, 或者䜿甚seanlp-1.1.0-sources.jar䞭的暡型。

调甚

SEANLP所有的功胜郜可以通过工具类SEANLP进行调甚。调甚栌匏䞺SEANLP.语蚀.功胜。

内存芁求

单层条件随机场泰语分词暡型埈倧需芁-Xmx>2G

Demo

demo可以参考䞋列䜍眮
1. 分词和词性标泚
2. 句子盞䌌床计算
3. 关键词抜取和自劚摘芁

1、分词和词性标泚

package cn.edu.kmust.seanlp.demo;

import cn.edu.kmust.seanlp.SEANLP;

/**
 * 分词demo
 * @author Zhao Shiyu
 *
 */
public class SegmentDemo {
	public static void main(String[] args) {
		//泰语分词
		String thText = "àž„àž§àž²àž¡àžªàž±àž¡àžžàž±àž™àž˜à¹Œà¹ƒàž™àž—àž²àž‡à¹€àžšàž£àž©àžàžàžŽàžˆàžàž±àžšàž£àž°àžšàžšàž„àž§àž²àž¡àžªàž±àž¡àžžàž±àž™àž˜à¹Œàž—àž²àž‡àžàžŽàž«àž¡àž²àž¢";
		System.out.println(SEANLP.Thai.syllableSegment(thText));
		System.out.println(SEANLP.Thai.dCRFSegment(thText));
		//System.out.println(SEANLP.Thai.gCRFSegment(thText));
		System.out.println(SEANLP.Thai.datSegment(thText));
		System.out.println(SEANLP.Thai.maxSegment(thText));
		System.out.println(SEANLP.Thai.minSegment(thText));
		System.out.println(SEANLP.Thai.reMaxSegment(thText));
		System.out.println(SEANLP.Thai.reMinSegment(thText));
		
		//越南语分词
		String viText = "Hệ thống tín dụng - ngân hàng cÅ©ng tăng trưởng khá, ngày càng giữ vai trò quan trọng trong cÆ¡ cấu kinh tế Thủ Ä‘ÃŽ.";
		System.out.println(SEANLP.Vietnamese.crfSegment(viText));
		System.out.println(SEANLP.Vietnamese.datSegment(viText));
		System.out.println(SEANLP.Vietnamese.maxSegment(viText));
		System.out.println(SEANLP.Vietnamese.minSegment(viText));
		System.out.println(SEANLP.Vietnamese.reMaxSegment(viText));
		System.out.println(SEANLP.Vietnamese.reMinSegment(viText));
		
		//柬埔寚语高棉语分词
		String khText = "ធាតុពិតនិងការបន្ដគំរាមកំហែងមកលសអ្នកការពារសិទ្ធិមនុស្សនៅកម្ពុជា។របាយការណ៍នេះផ្អែកលសការស៊សបអង្កេតតែ";
		System.out.println(SEANLP.Khmer.crfSegment(khText));
		System.out.println(SEANLP.Khmer.datSegment(khText));
		System.out.println(SEANLP.Khmer.maxSegment(khText));
		System.out.println(SEANLP.Khmer.minSegment(khText));
		System.out.println(SEANLP.Khmer.reMaxSegment(khText));
		System.out.println(SEANLP.Khmer.reMinSegment(khText));
		
		//老挝语分词
		String loText = "ທ່ານວຎນເຄັນເປັນປະທານບໍລຎສັດອຜວເຊີວີເອີແອນ.ວີ.ກພ່ມບໍລຎສັດການພຎມຂອງຊາວດັດ.";
		System.out.println(SEANLP.Lao.datSegment(loText));
		System.out.println(SEANLP.Lao.maxSegment(loText));
		System.out.println(SEANLP.Lao.minSegment(loText));
		System.out.println(SEANLP.Lao.reMaxSegment(loText));
		System.out.println(SEANLP.Lao.reMinSegment(loText));
		
		//猅甞语分词
		String buText = "ကံဆိုသကံဇာတာကံထိုက်ကံနခိုကံနဟိုသဆော်";
		System.out.println(SEANLP.Burmese.datSegment(buText));
		System.out.println(SEANLP.Burmese.maxSegment(buText));
		System.out.println(SEANLP.Burmese.minSegment(buText));
		System.out.println(SEANLP.Burmese.reMaxSegment(buText));
		System.out.println(SEANLP.Burmese.reMinSegment(buText));
		System.out.println(SEANLP.Burmese.syllableSegment(buText));
	}
}

2、句子盞䌌床计算

package cn.edu.kmust.seanlp.demo;

import cn.edu.kmust.seanlp.SEANLP;

/**
 * 句子盞䌌床计算demo
 * @author Zhao Shiyu
 *
 */
public class SimilarityDemo {
	public static void main(String[] args) {
		String thText = "àž„àž§àž²àž¡àžªàž±àž¡àžžàž±àž™àž˜à¹Œà¹ƒàž™àž—àž²àž‡à¹€àžšàž£àž©àžàžàžŽàžˆàžàž±àžšàž£àž°àžšàžšàž„àž§àž²àž¡àžªàž±àž¡àžžàž±àž™àž˜à¹Œàž—àž²àž‡àžàžŽàž«àž¡àž²àž¢";
		String viText = "Hệ thống tín dụng - ngân hàng cÅ©ng tăng trưởng khá, ngày càng giữ vai trò quan trọng trong cÆ¡ cấu kinh tế Thủ Ä‘ÃŽ.";
		String khText = "ធាតុពិតនិងការបន្ដគំរាមកំហែងមកលសអ្នកការពារសិទ្ធិមនុស្សនៅកម្ពុជា។របាយការណ៍នេះផ្អែកលសការស៊សបអង្កេតតែ";
		String loText = "ທ່ານວຎນເຄັນເປັນປະທານບໍລຎສັດອຜວເຊີວີເອີແອນ.ວີ.ກພ່ມບໍລຎສັດການພຎມຂອງຊາວດັດ.";
		String buText = "ကံဆိုသကံဇာတာကံထိုက်ကံနခိုကံနဟိုသဆော်";
		System.out.println(SEANLP.Thai.sentenceSimilarity(thText, thText));
		System.out.println(SEANLP.Vietnamese.sentenceSimilarity(viText, viText));
		System.out.println(SEANLP.Khmer.sentenceSimilarity(khText, khText));
		System.out.println(SEANLP.Lao.sentenceSimilarity(loText, loText));
		System.out.println(SEANLP.Burmese.sentenceSimilarity(buText, buText));
	}
}

3、关键词抜取䞎自劚摘芁

package cn.edu.kmust.seanlp.demo;

import cn.edu.kmust.seanlp.SEANLP;

/**
 * 关键词抜取和自劚摘芁demo
 * @author Zhao Shiyu
 *
 */
public class ExtractDemo {
	public static void main(String[] args) {
		String thDocument = "àžàžµà¹ˆàž›àžžà¹ˆàž™àž„àž§àž£àž£àž°àž¡àž±àž”àž£àž°àž§àž±àž‡àž„àž³àžžàž¹àž”à¹àž¥àž°àžžàž€àž•àžŽàžàž£àž£àž¡à¹€àžàžµà¹ˆàž¢àž§àžàž±àžšàž›àž±àžàž«àž²àž—àž°à¹€àž¥àžˆàžµàž™à¹ƒàž•à¹‰ \n"
				+ "àžªàž³àž™àž±àžàž‚à¹ˆàž²àž§à¹àž«à¹ˆàž‡àž›àž£àž°à¹€àž—àžšàžˆàžµàž™àž£àž²àž¢àž‡àž²àž™àž§à¹ˆàž² àž™àž²àž¢àž«àž‡ à¹€àž«àž¥à¹ˆàž¢ à¹‚àž†àž©àžàžàž£àž°àž—àž£àž§àž‡àžàž²àž£àž•à¹ˆàž²àž‡àž›àž£àž°à¹€àž—àžšàžˆàžµàž™àžàž¥à¹ˆàž²àž§à¹€àž¡àž·à¹ˆàž­àž§àž±àž™àž—àžµà¹ˆ 19 àž¡àžàž£àž²àž„àž¡àž§à¹ˆàž² àžàžµà¹ˆàž›àžžà¹ˆàž™àž„àž§àž£àžˆàž”àžˆàž³àž›àž£àž°àž§àž±àž•àžŽàžšàž²àžªàž•àž£à¹Œàžàž²àž£àž£àžžàžàž£àž²àž™à¹ƒàž«à¹‰à¹àž¡à¹ˆàž™àž¢àž³ àžªàž³àž™àž¶àžàžœàžŽàž”àž­àž¢à¹ˆàž²àž‡àž¢àžŽà¹ˆàž‡ à¹àž¥àž°àž£àž°àž¡àž±àž”àž£àž°àž§àž±àž‡àž„àž³àžžàž¹àž”à¹àž¥àž°àžžàž€àž•àžŽàžàž£àž£àž¡à¹€àžàžµà¹ˆàž¢àž§àžàž±àžšàž›àž±àžàž«àž²àž—àž°à¹€àž¥àžˆàžµàž™à¹ƒàž•à¹‰ \n"
				+ "àž™àž²àž¢àžŠàžŽàž™à¹‚àž‹ àž­àž²à¹€àžšàž° àž™àž²àž¢àžàž£àž±àžàž¡àž™àž•àž£àžµàžàžµà¹ˆàž›àžžà¹ˆàž™àžàž¥à¹ˆàž²àž§à¹€àž¡àž·à¹ˆàž­àž§àž±àž™àž—àžµà¹ˆ 18 àž¡àžàž£àž²àž„àž¡àž§à¹ˆàž² àžàžµà¹ˆàž›àžžà¹ˆàž™àžªà¹ƒàžªà¹ˆà¹ƒàžˆàž­àž¢à¹ˆàž²àž‡àž¢àžŽà¹ˆàž‡àž•à¹ˆàž­àžàž²àž£àž—àžµà¹ˆàžˆàžµàž™àžªàž£à¹‰àž²àž‡à¹€àžàž²àž°à¹€àž—àžµàž¢àž¡àžàž¥àž²àž‡àž—àž°à¹€àž¥àžˆàžµàž™à¹ƒàž•à¹‰ à¹àž¥àž°àž—àž”àž¥àž­àž‡àžšàžžàžà¹€àžšàžŽàžàž—àž£àž±àžžàž¢àž²àžàž£àž—àž±à¹‰àž‡àž™à¹‰àž³àž¡àž±àž™à¹àž¥àž°à¹àžà¹Šàžªàž˜àž£àž£àž¡àžŠàž²àž•àžŽà¹ƒàž™àž—àž°à¹€àž¥àžˆàžµàž™àž•àž°àž§àž±àž™àž­àž­àž à¹€àž£àžµàž¢àžàž£à¹‰àž­àž‡àž›àž£àž°àžŠàž²àž„àž¡à¹‚àž¥àžà¹àžªàž”àž‡àž„àž§àž²àž¡à¹€àž«à¹‡àž™à¹€àžàžµà¹ˆàž¢àž§àžàž±àžšà¹€àž£àž·à¹ˆàž­àž‡àž™àžµà¹‰àž¡àž²àžàž‚àž¶à¹‰àž™ \n"
				+ "àž™àž²àž¢àž«àž‡ à¹€àž«àž¥à¹ˆàž¢àžàž¥à¹ˆàž²àž§àž•à¹ˆàž­àžàž²àž£àž™àžµà¹‰àž§à¹ˆàž² àžàž²àž£àžšàžžàžà¹€àžšàžŽàžàž™à¹‰àž³àž¡àž±àž™à¹àž¥àž°à¹àžà¹Šàžªàž˜àž£àž£àž¡àžŠàž²àž•àžŽàž‚àž­àž‡àžˆàžµàž™ àž¥à¹‰àž§àž™àžàž£àž°àž—àž³à¹ƒàž™àž™à¹ˆàž²àž™àž™à¹‰àž³àž—àž°à¹€àž¥àž—àžµà¹ˆàž­àž¢àž¹à¹ˆàž àž²àž¢à¹ƒàž•à¹‰àžàž²àž£àž„àž§àžšàž„àžžàž¡àž‚àž­àž‡àžˆàžµàž™à¹€àž­àž‡à¹‚àž”àž¢àž›àž£àž²àžšàžˆàž²àžàž‚à¹‰àž­àžàž±àž‡àž‚àž² àž—àžžàžàžªàžŽà¹ˆàž‡àž—àžžàžàž­àž¢à¹ˆàž²àž‡àž­àž¢àž¹à¹ˆà¹ƒàž™àžàž£àž­àžšàž­àž˜àžŽàž›à¹„àž•àž¢àž‚àž­àž‡àžˆàžµàž™à¹€àž­àž‡ àž­àž™àž¶à¹ˆàž‡ àžˆàžµàž™àž„àž£àž­àž‡àž­àž˜àžŽàž›à¹„àž•àž¢à¹€àž«àž™àž·àž­àž«àž¡àž¹à¹ˆà¹€àžàž²àž°àž«àž™àž²àž™àž‹àž²à¹àž¥àž°àž™à¹ˆàž²àž™àž™à¹‰àž³àž—àž°à¹€àž¥à¹‚àž”àž¢àž£àž­àžšàž­àž¢à¹ˆàž²àž‡àž¡àžŽàž­àž²àžˆà¹‚àž•à¹‰à¹àž¢à¹‰àž‡à¹„àž”à¹‰";

		String viDocument = "Đại hội lần thứ XII của Đảng họp phiên trù bị"
				+ "NDĐT- Sáng 20-1, Đại hội đại biểu toàn quốc lần thứ XII của Đảng họp phiên trù bị, hoàn tất cÃŽng tác chuẩn bị cần thiết cho phiên khai mạc sẜ diễn ra vào 8 giờ sáng 21-1."
				+ "Mở đầu phiên họp trù bị, đồng chí Lê Hồng Anh, Ịy viên Bộ Chính trị, Thường trá»±c Ban Bí thÆ° Trung Æ°Æ¡ng Đảng tuyên bố lÃœ do."
				+ "Đồng chí TrÆ°Æ¡ng Tấn Sang, Ịy viên Bộ Chính trị, Chủ tịch nước điều khiển phiên họp. Tiếp đó, Chủ tịch nước TrÆ°Æ¡ng Tấn Sang xin Ãœ kiến Đại hội thÃŽng qua chÆ°Æ¡ng trình phiên họp trù bị, thÃŽng qua Quy chế làm việc của Đại hội."
				+ "Đại hội đã hoàn thành các phần việc quan trọng gồm: bầu Đoàn Chủ tịch, Đoàn thÆ° kÃœ, Ban thẩm tra tÆ° cách đại biểu, thÃŽng qua chÆ°Æ¡ng trình làm việc của Đại hội, thÃŽng qua Quy chế bầu cá»­ của Đại hội và thÃŽng qua Báo cáo thẩm tra tÆ° cách đại biểu."
				+ "Buổi chiều, các đại biểu nghiên cứu tài liệu tại đoàn."
				+ "Ngày mai 21-1, Đại hội đại biểu toàn quốc lần thứ XII của Đảng khai mạc tại Trung tâm Hội nghị quốc gia, Hà Nội. Đại hội tiến hành từ ngày 21 đến 28-1-2016, có nhiệm vụ đánh giá việc thá»±c hiện Nghị quyết Đại hội XI của Đảng và nhìn lại chặng đường 30 năm đổi mới đất nước; thảo luận, thÃŽng qua Báo cáo Chính trị của Ban Chấp hành Trung Æ°Æ¡ng khóa XI; các báo cáo: đánh giá kết quả thá»±c hiện nhiệm vụ phát triển kinh tế- xã hội năm năm 2011-2015 và phÆ°Æ¡ng hướng nhiệm vụ phát triển kinh tế- xã hội năm năm 2016- 2020; kiểm điểm sá»± lãnh đạo, chỉ đạo của Ban Chấp hành Trung Æ°Æ¡ng khóa XI; tổng kết thi hành Điều lệ Đảng khóa XI và đề xuất bổ sung, sá»­a đổi (nếu có); việc thá»±c hiện Nghị quyết T.Ư 4 khóa XI về xây dá»±ng Đảng. Đại hội bầu Ban Chấp hành Trung Æ°Æ¡ng khóa XII. Chủ đề của Đại hội là Tăng cường xây dá»±ng Đảng trong sạch, vững mạnh; phát huy sức mạnh toàn dân tộc và dân chủ xã hội chủ nghÄ©a; đẩy mạnh toàn diện, đồng bộ cÃŽng cuộc đổi mới; bảo vệ vững chắc Tổ quốc, giữ vững mÃŽi trường hòa bình, ổn định; phấn đấu sớm đưa nước ta cÆ¡ bản trở thành nước cÃŽng nghiệp theo hướng hiện đại."
				+ "Tham dá»± Đại hội XII có 1510 đại biểu, đại diện cho hÆ¡n 4,5 triệu đảng viên, trong đó đại biểu đương nhiên có 197 đồng chí là Ịy viên Trung Æ°Æ¡ng chính thức và dá»± khuyết khóa XI; 1300 đại biểu được bầu tại các đại hội Đảng bộ trá»±c thuộc Trung Æ°Æ¡ng; 13 đại biểu chỉ định. CÃŽng tác chuẩn bị Đại hội đã được Ban Chấp hành Trung Æ°Æ¡ng, trá»±c tiếp là Bộ Chính trị, Ban Bí thÆ° chỉ đạo chặt chẜ, đến nay đã hoàn tất.";
		
		String loDocument = "ປະທານ​ປະ​ເທດ​ຈີນ​ເລີ່​ມຢ້ຜມຢາມ​ຊາ​ອພ​ດຎດອາຣັບບີ \n"
				+ "ເວລາ 13:35 ​ໂມງ​ຂອງ​ວັນ​ທີ 19 ມັງກອນ​ນີ້​ຕາມ​ເວລາ​ທ້ອງ​ຖຎ່ນ, ທ່ານ​ ສີ​ຈີ້​ນຜຎ​ງ ປະທານ​ປະ​ເທດ​ຈີນ​ໄດ້​ເດີນທາງ​ໄປ​ຮອດ​ສະໜາມ​ບຎນ​ສາກົນກະສັດ​ຄາ​ເລັດ​ທີ່​ນະຄອນຫຌວງລີ​ອັດ​ດ້ວຍ​ຍົນ​ພຎ​ເສດ ​ເພື່ອ​ຢ້ຜມຢາມ​ຊາ​ອພ​ດຎດອາຣັບບີທາ​ງລັດຖະກຎດ. \n"
				+ "ທ່ານ ສີ​ຈຎ້ນຜຎ​ງ ຊີ້​ອອກ​ວ່າ, ຊາ​ອພ​ດຎດອາຣັບບີ​ແມ່ນ​ປະ​ເທດ​ອາຣັບ​ແລະ​ອຎສລາມ​ທີ່​ໃຫຍ່, ​ແລະ​ກໍ​ແມ່ນ​ສະມາ​ຊຎກທີ່ສຳຄັນ​ຂອງ​ກພ່ມ 20 ປະ​ເທດ. ນັບ​ແຕ່​ຈີນ​ກັບ​ຊາ​ອພ​ດຎດອາຣັບບີ​ສ້າງສາ​ຍພົວພັນ​ການ​ທູດ​ນຳ​ກັນ​ເປັນ​ເວລາ 26 ປີ​ມາ​ນີ້, ການ​ພົວພັນ​ລະຫວ່າງ​ສອງ​ຝ່າຍ​ໄດ້​ຮັບ​ການ​ພັດທະນາ​ແບບ​ກ້າວ​ກະ​ໂດດ ​ໂດຍ​ມີ​ຄວາມ​ໄວ້​ເນື້ອ​ເຊື່ອ​ໃຈ​ກັນ​ດ້ານ​ການ​ເມືອງ​ນັບ​ມື້​ນັບ​ເລຎກ​ເຊຎ່ງ, ການ​ຮ່ວມ​ມື​ໃນ​ທພກ​ຂົງ​ເຂດ​​ໄດ້​ຮັບ​ໝາກຜົນ​ທີ່​ອພດົມສົມບູນ ​ອັນໄດ້​ນຳມາ​ເຊຎ່ງຄວາມຜາສພກທີ່ໃຫຍ່ຫຌວງ​ແກ່​ປະຊາຊົນ​ສອງ​ປະ​ເທດ. ​ໃນ​ໄລຍະ​ຢ້ຜມຢາມ​ຄັ້ງນີ້, ຂ້າພະ​ເຈົ້າຈະ​ຮ່ວມ​ກັບ​ສົມ​ເດັດ​ ​ໂມ​ຮາມ​ເມັດ ບຎນ ຊາ​​ເລີມານ ​ເພື່ອ​ແລກປ່ຜນ​ຄວາ​ມຄຎດ​ເຫັນ​ກ່ຜວ​ກັບ​ການ​ພົວພັນ​ສອງ​ຝ່າຍ​ພ້ອມ​ດ້ວຍ​ບັນຫາ​ສາກົນ​ແລະ​ພາກ​ພື້ນ​ທີ່​ສົນ​ໃຈຮ່ວມ​ກັນ, ​ແລະ​ເພື່ອ​ຊພກຍູ້​ສາຍ​ພົວພັນ​ມຎ​ດຕະພາບ​ແລະ​ການ​ຮ່ວມ​ມື​ລະຫວ່າງ​ຈີນ​-​ຊາ​ອພ​ດຎດອາຣັບບີ​ໃຫ້​ພັດທະນາ​ວ່ອງໄວ​ແລະ​ໃຫຍ່ຫຌວງ​ກວ່າ​ເກົ່າ. ຂ້າພະ​ເຈົ້າ​ເຊື່ອ​ໝັ້ນວ່າ, ການ​ຢ້ຜມຢາມ​ເທື່ອ​ນີ້ ຈະ​​ເຕັມ​ໄປ​ດ້ວຍ​​ໄມຕີ​ຈຎດ​ມຎດຕະພາບ​ແລະ​ໝາກຜົນ​ທີ່​ອພດົມສົມບູນ ​ເຊຎ່ງຈະ​ຊ່ວຍ​ຊພກຍູ້​ການ​ຮ່ວມ​ມື​ລະຫວ່າງ​ສອງ​ຝ່າຍ​ໃນ​ທພກ​ຂົ​ງ​ເຂດ​ຂຶ້ນສູ່​ລະດັບ​ໃໝ່ ທັງ​ຈະ​ມີ​ຜົນ​ດີ​ຕໍ່​ການ​ຍົກ​ລະດັບ​ການ​ຮ່ວມ​ມື​ລະຫວ່າງ​ຈີນ​ກັບປະ​ເທດ​ສະມາຊຎກ​ໃນ​ສະພາ​ຮ່ວມມື​ອ່າວເປີ​ເຊຍ​ໃຫ້​ສູງ​ຂຶ້ນ. \n"
				+ "ຫຌັງຈາກ​ສຎ້ນສພດ​ການ​ຢ້ຜມຢາມ​ຊາ​ອພ​ດຎດອາຣັບບີ​ແລ້ວ, ທ່ານ ສີ​ຈຎ້ນຜຎ​ງ ຍັງ​ຈະ​ເດີນ​ທາງ​ໄປ​ຢ້ຜມຢາມ​​ເອຢຎບ​ແລະ​ອີຣານທາງ​ລັດຖະກຎດຕື່ມ​ອີກ. ";
		
		String kmDocument = "អប់រំ​ចំណេះ​ទឌទៅ \n "
				+ "កំឡុង​ឆ្នាំ​ ២០០៩-២០១៣ ​សកម្មភាព​គោលនយោបាយ​មវយចំនវន​ត្រឌវ​បាន​រៀបចំ​ដឌចជា​ ផែនការ​គោល​ស្តឞពឞ​ការអភិវឌ្ឍ​មធ្យមសិក្សា​ និង​សៀវភៅ​ប្រតិបត្តិ​សម្រាប់​ដំណសរការ​មជ្ឈមណ្ឌល​ធនធាន​សម្រាប់​មធ្យម​ សិក្សា​ គោលនយោបាយ​ស្តឞពឞ​សាលា​កុមារ​មេត្រឞ​នៅ​មធ្យម​សិក្សា​ និង​ការ​កែលម្អ​កម្មវិធឞសិក្សា​។​ប្រព័ន្ធ​វិក្រឹតការ​គ្រឌបង្រៀន​ លសមុខវិជ្ជា​គណិតវិទ្យា​និង​វិទ្យាសាស្ត្រ​ត្រឌវ​បាន​រៀបចំ​។ ​កម្មវិធឞ​បំណិន​ជឞវិត​បច្ចេកវិទ្យា​ ព័ត៌មាន​ និង​ទេសចរណ៍​ត្រឌវ​បាន​អនុម័ត​ និង​ស្តង់ដារ​បណ្ណាល័យ​នៅ​មធ្យមសិក្សា​កំពុង​រៀបចំ​ជា​សេចក្តឞ​ព្រាង។ \n"
				+ "ការចឌលរៀន ​និង​គុណភាព​នៅ​កម្រិត​នេះ​មាន​ការប្រែប្រវល​តិចតវច​។ ​អត្រា​ត្រវត​ថ្នាក់​បាន​ថយចុះ​ តិចតវច ​ប៉ុន្តែ​អត្រា​បោះបង់​ការសិក្សា​មិនមាន​ប្រែប្រវលទេ​។ ​សិស្ស​ភាគច្រស​នបាន​ជ្រសសរសស​យក​មុខវិជ្ជា​ វិទ្យាសាស្ត្រ​ពិត​។ ​ទោះយ៉ាងណា​ក៏ដោយ​ គុណភាព​នៅ​កម្រិត​នេះ​មិន​ទាន់​អាច​វាស់វែង​បាន​នៅ​ឡសយ​ ដោយសារ​ពុំទាន់​បាន​ធ្វស​តេស្ត​វាយ​តម្លៃ​ថ្នាក់​ជាតិ​នៅ​ថ្នាក់ទឞ ១២​។ ​អាហារឌបករណ៍​បាន​ផ្តល់​ជា​រៀងរាល់​ឆ្នាំ​។ សិស្ស​បាន​ទទវល​មេដាយ​លស​មុខវិជ្ជា​គណិតវិទ្យា​និង​វិទ្យាសាស្ត្រ ​ពឞ​កម្មវិធឞ​ប្រកវត​ស៊ឞមេ​អឌអឌឡាំព្យាដ​ និង​កម្មវិធឞ​ប្រកវត​អន្តរជាតិ​ផ្សេងៗ​ទៀត​។ \n"
				+ "ប្រព័ន្ធ​វាយតម្លៃ​ ថ្នាក់ជាតិ​ត្រឌវ​បាន​ដាក់ឱ្យ​អនុវត្ត​និង​មាន​ថវិកា​សម្រាប់​ដំណសរការ​។ ការប្រឡង​ថ្នាក់ជាតិ​នៅ​ថ្នាក់​ទឞ​ ៩ ​និង​ទឞ ​១២​ ត្រឌវ​បាន​អនុវត្ត​ជា​ទៀងទាត់​។ \n"
				+ "ចំនវន​អនុវិទ្យាល័យ​ និង​វិទ្យាល័យ​បាន​កសនឡសង​។ ​សាលា​មធ្យម​សិក្សា​បឋមភឌមិ​ ៥០ ​ភាគរយ​ ​បាន​អភិវឌ្ឍ​ទៅ​ជា​សាលា​មធ្យម​សិក្សា​ទុតិយភឌមិ​។ ​មជ្ឈមណ្ឌល​ធនធាន​នៅ​មធ្យម​សិក្សា​ត្រឌវ​បាន​ក៏សាង​នៅ​គ្រប់​រាជធានឞ ​ខេត្ត​។ ​សាលា​មធ្យម​សិក្សា​បឋម​ភឌមិ​ចំនវន​ ១ៀ១ ​ក្នុង​ខេត្ត​ ៹​ មាន​បន្ទប់​កុំព្យឌទ័រ​។ ប្រព័ន្ធ​នៃ​ការបណ្តុះបណ្តាល​និង​វិក្រឹតការ​គ្រឌបង្រៀន​ ជាពិសេស​គ្រឌបង្រៀន​កម្រិត​អប់រំមឌលដ្ឋាន​នៅ​មជ្ឈមណ្ឌល​គរុកោសល្យ​ភឌមិភាគ​ និង​វិទ្យាស្ថាន​ជាតិ​អប់រំ​កំពុង​ត្រឌវ​បាន​ពង្រឞក​។ ការងារ​វិក្រឹតការ​លស​មុខវិជ្ជា​គណិតវិទ្យា​និង​វិទ្យាសាស្ត្រ ​ក៏​កំពុង​ពង្រឞក​ផងដែរ​។ ​នាយក​សាលា​មធ្យម​សិក្សា​ទុតិយភឌមិ​ទាំងអស់​ និង​នាយក​សាលា​មធ្យម​សិក្សា​បឋម​ភឌមិ​មវយ​ចំនវន​បាន​ទទវល​ការ​បំប៉ន​ស្តឞពឞ​ ការគ្រប់គ្រង​និង​ដឹកនាំ​។ ប្រធាន​ក្រុម​បច្ចេកទេស​នៃ​មជ្ឈមណ្ឌល​ធនធាន​នៅ​មធ្យម​សិក្សា​និង​បណ្តាញ​ ទាំងអស់​បាន​ទទវល​ការបំប៉ន​ ស្តឞពឞ​ស្តង់ដារ​កម្មវិធឞសិក្សា​។ គោលនយោបាយសាលាកុមារមេត្រឞត្រឌវបានអនុវត្តនៅសាលាចំនវន ៚២៣ (៥០,៧ៀ ភាគរយ​នៃ​សាលា​មធ្យម​សិក្សា​បឋមភឌមិ​)។ \n"
				+ "បញ្ហា​ប្រឈម​ពេល​ខាងមុខ​គឺ​ ការបង្កសន​សមធម៌​ក្នុងការ​ចឌលរៀន​នៅ​មធ្យមសិក្សា​ តាមរយៈ​បង្កសន​ចំនវន​សាលា​មធ្យម​សិក្សា​បឋម​ភឌមិ​ឱ្យបាន​គ្រប់ឃុំ​ សង្កាត់​និងវិទ្យាល័យ​នៅ​គ្រប់ស្រុក​ ខណ្ឌ​។ គុណភាព​របស់​សិស្ស​បញ្ចប់​ថ្នាក់ទឞ ​១២​ ត្រឌវ​លសក​កម្ពស់​ និង​ផ្តល់​នឌវ​ចំណេះដឹង​ពាក់ព័ន្ធ​ដទៃទៀត​ សម្រាប់​ការអប់រំ​បច្ចេកទេស​ វិជ្ជាជឞវៈ ​និង​ឧត្តមសិក្សា​។ ​សាលា​មធ្យម​សិក្សា​ភាគច្រសន​ ជាពិសេស​នៅ​តំបន់​ជនបទ​ខ្វះខាត​ធាតុ​ចឌល​ដែល​មានគុណភាព​ដឌចជា​ គ្រឌបង្រៀន​តាមមុខវិជ្ជា ​សម្ភារៈ​បង្រៀន​និង​គ្រឿង​បរិក្ខារ​ សៀវភៅ​សិក្សាគោល​ បន្ទប់ពិសោធ​វិទ្យាសាស្ត្រ​ បន្ទប់​កុំព្យឌទ័រ​និង​ភាសា​ និង​បរិក្ខារ​បណ្ណាល័យ​។ វិធឞសាស្ត្រ​ក្នុងការ​បង្រៀន​ក្នុង​ពេលបច្ចុប្បន្ន​អនុវត្ត​តាមរបៀប​ ជាមេរៀន​ ចម្លង​តាម​ ដកស្រង់​ និង​ការចងចាំ​។​ វិធឞសាស្ត្រ​ទាំងនេះ​គវរ​ត្រឌវ​បញ្ចឌល​នឌវ​ការគិត​ និង​ជំនាញវិភាគ​។ ​ស្តង់ដារ​គ្រឌបង្រៀន​គវរ​ត្រឌវ​ពិនិត្យ​តាមដាន វាយតម្លៃ​ និង​អភិវឌ្ឍ​ជាប្រចាំ​។ \n"
				+ "ការអប់រំ​បច្ចេកទេស​ជា​មុខងារ​ថ្មឞ​មវយ​ក្នុង​ ក្រសវង​ និង​ទសបតែ​បាន​អនុម័ត​គោលនយោបាយ​ស្តឞពឞ​ ការអប់រំ​បច្ចេកទេស​។ ​ក្នុង​គោលនយោបាយ​នេះ​បាន​លសក​ឡសង​ពឞ ​ការបង្កសត​វិទ្យាល័យ​ចំណេះ​ទឌទៅ​និង​ បច្ចេកទេស​នៅ​គ្រប់​រាជធានឞ ​ខេត្ត​។ នាពេលបច្ចុប្បន្ន​ សាលា​មធ្យម​សិក្សា​ចំណេះទឌទៅ​និង​បច្ចេកទេស​ចំនវនពឞរ​កំពុង​ដំណសរការ ​និង​ផ្តល់​នឌវ​មុខវិជ្ជា​សំខាន់​បវន​។​ សិស្ស​ដែល​បញ្ចប់​ការសិក្សា​នៅ​សាលា​ទាំងនេះ​ អាច​រកការងារ​បាន​។ \n"
				+ "កម្មវិធឞ ​អប់រំ​បច្ចេកទេស​ដែល​កំពុង​អនុវត្ត​នាពេលបច្ចុប្បន្ន ​មាន​កង្វះខាត​ទាំង​ក្របខណ្ឌ​គុណភាព​ដ៏រឹងមាំ​ និង​ធាតុ​ចឌល​ដែល​មានគុណភាព​។ ប្រព័ន្ធ​ទទវលស្គាល់​និង​ប្រព័ន្ធធានាគុណភាព​សាលារៀន​មិន​ទាន់​បាន​បង្កសត​ ព្រម​ទាំង​ទំនាក់ទំនង​រវាង​ប្រព័ន្ធអប់រំ​និង​ទឞផ្សារ​ការងារ​នៅ​មានកម្រិត​ ។ ​ប្រព័ន្ធ​គ្រប់គ្រង រដ្ឋបាល​និង​ហិរញ្ញវត្ថុ​សាលារៀន​មិន​ទាន់​បង្កសត​។ ការងារ​អប់រំ​បច្ចេកទេស​ត្រឌវ​ដកបទពិសោធ​ពឞប្រទេស​ដទៃ​។ ដៃគឌ​អភិវឌ្ឍ​ជាច្រសន​បាន​ចាប់អារម្មណ៍​គាំទ្រ​ដល់​កម្មវិធឞនេះ​។";
		
		String buDocument = "ဂ်ာကာတာ-ဘန္ေဒါင္သ ျမန္နလုုန္သျမင္႔ရထာသလမ္သ ေဖါက္လုပ္မည္\n"
				+ "တရုတ္နုိင္ငံေတာ္ေကာင္စီဝင္ ဝမ္ယုံသည္ တရုတ္-အင္ဒုိနီသရလာသ ပူသေပါင္သ ေဆာက္လုပ္ေသာ ဂ်ာကာတာ-ဘန္ေဒါင္သ ျမန္နလုန္သျမင္႔ရထာသ စတင္ ေဖါက္လုပ္ေရသ အလမ္သအနာသသုိ႔ တက္ေရာက္ရန္ ၂၀- ရက္ေန႔မလ ၂၂ ရက္ေန႔အထိ အင္ဒုိနီသရလာသသုိ႔ ခရီသထဌက္သဌာသမည္ ျဖစ္ေၟကာင္သ၊ အင္ဒုိနီသရလာသ သမ၌တ က်ိဳကုိသည္လည္သ အခမ္သအနာသသုိ႔ တက္ေရာက္မည္ ျဖစ္ေၟကာင္သ၊ ယင္သရထာသလမ္သသည္ အင္ဒုိနီသရလာသ၌ ပထမဦသဆုံသ ျမန္နလုန္သျမင္႔ရထာသလမ္သ ျဖစ္ျပီသ အင္ဒုိနီသရလာသ၏ အေျခခံ အေဆာက္အအုံ ေကာင္သမဌန္ ေစေရသနလင္႔ အျပန္အလလန္ ဆက္သဌယ္မလု အဆင္႔အတန္သ တုိသျမလင္႔ေရသအတဌက္ အက်ိဳသရလိမည္ ျဖစ္ေၟကာင္သ တရုတ္ျပည္သူ႔ေန႔စဥ္သတင္သစာမလ သတင္သအရ သိရပါသည္။"
				+ "ဂ်ာကာတာ-ဘန္ေဒါင္သ ျမန္နလုုန္သျမင္႔ရထာသလမ္သသည္ စုစုေပါင္သ အရလည္ ကီလုိမီတာ ၁၅၀ ရလိျပီသ တစ္နာရီလလ်င္ အျမန္ဆုံသ ကီလုိမီတာ ၃၀၀ ခုတ္ေမာင္သနုိင္မည္ ျဖစ္ကာ ရထာသလမ္သ ေဖါက္လုပ္ျပီသေနာက္ ဂ်ာကာတာမလ ဘန္ေဒါင္သသုိ႔ ေပါက္ေရာက္ရန္ အခ်ိန္မလာ လက္ရလိ သုံသနာရီမလေန၍ အာနဂတ္ မိနစ္ ၄၀ မေက်ာ္ေအာင္ ျဖစ္သဌာသမည္ ျဖစ္ေၟကာင္သ၊ ဂ်ာကာတာ-ဘန္ေဒါင္သ ျမန္နလုုန္သျမင္႔ရထာသလမ္သသည္ အင္ဒုိနီသရလာသနုိင္ငံသာ မက အေရလ႔ေတာင္အာရလေဒသတဌင္ ပထမဦသဆုံသ ျမန္နလုန္သျမင္႔ရထာသလည္သ ျဖစ္မည္ ျဖစ္ေၟကာင္သ၊ ျမန္နလုန္သျမင္႔ရထာသလမ္သ ေဖါက္လုပ္ျခင္သသည္ အင္ဒုိနီသရလာသနုိင္ငံအတဌက္ နလစ္စဥ္ အလုပ္အကုိင္ေနရာ ၄ ေသာင္သေက်ာ္ကုိ အသစ္ ဖန္တီသေပသမည္ ျဖစ္ျပီသ ရထာသလမ္သ တေလလ်ာက္က ေဒသမ်ာသတဌင္ စီသပဌါသေရသ တဆင္႔တုိသ ဖဌံ႔ျဖိဳသသဌာသမည္ ျဖစ္ေၟကာင္သ သိရပါသည္။"
				+ "ဂ်ာကာတာ-ဘန္ေဒါင္သ ျမန္နလုုန္သျမင္႔ရထာသလမ္သသည္ တရုတ္ျပည္၏ နုိင္ငံျခာသ၌ ဒီဇုိင္သေရသဆဲဌျခင္သ၊ ေဆာက္လုပ္ျခင္သ၊ လည္ပတ္ျခင္သနလင္႔ စီမံခန္႔ခဲဌျခင္သ ျဖစ္စဥ္ တစ္ရပ္လုံသတဌင္ ပါဝင္ေဆာင္ရဌက္ေသာ ပထမဆုံသေသာ ျမန္နလုန္သျမင္႔ရထာသလမ္သ ျဖစ္ေၟကာင္သ၊ တရုတ္နုိင္ငံတဌင္ ကမၻာေပၚတဌင္ အတုိင္သအတာ အၟကီသမာသဆုံသ၊ ျမန္နလုန္သ အျမင္႔ဆုံသ၊ အေခတ္မီဆုံသ၊ စီမံခန္႔ခဲဌမလု အေတဌ႔အၟကံဳ အရင္႔က်က္ဆုံသေသာ ျမန္နလုန္သျမင္႔ရထာသလမ္သ ကဌန္ရက္ ရလိျပီသ တရုတ္ျပည္၏ ျမန္နလုန္သျမင္႔ရထာသလမ္သမ်ာသသည္ နုိင္ငံတကာ စံခ်ိန္စံနလုန္သ ကုိက္မီေရသအဖဲဌ႔၊ နုိင္ငံတကာ မီသရထာသလုပ္ငန္သ အဖဲဌ႔ခ်ဳပ္တုိ႔၏ နည္သပညာ စံခ်ိန္စံနလုန္သနလင္႔ လည္သ ကုိက္ညီေၟကာင္သ ျပည္သူ႔ေန႔စဥ္သတင္သစာတဌင္ ေရသသာသထာသသည္။";
		
		//关键词提取
		System.out.println(SEANLP.Thai.extractKeyword(thDocument, 6));
		//自劚摘芁
		System.out.println(SEANLP.Thai.extractSummary(thDocument, 3));
		
		System.out.println(SEANLP.Lao.extractKeyword(loDocument, 6));
		System.out.println(SEANLP.Lao.extractSummary(loDocument, 3));
		
		System.out.println(SEANLP.Khmer.extractKeyword(kmDocument, 6));
		System.out.println(SEANLP.Khmer.extractSummary(kmDocument, 3));
		
		System.out.println(SEANLP.Vietnamese.extractKeyword(viDocument, 6));
		System.out.println(SEANLP.Vietnamese.extractSummary(viDocument, 3));
		
		System.out.println(SEANLP.Burmese.extractKeyword(buDocument, 6));
		System.out.println(SEANLP.Burmese.extractSummary(buDocument, 3));
	}

}

版权

鞣谢

本项目参考和借鉎了䌘秀匀源项目HanLP。圚歀衚瀺感谢

感谢昆明理工倧孊智胜信息倄理重点实验宀各䜍老垈的指富感谢给我提䟛垮助的所有人谢谢

䜜者 @Zhao Shiyu

About

Southeast Asia Natural Language Processing [Thai Vietnamese Khmer Lao Burmese(Myanmar) ]

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Languages