OpenDomainDialogCorpus_CN

Open domain Chinese dialogue corpus and datasets.

根据一些论文和其他repo收录整理了若干中文开放域对话数据集，仅供学习交流使用。

数据集	描述	单轮/多轮	格式	规模	年份	提出论文	相关地址
Douban Conversaion Corpus	来自豆瓣数据，常用	多轮	点我 test集合包含1000组数据，每组数据由10个labeled context-response pair构成，10个数据标签可能均为0，可能具有多个（2-3）标签为1的数据。所有文本为已分词格式。		2017	点我 Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieval-Based Chatbots. Yu Wu, Wei Wu, Chen Xing, Ming Zhou, Zhoujun Li. ACL 2017.	Here
Noah NRM Data / STC@NTCIR13	来自微博，常用	单轮	点我相关下载链接已失效。找到的 NTCIR13 数据集中，训练集v1.0为excel表格，包含11535个query-response pair（768个unique query），分别带有差(-1)中(0)好(1)的来自三个judge的标签，需要自行对齐标签预处理。	4,435,959 Pairs / post 219,905 / responses 4,308,211 / 平均每个post，20条response	2015	点我 Neural Responding Machine for Short-Text Conversation. Lifeng Shang, Zhengdong Lu, and Hang Li. ACL 2015.	Here，更推荐后者
STC Data	来自微博，常用	单轮	点我 post 和 response 的 id 相对应，1个post30个response，需要自行预处理得到对应文本。带有1，2的标注，分别表示恰当和一般。	Retrieval_Repository #posts 38,016 #responses 618,104 #original_pairs 618,104 Labeled_Data #posts 422 #responses 12,402 #labeled_pairs 12,402	2013	点我 A Dataset for Research on Short-Text Conversation. Hao Wang, Zhengdong Lu, Hang Li, Enhong Chen. EMNLP 2013.	Here
LCCC	主要微博，混合（见论文P4）	多轮	点我 json文件可以直接读取，需要自己构造正负例，单个session轮数较少		2020	点我 A large-scale chinese short-text conversation dataset. Wang Y, Ke P, Zheng Y, et al. NLPCC 2020.	Here
PchatbotW	来自微博	单轮	点我 50G的 PchatbotW.release_ver 文本文件，直接读取，包含 5,319,596 个 posts 和 139,448,339 个 responses，需要自己构造检索子数据集。		2020	点我 A large-scale chinese short-text conversation dataset. Wang Y, Ke P, Zheng Y, et al. NLPCC 2020.	Here
RRS	根据 Restoration200K 数据集构建	多轮	点我 1000个sessions，每个10个candidates包含1个正例9个负例。txt文件直接读取处理即可。		2021	点我 Exploring Dense Retrieval for Dialogue Response Selection[J]. Lan T, Cai D, Wang Y, et al. arXiv preprint arXiv:2110.06612, 2021.	Here
小黄鸡	原人人网项目语料	单轮	点我包含分词和未分词版本，需要预处理	~45w	/	/	Here
青云语料	来自聊天机器人交流群	单轮	点我 csv文件，post和resp用 '\|' 分隔，需要预处理	~11w	/	/	Here
贴吧语料	来自贴吧回帖	多轮	点我文本文件，post和resp用 \t 分隔，包含305w个单轮，需要自己恢复成多轮和构造对应数据	~305w (单轮)	/	/	Here

References & Useful Links:

[1] Dialogue Research-Tencent AI Lab
[2] Baidu AI Dataset
[3] Dialogue datasets
[4] candlewill/Dialog_Corpus
[5] codemayq/chinese_chatbot_corpus
[6] EVASHINJI/Dialog-Datasets

ENJOY.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
pics		pics
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

OpenDomainDialogCorpus_CN

About

Releases

Packages

Aman-4-Real/OpenDomainDialogCorpus

Folders and files

Latest commit

History

Repository files navigation

OpenDomainDialogCorpus_CN

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages