Open domain Chinese dialogue corpus and datasets.
根据一些论文和其他repo收录整理了若干中文开放域对话数据集,仅供学习交流使用。
数据集 | 描述 | 单轮/多轮 | 格式 | 规模 | 年份 | 提出论文 | 相关地址 |
---|---|---|---|---|---|---|---|
Douban Conversaion Corpus | 来自豆瓣数据,常用 | 多轮 | 点我test集合包含1000组数据,每组数据由10个labeled context-response pair构成,10个数据标签可能均为0,可能具有多个(2-3)标签为1的数据。所有文本为已分词格式。 | 2017 | 点我Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieval-Based Chatbots. Yu Wu, Wei Wu, Chen Xing, Ming Zhou, Zhoujun Li. ACL 2017. | Here | |
Noah NRM Data / STC@NTCIR13 | 来自微博,常用 | 单轮 | 点我相关下载链接已失效。找到的 NTCIR13 数据集中,训练集v1.0为excel表格,包含11535个query-response pair(768个unique query),分别带有差(-1)中(0)好(1)的来自三个judge的标签,需要自行对齐标签预处理。 | 4,435,959 Pairs / post 219,905 / responses 4,308,211 / 平均每个post,20条response | 2015 | 点我Neural Responding Machine for Short-Text Conversation. Lifeng Shang, Zhengdong Lu, and Hang Li. ACL 2015. | Here,更推荐后者 |
STC Data | 来自微博,常用 | 单轮 | 点我post 和 response 的 id 相对应,1个post30个response,需要自行预处理得到对应文本。带有1,2的标注,分别表示恰当和一般。 |
Retrieval_Repository #posts 38,016 #responses 618,104 #original_pairs 618,104 Labeled_Data #posts 422 #responses 12,402 #labeled_pairs 12,402 | 2013 | 点我A Dataset for Research on Short-Text Conversation. Hao Wang, Zhengdong Lu, Hang Li, Enhong Chen. EMNLP 2013. | Here |
LCCC | 主要微博,混合(见论文P4) | 多轮 | 点我json文件可以直接读取,需要自己构造正负例,单个session轮数较少 | 2020 | 点我A large-scale chinese short-text conversation dataset. Wang Y, Ke P, Zheng Y, et al. NLPCC 2020. | Here | |
PchatbotW | 来自微博 | 单轮 | 点我50G的 PchatbotW.release_ver 文本文件,直接读取,包含 5,319,596 个 posts 和 139,448,339 个 responses,需要自己构造检索子数据集。 | 2020 | 点我A large-scale chinese short-text conversation dataset. Wang Y, Ke P, Zheng Y, et al. NLPCC 2020. | Here | |
RRS | 根据 Restoration200K 数据集构建 | 多轮 | 点我1000个sessions,每个10个candidates包含1个正例9个负例。txt文件直接读取处理即可。 | 2021 | 点我Exploring Dense Retrieval for Dialogue Response Selection[J]. Lan T, Cai D, Wang Y, et al. arXiv preprint arXiv:2110.06612, 2021. | Here | |
小黄鸡 | 原人人网项目语料 | 单轮 | 点我包含分词和未分词版本,需要预处理 | ~45w | / | / | Here |
青云语料 | 来自聊天机器人交流群 | 单轮 | 点我csv文件,post和resp用 '|' 分隔,需要预处理 | ~11w | / | / | Here |
贴吧语料 | 来自贴吧回帖 | 多轮 | 点我文本文件,post和resp用 \t 分隔,包含305w个单轮,需要自己恢复成多轮和构造对应数据 | ~305w (单轮) | / | / | Here |
References & Useful Links:
[1] Dialogue Research-Tencent AI Lab
[2] Baidu AI Dataset
[3] Dialogue datasets
[4] candlewill/Dialog_Corpus
[5] codemayq/chinese_chatbot_corpus
[6] EVASHINJI/Dialog-Datasets
ENJOY.