fetch_20newsgroups下载可能遇到的问题 #40

emperor239 · 2024-12-03T10:09:25Z

fetch_20newsgroups下载速度巨慢，所以我在这里介绍一个方法。
1、从http://qwone.com/~jason/20Newsgroups/上面找到Data然后再找到20news-bydate.tar.gz ，然后下载
2、下载完了以后放到C:\Users\一串数字\scikit_learn_data\20news_home目录下
3、到目录C:\Users\一串数字\AppData\Local\Programs\Python\Python37\Lib\site-packages\sklearn\datasets下找到_twenty_newsgroups.py或twenty_newsgroups.py打开
4、将

logger.info("Downloading dataset from %s (14 MB)", ARCHIVE.url)

 # archive_path = _fetch_remote(ARCHIVE, dirname=target_dir)
 注释掉，这两行代码就是下载数据的代码

然后添加
archive_path = os.path.join(target_dir, r'20news-bydate.tar.gz')
保存即可
5、运行程序等待，系统会自动解压20news-bydate.tar.gz文件然后删除，最终生成20news-bydate_py3.pkz文件
此时即可查看数据了

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fetch_20newsgroups下载可能遇到的问题 #40

fetch_20newsgroups下载可能遇到的问题 #40

emperor239 commented Dec 3, 2024

fetch_20newsgroups下载可能遇到的问题 #40

fetch_20newsgroups下载可能遇到的问题 #40

Comments

emperor239 commented Dec 3, 2024

logger.info("Downloading dataset from %s (14 MB)", ARCHIVE.url)