使用reactjs + python/flask + sqlite + scrapy 构建的单页应用漫画站,里面还用到了gunicorn和fabric的python管理部署工具,当时自己构建自动部署的时候用的
npm install
pip install -r requirements.txt
cd server
python web_server.py
npm start
访问localhost:3000
over .....
soul_manga_spider.py
定义了三种抓取方式,REQ_TYPE
分别对应不同的url类型:单个漫画,单个页面的所有漫画,以及全部漫画。还有一个is_update
参数用于表明是否只抓取最近更新的页面url然后做增量更新。之前自己部署的时候基本上配合crontab
12小时抓取一次足够了,默认情况is_update
是false,且REQ_TYPE
是default表示什么都不做,默认使用我已经抓取的db。日志级别根据自己需要调整setting.py
的LOG_LEVEL
和LOG_FILE