Auto Crawler Ptt Beauty Image Use Python Schedule
本專案是經由 PTT_Beauty_Spider 小修改 + schedule 完成的。
我是使用 Django 並且佈署在 heroku 上,教學以及程式碼可參考 Deploying_Django_To_Heroku_Tutorial
P.S 目前佈署在 heroku 上,因為免費版有24小時一定要休息6小時的規定,所以比較慢請多多包涵。
- 每半小時自動爬取 https://www.ptt.cc/bbs/beauty/index.html 兩頁大於 10 推的文章圖片 URL,並存到資料庫。
- 透過 Deploying_Django_To_Heroku_Tutorial 將圖片呈現到網頁上 Demo 網站。
確定電腦有安裝 Python 之後
請在 cmd (命令提示字元) 輸入以下指令
pip install -r requirements.txt
由於要每半小時爬取網頁一次,所以我用了 schedule , 讓程式依照我們設定的 schedule 下去執行
因為要佈署在 Heroku , 所以我使用 Heroku Postgres ,
詳細教學可參考 如何在 heroku 上使用 database
db 字串設定可在 dbModel.py 裡面設定
DB_connect = 'DB URI'
如果你也是使用 Postgres 格式如下
DB_connect = 'postgresql+psycopg2://postgres:PASSWORD@localhost/database_name'
佈署空間 - Heroku
教學請參考 Deploying-Flask-To-Heroku
因為我們這次並沒有要建立一個網站
所以我們要將 Procfile 修改為
worker: python app.py
- Python 3.9
文章都是我自己研究內化後原創,如果有幫助到您,也想鼓勵我的話,歡迎請我喝一杯咖啡:laughing:
MIT license