Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

讀取結果API #20

Open
hopehhchen opened this issue Apr 21, 2014 · 9 comments
Open

讀取結果API #20

hopehhchen opened this issue Apr 21, 2014 · 9 comments

Comments

@hopehhchen
Copy link

您好:

我現在正試圖處理這個計劃的成果資料,但發現可供下載的部分似乎只有欄位內容而沒有欄位標題(比如幾乎沒有內容的第六欄到底是什麼就無從得知),另外也找不到該頁面/欄位對應到的立委/公僕或編號等等。由於編寫API的部分好像也不在GitHub上,所以希望能夠有一段說明文字、或者是圖檔範例,要不然從API下載下來的資料也沒辦法真的處理或visualize。感謝!

Cheers,
Hope

@ronnywang
Copy link
Collaborator

各文件欄位名稱及文件資訊在
http://campaign-finance.g0v.ronny.tw/

https://github.com/ronnywang/sandbox/blob/master/20140420/g0v-tw-cf.csv
上面也有我匯出的 CSV 版本

@hopehhchen
Copy link
Author

感謝!

@shaform
Copy link

shaform commented Apr 26, 2014

是說如果想取得所有辨識好的結果和原始圖檔(拿來當 training data),只有透過 API 一欄一欄抓圖這個方法嗎~

@kiang
Copy link

kiang commented Apr 26, 2014

http://campaign-finance.g0v.ctiml.tw/api/getcells/ + 頁面編號就可以取得單頁所有答案,圖檔可以透過取得大圖 + 相關索引值後自行切割?

@shaform
Copy link

shaform commented Apr 28, 2014

我找到了 http://campaign-finance-pic.ronny.tw/outputs.tgz 只是不知是否是最新版的
最新版的索引值不知是在哪裡呢?

@kiang
Copy link

kiang commented Apr 28, 2014

http://campaign-finance.g0v.ronny.tw/api/gettables 有清單,還是你說的是其他的索引值?

@shaform
Copy link

shaform commented Apr 28, 2014

我指的是切割圖片完的座標,或者切割的工具
(之所以希望是最新版是因為從一些討論來看,曾經有修正過一些網友回報的切割錯誤。而從 API 取得的圖片似乎有轉正,原網誌的 demo 沒有等等。)

...不然的話每分鐘用 API 抓一張圖應該不會造成太大流量影響吧 (?)

@ronnywang
Copy link
Collaborator

如果切割圖片的座標
目前全部放在 https://github.com/ronnywang/tw-campaign-finance 下面的 outputsXXXX/ 資料夾下面
切割的工具程式就是在 tw-campaign-fincance/scripts/search-all-lines2.php

至於用 API 抓圖,其實因為我圖片是放在 PIXNET ,不太需要擔心流量問題, PIXNET 那邊架構很穩撐的住的 XD

@shaform
Copy link

shaform commented May 3, 2014

好吧,雖然有點離 issue 的題,不過我做了個簡單的小實驗 XD
想要辨識一些常出現的文字(ex. 空白、匿名)

因為覺得處理圖片很麻煩,所以暫時只用 API 抓少量資料:
每個 label 各抓 25 個 cells 做 training,另外抓 25 個 cells 做 testing

然後 accuracy 只有 64 % ><
因為其實我也不太熟這塊,有興趣的人可以研究一下:
https://gist.github.com/shaform/9759d02f08a6d47ae462

用到的是 python2 with numpy, scipy, mahotas, milk, requests

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants