查看完整版本 : 賽馬資料爬蟲

漆哥 2018-5-22 11:04 PM

賽馬資料爬蟲

漆頭我好低吊,最近寫左個網上crawler,在一小時內可爬以下資料:
*3460馬匹詳細資料,血統,馬主,勝出次數,所有往績及名次
*2013-2018年共4297場賽事,場地,參賽馬匹,負磅,評分,騎師,練馬師...
*所有賽果包括最後獨贏賠率,獨贏位置派彩,分段時間
如果想要Program或Data,可聯絡在下交流


[attach]8314187[/attach]
[attach]8314188[/attach]:smile_44:

[[i] 本帖最後由 漆哥 於 2018-5-22 11:09 PM 編輯 [/i]]

form5 2018-5-22 11:09 PM

Interesting ,用咩冩呢? js? :lol

我的無比膏 2018-5-23 10:17 AM

用js 真係好方便,有冇隻馬老豆老母出賽往績

漆哥 2018-5-24 12:35 AM

[quote]原帖由 [i]我的無比膏[/i] 於 2018-5-23 10:17 AM 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=480729773&ptid=27460649][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]
用js 真係好方便,有冇隻馬老豆老母出賽往績 [/quote]

有血統資料

我的無比膏 2018-5-24 09:08 AM

[quote]原帖由 [i]漆哥[/i] 於 2018-5-24 12:35 AM 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=480776294&ptid=27460649][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]


有血統資料 [/quote]


馬會係無提供父母往積,最多只係簡介

stockgo 2018-5-24 09:17 AM

做咩唔放GitHub 😭😭😭

crystalitehk 2018-5-24 10:01 AM

對data有姓趣, for ML

form5 2018-5-24 09:10 PM

May I have the source code ? Thanks

imfox 2018-5-24 11:05 PM

留名學野

imfox 2018-5-24 11:16 PM

[quote]原帖由 [i]form5[/i] 於 2018-5-22 23:09 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=480711117&ptid=27460649][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]
Interesting ,用咩冩呢? js? :lol [/quote]
js 當然無問題,但 crawler 通常用 python 多.
i.e. [url]https://github.com/codervince/horsesx[/url]

form5 2018-5-24 11:38 PM

[quote]原帖由 [i]imfox[/i] 於 2018-5-24 11:16 PM 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=480829165&ptid=27460649][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]

js 當然無問題,但 crawler 通常用 python 多.
i.e. [url=https://github.com/codervince/horsesx]https://github.com/codervince/horsesx[/url] [/quote]
thanks, oh scrapy, that is one of my favorite python library too, you make my day :D

漆哥 2018-5-27 01:48 PM

[quote]原帖由 [i]form5[/i] 於 2018-5-22 11:09 PM 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=480711117&ptid=27460649][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]
Interesting ,用咩冩呢? js? :lol [/quote]

Yes, JS, 用30條Thread

漆哥 2018-5-27 01:50 PM

[quote]原帖由 [i]我的無比膏[/i] 於 2018-5-24 09:08 AM 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=480785912&ptid=27460649][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]
馬會係無提供父母往積,最多只係簡介 [/quote]

父母都係一隻馬,隻馬有係香港馬場跑過,就有往積,除非好舊

漆哥 2018-5-27 01:50 PM

[quote]原帖由 [i]imfox[/i] 於 2018-5-24 11:16 PM 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=480829165&ptid=27460649][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]

js 當然無問題,但 crawler 通常用 python 多.
i.e. [url=https://github.com/codervince/horsesx]https://github.com/codervince/horsesx[/url] [/quote]

js/python其實冇分別
horsesx只有馬資料,不過都幾好,Thanks

[[i] 本帖最後由 漆哥 於 2018-5-27 02:31 PM 編輯 [/i]]

漆哥 2018-5-27 01:51 PM

[quote]原帖由 [i]form5[/i] 於 2018-5-24 11:38 PM 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=480830341&ptid=27460649][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]

thanks, oh scrapy, that is one of my favorite python library too, you make my day :D [/quote]

crawler好慢,python同casper都係,問你點開30條thread?

imfox 2018-5-27 02:42 PM

welcome 大家學術討論


you can build your own distributed web crawler
[url=https://benbernardblog.com/the-tale-of-creating-a-distributed-web-crawler/]https://benbernardblog.com/the-tale-of-creating-a-distributed-web-crawler/[/url]

or try something like [url=https://github.com/scrapinghub/frontera]https://github.com/scrapinghub/frontera[/url]

我的無比膏 2018-5-27 04:10 PM

[quote]原帖由 [i]漆哥[/i] 於 2018-5-27 01:50 PM 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=480971009&ptid=27460649][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]


父母都係一隻馬,隻馬有係香港馬場跑過,就有往積,除非好舊 [/quote]


通常無在香港跑過

我的無比膏 2018-5-27 04:14 PM

[quote]原帖由 [i]漆哥[/i] 於 2018-5-27 01:51 PM 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=480971099&ptid=27460649][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]


crawler好慢,python同casper都係,問你點開30條thread? [/quote]


想問下,改request header 就可以防對方block (短時間內)??

漆哥 2018-5-27 06:11 PM

[quote]原帖由 [i]我的無比膏[/i] 於 2018-5-27 04:14 PM 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=480979409&ptid=27460649][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]



想問下,改request header 就可以防對方block (短時間內)?? [/quote]


對方block你就轉IP啦,仲有咩計?

richardli008 2018-5-28 01:27 PM

[quote]原帖由 [i]漆哥[/i] 於 2018-5-27 06:11 PM 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=480986157&ptid=27460649][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]



對方block你就轉IP啦,仲有咩計? [/quote]

遲吓新加嗰隻WAF加條WAF rule除咗用IP仲可以用per HTTP session rate per min/s係layer 7 去block crawler,到時轉IP都無用。

我的無比膏 2018-5-28 02:08 PM

[quote]原帖由 [i]richardli008[/i] 於 2018-5-28 01:27 PM 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=481028487&ptid=27460649][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]


遲吓新加嗰隻WAF加條WAF rule除咗用IP仲可以用per HTTP session rate per min/s係layer 7 去block crawler,到時轉IP都無用。 [/quote]


Google 本身都有而個防crawler 功能,五秒一個 request 必死

卍小人物卍 2018-6-8 01:42 AM

有興趣program 學野:smile_13:

betformoney 2018-6-10 12:06 PM

我都爬過足球,都係js

wilson_y_chan 2018-6-11 01:18 PM

留名學野!
頁: [1]
查看完整版本: 賽馬資料爬蟲