查看完整版本 : [統計帖] 有關「程式編寫」帖子資料統計

assembly.jc 2017-10-31 12:49 AM

[統計帖] 有關「程式編寫」帖子資料統計

以下是「程式編寫」帖子前 10 版的統計資料 (不包括「網面設計」)
帖子: 250 個,參與討論人數: 229 人,3995 個回覆。

頭 20 最多回覆的帖子 (不計 #1),小弟都有1 個入圍
[img]https://3.bp.blogspot.com/-ZmlqvtiUVaE/WfdZ3BFu0dI/AAAAAAAAANg/8GzfoXonc9Y4ymPEUmPGTFt8ljrzK3RMACLcBGAs/s640/1.png[/img]

頭 20 最多用戶回覆帖子 (相同用戶回覆多於一次,只計一次,不計 #1)
[img]https://3.bp.blogspot.com/-O9PL97tScPk/Wfvbawq-8pI/AAAAAAAAAOM/8ffo_aG_X_0nPPTTwsXwlNnvX26zXSPuQCLcBGAs/s1600/1.png[/img]

[[i] 本帖最後由 assembly.jc 於 2017-11-3 11:05 AM 編輯 [/i]]

assembly.jc 2017-10-31 01:03 AM

頭 20 多人查看的帖子

[img]https://4.bp.blogspot.com/-l5g4moVDfKQ/WfdbFH2nwYI/AAAAAAAAANs/y7dT6Dg_OZwFnY_89-04Th0pbm6TawvxQCLcBGAs/s1600/2.png[/img]

assembly.jc 2017-10-31 01:07 AM

頭 20 出帖最多用戶: 小弟排第四

[img]https://2.bp.blogspot.com/-apjcrVorax8/Wfdb-RmJtiI/AAAAAAAAAN0/s62Vz0nuCe8iSh2DCMLtoqE0Vh91WDPBACLcBGAs/s1600/3.png[/img]

assembly.jc 2017-10-31 01:10 AM

頭 20 回帖最多的用戶: (不包括 #1)

[img]https://1.bp.blogspot.com/-AF13TY9CjYo/Wfdc6AL09WI/AAAAAAAAAN8/GNul6DwBGRcFRzXnK9it3sG5sANWjQALgCLcBGAs/s1600/4.png[/img]

鄉貢仁 2017-10-31 09:24 AM

[quote]原帖由 [i]assembly.jc[/i] 於 2017-10-31 12:49 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470161811&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
以下是「程式編寫」帖子前 10 版的統計資料 (不包括「網面設計」)
帖子: 250 個,參與討論人數: 229 人,3995 個回覆。

頭 20 多人回覆的帖子 (不計 #1),小弟都有1 個入圍

[url=https://3.bp.blogspot.com/-Zmlqv]https://3.bp.blogspot.com/-Zmlqv[/url] ... [/quote]
師兄有見地, 好有生意人的市場分析腦筋,
話時話, 眼見一些大集團面包店都好似無人
懂得marketing咁, 唔識分析顧客的需要, 真
唔抵得頸要講講幾句 :

比如講, 市面上有些健康人仕食用的面包,
一大朝早就無法子買到, 到咗中午或下午先
可以買到, 咁係咪時間上出現錯配呢 ?

試想想買健康面包的人, 會否瞓到日上三杆?
愛健康的人, 一定早睡早起, 愛健康的人
才會去買健康類形面包, 你到中午或下午才
推出健康面包, 那些大吃大喝的食肉獸會買嗎?
佢哋一定覺得哩類面包, 淡而無味, 咁做面包
生意的商人, 是否在倒自己米呢? :smile_30:

煙民母親生賤種 2017-10-31 09:37 AM

[quote]原帖由 [i]鄉貢仁[/i] 於 2017-10-31 09:24 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470169759&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]

師兄有見地, 好有生意人的市場分析腦筋,
話時話, 眼見一些大集團面包店都好似無人
懂得marketing咁, 唔識分析顧客的需要, 真
唔抵得頸要講講幾句 :

比如講, 市面上有些健康人仕食用的面包,
一大朝早就無 ... [/quote]其實無乜連帶關係既姐 ... :fst_011:

assembly.jc 2017-10-31 11:34 AM

[quote]原帖由 [i]鄉貢仁[/i] 於 2017-10-31 09:24 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470169759&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]

師兄有見地, 好有生意人的市場分析腦筋,
話時話, 眼見一些大集團面包店都好似無人
懂得marketing咁, 唔識分析顧客的需要, 真
唔抵得頸要講講幾句 :

比如講, 市面上有些健康人仕食用的面包,
一大朝早就無 ... [/quote]

仁兄,你說的現象小弟也留意到,唔知是否方便人放工去買,但奇怪的是,通常都買得晒。所以估計咁做應該有原因的。

Susan﹏汪汪 2017-10-31 11:52 AM

個統計有咩用

assembly.jc 2017-10-31 12:18 PM

[quote]原帖由 [i]Susan﹏汪汪[/i] 於 2017-10-31 11:52 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470176486&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
個統計有咩用 [/quote]

其實冇特別作用。純粹試下 beautifulsoup parses html 係咪咁方便。但事實又唔係,複雜的 case 幫助不大。不過 discuss 的網頁用好多 class="..." 去分別資料。正好又用得上。如拆解 <table> tag 的資料,反而之前 5 兄介紹 excel (or C#?? 忘了) 入面的 select..from function 好似仲方便。

口口口多水 2017-11-1 01:30 AM

[quote]原帖由 [i]鄉貢仁[/i] 於 2017-10-31 09:24 AM 發表 [url=http://www.discuss.com.hk/redirect.php?goto=findpost&pid=470169759&ptid=27026738][img]http://www.discuss.com.hk/images/common/back.gif[/img][/url]

師兄有見地, 好有生意人的市場分析腦筋,
話時話, 眼見一些大集團面包店都好似無人
懂得marketing咁, 唔識分析顧客的需要, 真
唔抵得頸要講講幾句 :

比如講, 市面上有些健康人仕食用的面包,
一大朝早就無 ... [/quote]
你又知唔知整面包既工序,存放期等等因素點解他們不能全線供應到面包

西營盤舊街坊 2017-11-1 12:36 PM

[quote]原帖由 [i]口口口多水[/i] 於 2017-11-1 01:30 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470207782&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]

你又知唔知整面包既工序,存放期等等因素點解他們不能全線供應到面包 [/quote]
舊時武林高手年代就話, 想偷學一招半式難啫,
E+ 網上的資源咁豐富, 可以從網頁中獲取好多
有用的知識, 話都無咁易, 在乎你有無心機去睇啫.
:smile_44:
[url=https://www.youtube.com/watch?v=9XQIDLAW_E0]https://www.youtube.com/watch?v=9XQIDLAW_E0[/url]

ncream 2017-11-1 12:42 PM

[quote]原帖由 [i]西營盤舊街坊[/i] 於 2017-11-1 12:36 PM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470223602&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]

舊時武林高手年代就話, 想偷學一招半式難啫,
E+ 網上的資源咁豐富, 可以從網頁中獲取好多
有用的知識, 話都無咁易, 在乎你有無心機去睇啫.
:smile_44:
[url=https://www.youtube.com/watch?v=9XQIDLA]https://www.youtube.com/watch?v=9XQIDLA[/url] ... [/quote]

好老實講,整野食可能重有前途過寫CODE。:smile_o14:

tom.care 2017-11-2 10:59 PM

完美傻仔貼我有份架!

form5 2017-11-2 11:40 PM

Beautiful soup 外仲有Scrapy ,  但soup 應該耐好多 

darigold 2017-11-3 03:51 AM

[quote]原帖由 [i]assembly.jc[/i] 於 2017-10-31 12:49 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470161811&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
以下是「程式編寫」帖子前 10 版的統計資料 (不包括「網面設計」)
帖子: 250 個,參與討論人數: 229 人,3995 個回覆。
頭 20 多人回覆的帖子 (不計 #1),小弟都有1 個入圍
[/quote]
可唔可以順便計下有幾多個 distinct users reply?

assembly.jc 2017-11-3 11:06 AM

[quote]原帖由 [i]form5[/i] 於 2017-11-2 11:40 PM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470299752&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
Beautiful soup 外仲有Scrapy ,  但soup 應該耐好多  [/quote]

Thanks 5 兄,原來還有一個 Scrapy, 有時間試試

assembly.jc 2017-11-3 11:07 AM

[quote]原帖由 [i]darigold[/i] 於 2017-11-3 03:51 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470304619&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]

可唔可以順便計下有幾多個 distinct users reply? [/quote]

hi gold 兄,
相同用戶回覆多於一次,只計一次,是這個意思嗎? 請看 #1

assembly.jc 2017-11-3 11:14 AM

另外,想請教一下各位 ching,香討是否不容許 (條例上)用 bot, agent 這一類非 browser 的 program 抓它的網頁?因除了一些 well-known 的 agent 外 (如 Mozilla, IE) 外,都會 reply http response code 403。

煙民母親生賤種 2017-11-3 12:01 PM

[quote]原帖由 [i]assembly.jc[/i] 於 2017-11-3 11:14 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470315710&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
另外,想請教一下各位 ching,香討是否不容許 (條例上)用 bot, agent 這一類非 browser 的 program 抓它的網頁?因除了一些 well-known 的 agent 外 (如 Mozilla, IE) 外,都會  ... [/quote]
[url=http://www.robotstxt.org/robotstxt.html]http://www.robotstxt.org/robotstxt.html[/url]

User-agent: *Disallow: /

[url=http://www.discuss.com.hk/robots.txt]http://www.discuss.com.hk/robots.txt[/url]

[[i] 本帖最後由 煙民母親生賤種 於 2017-11-3 12:03 PM 編輯 [/i]]

form5 2017-11-3 11:00 PM

[quote]原帖由 [i]darigold[/i] 於 2017-11-3 03:51 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470304619&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]

可唔可以順便計下有幾多個 distinct users reply? [/quote]

found 17 distinct names while scraping your leecode post.:lol

form5 2017-11-3 11:29 PM

[quote]原帖由 [i]assembly.jc[/i] 於 2017-11-3 11:14 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470315710&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
另外,想請教一下各位 ching,香討是否不容許 (條例上)用 bot, agent 這一類非 browser 的 program 抓它的網頁?因除了一些 well-known 的 agent 外 (如 Mozilla, IE) 外,都會  ... [/quote]
相信技術上好難限制,改code 成本又貴,估計都不值得做

form5 2017-11-3 11:41 PM

[quote]原帖由 [i]煙民母親生賤種[/i] 於 2017-11-3 12:01 PM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470317957&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
[url=http://www.robotstxt.org/robotstxt.html]http://www.robotstxt.org/robotstxt.html[/url]
User-agent: *Disallow: /
[url=http://www.discuss.com.hk/robots.txt]http://www.discuss.com.hk/robots.txt[/url] [/quote]
google yahoo spider 可能會睇睇有冇呢個門牌先,扮下有禮貌,同時標明agent 係spider,
其他公司spider ,未必會理你

煙民母親生賤種 2017-11-4 03:15 AM

[quote]原帖由 [i]form5[/i] 於 2017-11-3 11:00 PM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470346347&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
[img=548,266]http://n2.hk/d/attachments/day_171103/20171103_52134265dc1419ee074aImYNkHH4iICs.jpg[/img]

found 17 distinct names while scraping your leecode post.:lol [/quote]你呢個包唔包埋回覆果批? 同埋我個名有 trademark, 所以唔該唔好亂 capture ... :smile_34::smile_34::smile_34:

assembly.jc 2017-11-4 12:58 PM

[quote]原帖由 [i]煙民母親生賤種[/i] 於 2017-11-3 12:01 PM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470317957&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]

[url=http://www.robotstxt.org/robotstxt.html]http://www.robotstxt.org/robotstxt.html[/url]

User-agent: *Disallow: /

[url=http://www.discuss.com.hk/robots.txt]http://www.discuss.com.hk/robots.txt[/url] [/quote]

但 robots.txt 裡沒有指明那些 agents 可以訪問它的網頁。

assembly.jc 2017-11-4 01:07 PM

[quote]原帖由 [i]form5[/i] 於 2017-11-3 11:29 PM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470347352&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]

相信技術上好難限制,改code 成本又貴,估計都不值得做 [/quote]

但如果短時間內訪問得太密集,引起香討注意,可能會封鎖 IP。

[[i] 本帖最後由 assembly.jc 於 2017-11-4 01:11 PM 編輯 [/i]]

assembly.jc 2017-11-4 01:22 PM

另一個玩 bots 要小心的地方是,不要短時間大量製造 http requests (可能是 bug 引起),影響到目標網站的運作,可被視為 DDos 攻擊。所以最好保證每個 requests 之間有停頓時間。

darigold 2017-11-4 02:13 PM

呢區總共有幾多個 distinct users?
每個人post 數(包括replies)有幾多個
有冇 80/20 rule?
有冇 long tail?

form5 2017-11-4 02:36 PM

[quote]原帖由 [i]assembly.jc[/i] 於 2017-11-4 01:22 PM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470366281&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
另一個玩 bots 要小心的地方是,不要短時間大量製造 http requests (可能是 bug 引起),影響到目標網站的運作,可被視為 DDos 攻擊。所以最好保證每個 requests 之間有停頓時間。 [/quote]
再用proxy pool, 每個request 𨍭agent header, 仲有 random delay, 再係吾同clouds 租機,block ip 好似冇乜用

form5 2017-11-4 02:44 PM

[quote]原帖由 [i]darigold[/i] 於 2017-11-4 02:13 PM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470368352&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
呢區總共有幾多個 distinct users?
每個人post 數(包括replies)有幾多個
有冇 80/20 rule?
有冇 long tail? [/quote]
知道之後都冇咩用

assembly.jc 2017-11-4 04:44 PM

[quote]原帖由 [i]darigold[/i] 於 2017-11-4 02:13 PM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=470368352&ptid=27026738][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
呢區總共有幾多個 distinct users?
每個人post 數(包括replies)有幾多個
有冇 80/20 rule?
有冇 long tail? [/quote]

80/20 是指?
long tail 是指 histogram?
唔計都知,多數 posts 都集中在幾位活躍用戶身上,long tail 就一定。前幾年可能會平均些。
頁: [1] 2
查看完整版本: [統計帖] 有關「程式編寫」帖子資料統計