查看完整版本 : 迎來全新sorting algorithm 第三版(特別版),64 bit with 2 thread

ncream 2017-11-17 09:42 AM

迎來全新sorting algorithm 第三版(特別版),64 bit with 2 thread

[size=4][color=#0000ff]首先真係好多謝sswroom師兄指點:smile_o06::smile_o06:,睇到問題所在,我以為去MinGw 官網download,一定係64bit 版。點知官網反而無,要揾fork網站先有。[/color][/size]
[size=4][color=#0000ff][/color][/size]
[size=4][color=#0000ff]不過64bit complier 出來的program比32bit較慢,慢100ms左右。[/color][/size]
[size=4][color=#0000ff][/color][/size]
[size=4][color=#0000ff]系統規格:[/color][/size]
[size=4][color=#0000ff][/color][/size]
[size=4][color=#0000ff][attach]7575426[/attach][/color][/size]
[size=4][color=#0000ff][/color][/size]
[size=4][color=#0000ff]成績如下:4406ms[/color][/size]
[size=4][color=#0000ff][/color][/size]
[size=4][color=#0000ff][/color][/size]
[size=4][color=#0000ff][attach]7575425[/attach][/color][/size]
[size=4][color=#0000ff][/color][/size]
[size=4][color=#0000ff][/color][/size]
[size=4][color=#0000ff]留意成績每次測試時間都有小小唔同。[/color][/size]
[size=4][color=#0000ff][/color][/size]
[size=4][color=#0000ff]依家諗緊in place,但可能因為要寫其他軟件暫時放低。[/color][/size]
[size=4][color=#0000ff][/color][/size]
[size=4][color=#0000ff]多謝煙師兄比到一個好既平台做測試比較。:smile_o15:[/color][/size]
[size=4][color=#0000ff][/color][/size]
[size=5][color=#ff0000]參考:煙師兄GPU 行5億個random number,CPU host memory數據:[/color][/size]



[attach]7575440[/attach]

[size=4][color=#0000ff]下載:[/color][/size]
[size=4][color=#0000ff][/color][/size]
[url=https://www.sendspace.com/file/rta5q5]https://www.sendspace.com/file/rta5q5[/url]
[size=4][/size]
[size=4][/size]
[size=4][/size]
[size=4][/size]
[size=4][/size]

[[i] 本帖最後由 ncream 於 2017-11-17 09:47 AM 編輯 [/i]]

sswroom 2017-11-17 09:52 AM

[quote]原帖由 [i]ncream[/i] 於 2017-11-17 09:42 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471013812&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
首先真係好多謝sswroom師兄指點:smile_o06::smile_o06:,睇到問題所在,我以為去MinGw 官網download,一定係64bit 版。點知官網反而無,要揾fork網站先有。

不過64bit complier 出來的program比32bit較慢, ... [/quote]64bit 正常會比32bit快, 因為Function Call的Effiency較好, Register也較多......可能是有一些其他因素令速度下降, 例如用32-bit index。
還有, 你可以試試用Non-Temporal Memory Write, 會比一般的Memory Write快10%左右

ncream 2017-11-17 09:53 AM

[size=4][color=#000080]煙師兄,好多謝你,我明白GPU勁過CPU好多,但以弱勝強真係好剌激,呢個就係我不斷改進sorting algorithm既原動力。[/color][/size]
[size=4][color=#000080][/color][/size]
[size=4][color=#000080]你調整下個library相信會更快,我好期待。或者換左粒GPU,1080 TI聽講話係無敵。[/color][/size]:smile_o12:

ncream 2017-11-17 09:54 AM

[quote]原帖由 [i]sswroom[/i] 於 2017-11-17 09:52 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471014350&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
64bit 正常會比32bit快, 因為Function Call的Effiency較好, Register也較多......可能是有一些其他因素令速度下降, 例如用32-bit index。
還有, 你可以試試用Non-Temporal Memory Write, 會比一般的Memory Write快1 ... [/quote]

多謝ching指點。我真係學到好多野:smile_o06:

煙民母親生賤種 2017-11-17 11:08 AM

[quote]原帖由 [i]ncream[/i] 於 2017-11-17 09:53 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471014381&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
煙師兄,好多謝你,我明白GPU勁過CPU好多,但以弱勝強真係好剌激,呢個就係我不斷改進sorting algorithm既原動力。

你調整下個library相信會更快,我好期待。或者換左粒GPU,1080 TI聽講話係無敵。:smile_o12: [/quote]你貼埋你個 ram usage 上來睇下 ... :fst_001:
呢 D 唔洗 1080, 單係睇你 gen random nums 個 timing, 同我都差一大截。可能我D ram係 bottleneck 。不過應該以i3 無可能做到呢個速度。:fst_011:所以都係果句, 無 code 無意思。:fst_002:

ncream 2017-11-17 11:09 AM

[quote]原帖由 [i]煙民母親生賤種[/i] 於 2017-11-17 11:08 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471018172&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
你貼埋你個 ram usage 上來睇下 ... :fst_001:
呢 D 唔洗 1080, 單係睇你 gen random nums 個 timing, 同我都差一大截。可能我D ram係 bottleneck 。不過應該以i3 無可能做到呢個速度。:fst_011:所以都係果句, 無 c ... [/quote]

點樣貼RAM USAGE???

ncream 2017-11-17 11:11 AM

[quote]原帖由 [i]煙民母親生賤種[/i] 於 2017-11-17 11:08 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471018172&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
你貼埋你個 ram usage 上來睇下 ... :fst_001:
呢 D 唔洗 1080, 單係睇你 gen random nums 個 timing, 同我都差一大截。可能我D ram係 bottleneck 。不過應該以i3 無可能做到呢個速度。:fst_011:所以都係果句, 無 c ... [/quote]

點解你唔下載係你部機 run下,咪一清二楚。:smile_o06:

煙民母親生賤種 2017-11-17 11:31 AM

[quote]原帖由 [i]ncream[/i] 於 2017-11-17 11:11 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471018335&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]


點解你唔下載係你部機 run下,咪一清二楚。:smile_o06: [/quote]no way ! 我從來都唔會 run 其他人的  .exe 的。:fst_011:
總之
無 code, 唔知當中做的 ops 係乜, 既然唔知係乜, 有好多 bug 出左來都唔會知的, 就好似有大量相同, 及己排的 nums .. 又或者 allocate memory 出問題, 但都直接 run 下去等等... :fst_003:

煙民母親生賤種 2017-11-17 11:33 AM

[quote]原帖由 [i]sswroom[/i] 於 2017-11-17 09:52 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471014350&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
64bit 正常會比32bit快, 因為Function Call的Effiency較好, Register也較多......可能是有一些其他因素令速度下降, 例如用32-bit index。
還有, 你可以試試用Non-Temporal Memory Write, 會比一般的Memory Write快1 ... [/quote]可能唔係。32bit read/write 可能快過 64bit
我用 win10 64bit run 在 winxp 寫的同 code program, winxp 有明顯的速度增加。:fst_011:

ncream 2017-11-17 11:33 AM

[quote]原帖由 [i]煙民母親生賤種[/i] 於 2017-11-17 11:31 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471019426&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
no way ! 我從來都唔會 run 其他人的  .exe 的。:fst_011:
總之
無 code, 唔知當中做的 ops 係乜, 既然唔知係乜, 有好多 bug 出左來都唔會知的, 就好似有大量相同, 及己排的 nums .. 又或者 allocate memory 出問題 ... [/quote]

等個program發展成熟,我會做成dll function比人寫code測試。到時係一件好好用既工具。:smile_o09:

煙民母親生賤種 2017-11-17 11:36 AM

[quote]原帖由 [i]ncream[/i] 於 2017-11-17 11:33 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471019565&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]


等個program發展成熟,我會做成dll function比人寫code測試。到時係一件好好用既工具。:smile_o09: [/quote]咩叫發展成熟? 本身有 bug 的話, 點發展都係一個有 bug 的東西。:fst_011:

ncream 2017-11-17 11:38 AM

[quote]原帖由 [i]煙民母親生賤種[/i] 於 2017-11-17 11:36 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471019733&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
咩叫發展成熟? 本身有 bug 的話, 點發展都係一個有 bug 的東西。:fst_011: [/quote]

最起碼都要完成IN PLCAE個 PART。:smile_o06:

煙民母親生賤種 2017-11-17 11:41 AM

[quote]原帖由 [i]ncream[/i] 於 2017-11-17 11:38 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471019870&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]


最起碼都要完成IN PLCAE個 PART。:smile_o06: [/quote]

inplace 無可能快過用大量 memory 做代替品的, 特別在 parallel 的架構上。:fst_011:

ncream 2017-11-17 11:42 AM

[quote]原帖由 [i]煙民母親生賤種[/i] 於 2017-11-17 11:41 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471020019&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]


inplace 無可能快過用大量 memory 做代替品的, 特別在 parallel 的架構上。:fst_011: [/quote]

就係要挑戰難度。我心內已有方案。但要實踐過先知。:smile_o15:

ncream 2017-11-17 11:45 AM

[quote]原帖由 [i]煙民母親生賤種[/i] 於 2017-11-17 11:41 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471020019&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]


inplace 無可能快過用大量 memory 做代替品的, 特別在 parallel 的架構上。:fst_011: [/quote]

其實第一次接觸你個GPU sorting post之後,由鴿巢開始,我心中已有N咁多個方案。起碼有4-5個,要逐一騇證速度,真係有排寫。加上腦海又不斷湧出各種不同的可能。總之呢個post搞到我好亂。

除左RSA破解之外,呢個係第二個咁亂的情況。

煙民母親生賤種 2017-11-17 11:49 AM

[quote]原帖由 [i]ncream[/i] 於 2017-11-17 11:45 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471020267&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]


其實第一次接觸你個GPU sorting post之後,由鴿巢開始,我心中已有N咁多個方案。起碼有4-5個,要逐一騇證速度,真係有排寫。加上腦海又不斷湧出各種不同的可能。總之呢個post搞到我好亂。

除左RSA破解之外,呢 ... [/quote]有 N 個方案並唔係問題, 最重要係你設計的方案, 裏面會唔會出左問題, 連自己都唔知。我用 4 thread run 你個鴿巢方案, 但都要 3 秒幾先 sort 到 1 億個 element, 但你自己寫果個, 單 thread 都快過我 4 thread. 我覺得有點出奇:fst_011:

ncream 2017-11-17 11:53 AM

[quote]原帖由 [i]煙民母親生賤種[/i] 於 2017-11-17 11:49 AM 發表 [url=http://computer.discuss.com.hk/redirect.php?goto=findpost&pid=471020465&ptid=27063993][img]http://computer.discuss.com.hk/images/common/back.gif[/img][/url]
有 N 個方案並唔係問題, 最重要係你設計的方案, 裏面會唔會出左問題, 連自己都唔知。我用 4 thread run 你個鴿巢方案, 但都要 3 秒幾先 sort 到 1 億個 element, 但你自己寫果個, 單 thread 都快過我 4 thread. 我覺 ... [/quote]

當然一個比一個快,唔係唔會show出來。我試過pancake sort。bill gate個個,好好玩,雖然慢到飛起。亦玩過bingo sort。真係fun。:smile_o13:

我諗左in place先,跟住出dll, 再跟住出source code。:smile_o13:
頁: [1]
查看完整版本: 迎來全新sorting algorithm 第三版(特別版),64 bit with 2 thread