歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
您现在的位置: Linux教程網 >> UnixLinux >  >> Linux編程 >> Linux編程

哪些因素影響Java調用的性能?

當時發生了什麼?

這得從一個小故事說起。我在一個Java核心庫的郵件列表中提交了一個修改 ——重寫了一些本是 final 的方法。一石激起千層浪,這一改動引發了幾番討論。而其中一個討論的話題是:調用一個去除 final 標記的方法,將導致哪種程度的性能下降(performance regression)。

我不能確定這一改變是否會導致性能下降,但當我決定將此暫時擱置一邊,試著尋找在這個討論裡是否有人公布過任何相關的完整基准測試(sane benchmarks)時,結果空手而歸。我不能肯定地說有關的基准測試是不存在的,或者說其他人沒做過這方面的探討。但我能肯定的是,在這裡,連任何公開的代碼評審都沒有。唉,看來是時候寫一個基准測試了。

基准測試的方法論

我決定選用一個相當不錯的框架 —— JMH 來構建基准測試。如果你質疑它測試的准確性,那麼建議你看下對這個框架作者(Aleksey Shipilev)的訪談,或者閱讀一下由Nitsan Wakart撰寫的一篇彰顯此框架風采的博文。

現在,我想知道哪些因素影響了Java方法調用的性能。所以我決定以不同方式調用方法,並測算它們的性能開銷。以單一變量為前提來構造一套基准測試,我便能逐個排除或確定,哪些因素或哪種組合會影響到方法調用的性能。

內聯

讓我們把這些方法調用點壓扁

方法調用的有無,是一個影響程度既是最高又是最低的因素——對於編譯器來說,徹底優化方法調用所帶來的開銷並非不可能,有兩種方法可以實現這樣的需求:直接內聯該方法本身和使用內聯緩存(inline cache)。千萬別被引入的這些術語給嚇倒——它們都是通俗易懂的。現在我們假設有一個叫Foo的類,該類定義了一個叫bar的方法:

1 2 3 class Foo {   void bar() { ... } }

我們以如下的方式調用bar方法:

1 2 Foo foo = new Foo(); foo.bar();

這裡有一個重要的知識點:實際調用 bar 的位置,即 foo.bar(),稱為調用點(callsite)。當我們說一個方法“被內聯”,意指方法體被插入到了調用點的位置上,以代替方法調用。對於那些由許多短小的方法所構成的程序——我稱之為被適當分解的程序——內聯可以有效地提升性能。這是因為結束以後可以發現,程序並沒有把所有時間用在方法調用上,實際上程序並沒有工作!我們在JMH中可以借由 CompilerControl 注釋控制一個方法是否被內聯。關於內聯緩存的概念,我稍後再來說明。

層次結構深度與重寫子類方法

是因為父母讓孩子慢下來了嗎?

如果我們移除一個方法的 final 關鍵字,便意味著我們能夠重寫它。所以這是另一個在進行測試我們需要考慮的情況。我會選擇在同一層次結構中不同層次的子類裡調用一些方法,並且在這些方法裡有一些是會被不同層次的子類重寫的。這樣的測試能讓我們確定或排除深的層次結構是否影響到重寫所帶來的性能開銷。

多態性

動物世界:多態是如何表現的

先前我提到調用點這一概念時,我偷偷地回避了一個相當重要的問題——因為在子類中可以重寫一個非 final 方法,這使得調用點可以調用不同的方法。現假設我傳入一個 Foo 的實例或一個重寫了 bar 子類—— Baz的實例,編譯器如何得知要調用哪一個 bar 方法呢?在默認情況下,方法將在Java中被虛擬化(可重寫)。對於任一調用點,編譯器需要在一個稱為虛擬表(vtable)的表中尋找與其對應的方法。這是個非常耗時的過程,所以,能進行優化的編譯器,總是會試圖減少這種查詢帶來的開銷。一種方法就是先前提到的內聯,這的確是個良策,但前提是編譯器能證明在給定的調用點上調用的方法唯一。而這樣的調用點我們稱為單態(monomorphic)調用點。

不幸的是,進行這種分析需要耗費大量時間。所以在實際過程中,確定一個調用點是否單態是個不太可取的方法。對此,JIT編譯器傾向於使用一種替代方法:列出哪些類可以在此調用點被調用,接著根據之前的N個相同的調用猜測此調用點是否是單態的。以假定某個調用點永遠為單態,來進行投機性質的優化往往是可取的行為。因為這樣的優化往往都是正確的,但也因它無法確保永遠正確,編譯器需要在方法調用之前注入一個用於檢查方法類型的防護機制。

除了單態的調用點以外,還有兩種調用點我們希望對其進行優化。一種稱為雙態(bimorphic)調用點,在該點上有兩個候選方法。對此你依然可以實現內聯——借助防護代碼,讓其檢測應調用哪一個方法,並引導程序跳轉至內聯在調用點的兩個方法體中真正對應的那一個。這樣的方式還是比查看所有虛擬表的方式要快得多。但在某些情況下,我們得利用內聯緩存來進行優化。內聯緩存需要借助一張特定的跳轉表( jump table),這種表類似於對虛擬表查找做的一份緩存。hotsopt JIT編譯器支持雙態內聯緩存,並定義那些擁有三個及三個以上候選方法的調用點為超多狀態(megamorphic)調用點。

這就使得我在基准測試與探究當中,需要額外地把調用情況劃分為三類:單態、雙態、超多狀態。

結果

讓我們把結果分類組織,以便研究細節。我已經提供了統計產生的原始數據。但我們的興趣點不應放在性能測試結果的具體數值上,而應是不同類型的方法調用的性能開銷之間的比率以及各自的錯誤率是否夠低。如果最快與最慢的結果之間比率為6.26,則說明這是一個顯著性差異。由於測試時使用的是空方法(詳見源代碼),所以在實際應用中,這樣的差異會更大。

你可以在 github上查看此次基准測試的源代碼。為了避免產生困惑,待會所有的結果將分塊顯示。最後顯示的多態的基准測試是在 PolymorphicBenchmark 類中進行,其它的則在 JavaFinalBenchmark 類中。

簡單調用點

最先看到的的一組結果,是比較調用一個 virtual 方法、一個 final 方法和一個擁有很深的層級結構,同時被所有子類重寫的方法所帶來的開銷。注意,調用這些方法的時候我們都強制編譯器不要內聯它們。我們可以看到:三者在時間花費上相差甚微,並且各自的誤差率都小到可以忽略。對此我們可以斷定,僅添加一個 final 關鍵字並不會大幅度提升調用性能,重寫一個方法也不見得會帶來什麼影響。

內聯簡單調用

現在,我們在開啟內聯的情況下再來一次相同的測試。由結果可見���final 方法和 virtual 方法的時間花費依舊相近,並比在沒有內聯的情況下快了4倍,我將此歸功於內聯優化。相比而言,被所有子類重寫的方法的結果可就沒那麼好看了。我推測這是由於此方法有多個子類實現,使得編譯器必須插入一個類型保護。有關的細節我們將在研究多態性的結果時進行闡述。

類層次結構的影響

哇噢——這兒有好幾個的方法!方法名稱的編號(1~4)代表該方法調用的層次。因此,parentMethod4 表示我們調用的方法位於class的上面第四級。(譯注:在源代碼中該方法位於頂層的父類)。由此結果我們能斷定,結構層次的深度對性能開銷沒有影響。在開啟內聯的實例中,結論也是一樣。這個測試中,被內聯的方法的性能與 inlinableAlwaysOverriddenMethod 相當,但稍遜於 inlinableVirtualInvoke。我依舊認為這與使用了類型保護有關。事實上JIT編譯器能剖析所有候選方法,從而只內聯對應的那一個,但這並不證明它總會這麼干。

類的層級結構對final方法的影響

該測試的結論與第一個測試一樣 —— final 關鍵字不會產生任何影響。我本以為該測試將證明 inlinableParentFinalMethod4 以無類型保護的方式進行內聯,但結果表明事實並非如此。

多態性

最後,我們來看涉及多態分派(polymorphic dispatch)的測試結果。單態調用的性能開銷與之前virtual方法相近。但對於雙態與超多狀態調用,由於需要在一張較大的虛擬表上面進行查找,所以需要更多的時間。而一旦我們開啟內聯支持,類型分析(type profiling )將會在單態或雙態的調用點啟用,使得在這些調用點上的方法調用的開銷減少。但與層級結構的實例一樣,這只會減少少量的時間。相比而言,超多狀態的實例則依舊耗時較長。記住,我並沒有說在這個測試中hotspot禁用了內聯,它只是沒有實現多態調用點的多態內聯緩存。

我們從中學到了什麼?

我認為,需要我們引起注意的是,很多人沒有認識到不同方式的方法調用所花費的時間是不一樣的。即便有些人發現了這種問題,但他們不去證明是否真的如此。作為第一個吃螃蟹的人,我列出了各種壞的假設,因此我希望這份研究能夠幫助到大家。以下是我很樂於與大家分享的一些結論:

  • 最快與最短的方法調用的類型之間存在巨大的性能差別。
  • 在實際應用中,添加或刪除final關鍵字並不會真正影響性能。但如果除此以外,你還在層級結構上進行某些操作,那這些行為則可能導致性能下降。
  • 更深的類的層次結構並不會真正影響到調用的性能。
  • 單態調用比雙態調用更快。
  • 雙態調用比超多狀態調用更快。
  • 我們在能夠進行剖析(profile-ably),但是不能進行查驗的單態調用點中看到類型保護,這種保護會使得這些調用點的調用性能低於那些能夠進行查驗的單態調用點。

我想說的是,對我而言,類型保護帶來的性能開銷是一個“重大發現”。這是一個我之前很少提及,並且總是當做無關事物忽視掉的因素。

注意事項與進一步工作

本文不能囊括這個話題的全部內容。因為:

  • 這篇博文所關注的影響到方法調用的性能的因素,只與類型有關。所以,有一個因素我並未提及:方法的長短或者說調用棧的深度——如果方法太長,那麼它將不會被內聯,為此你必須承受方法調用所帶來的開銷。另外,為了使代碼具有易讀性,你也應當把方法寫得短小一些。
  • 在本次測試的所有我並沒有嘗試引入接口。如果你對此有興趣的話,這裡有一篇有關接口調用的性能的研究Mechanical Sympathy。
  • 還有一個因素被我完全忽視了,那就是方法內聯的優化方式在不同編譯器上的效果差異。當編譯器是僅關注某個方法(內部過程優化)時,它們需要足夠地信息才能有效優化。內聯的限制可以有效地減少其它優化所需要關注的范圍。
  • 試著站在匯編語言的層面進行解釋的話,會涉及更多的細節內容。

或許以上內容已經超出了本文的范疇,需要另寫博文進行討論。

原文鏈接: voxxed 翻譯: ImportNew.com - elviskang
譯文鏈接: http://www.importnew.com/16202.html

Copyright © Linux教程網 All Rights Reserved