處理器設計的下一步　單晶片同步多處理技術

masonchung · 發表於 2008-10-11 21:40:27

在指定的建置技術下，要將個別處理器性能發揮到極限非但不容易，也沒有效率。更快的時脈、更深的管線和更大的緩衝記憶體會佔用更大的晶片面積同時增加功耗成本，削弱了原本可提升10%性能的效益。有時候在沒有選擇的情況下，不得不將時脈速度提高並將電源和冷卻子系統升級；倘若使用將負載劃分到多個處理器的方式，不但可以增加最大整體性能限制，亦可簡化處理器設計使其更有效率。

目前有許多系統級晶片(SoC)設計利用多處理器的優勢，但它們均針對特定應用或採用鬆散耦合方式。直到最近，針對軟體多處理方案的SoC設計選項依然受到限制。但MIPS32 1004K同步處理系統(CPS) SoC元件的推出，意味著可在單一作業系統環境下實現晶片上對稱式多重處理(SMP)。

雖然平行編程很容易讓軟體工程師理解，但並非所有現今的程式碼都是針對平行處理平台所編寫，業界已有許多針對平行軟體的範例，其中有一些對軟體設計人員來說也相當熟悉。

數據平行演算法

數據平行演算法(Data-parallel algorithm)將數據組劃分到多處理器，甚至到若干個CPU中。在教科書中，可將大型資料組看作一個大量輸入檔或數據陣列；但在嵌入式系統中，它可能意味著高I/O和事件服務頻寬。在某些SoC架構中，多個輸入數據來源(如網路介面埠)可以被靜態地分配到針對自然平行數據、執行相同驅動程式/路由程式碼的多個處理器中。

當在單一資料陣列或輸入流中利用多處理器性能時，用於分割並管理資料的平行演算法就很常見。這種演算法對於單處理器來說通常不是最理想的，但由於具備了更靈活的頻寬運算特性，因此可提供效率補償。這些針對平行運算演算法均具備靈活性，但要是將一個工作程序轉換成一個平行資料演算法也許不具任何意義，甚至是相當困難或是不可能實現的，而這完全取決於程式相依性這類因素。如果絕大部分的應用程式運算都僅採用很少的常規運算迴圈來實現，那麼，為提高性能，系統設計師也許要明確地建置資料平行演算法。

隨著用於PC、工作站和伺服器的多核心X86晶片問世，新的資料庫和工具套件應運而生，使得平行演算法得以輕易地在少量的處理器上實現。許多用於嵌入式架構的資料庫和工具套件都是開放且可攜的，如MIPS為GCC所做的C/C++以及Fortran擴展，也正逐漸成為標準GNU編譯器的一部分。

平行控制編程

平行控制編程(Control-parallel programming)並非根據輸入，而是根據任務分割工作。若將一個以100人製造一台汽車為單位的汽車製造工廠比喻為一個100通道平行數據演算法，並將平行控制程式比喻為一個具有100人的組裝線工作站，各工作站負責百分之一的工作量，通常組裝線的效率會比較高，但組裝一台車的工作量就只有這麼多，這樣的限制在科學程式碼擴充到幾千個處理器時非常顯著，然而對於平行SoC架構而言這並不是個問題。

軟體工程師通常將程式劃分成若干個階段以易於編碼、除錯和維護，並減少指令記憶體和快取的工作量。通常，平行控制分解早已設在可見的作業系統(OS)任務層。在類似於Unix的系統中，單一命令‘cc’會依序呼叫C語言前置處理器、編譯器、組譯器和連結程式。它們之中的幾個可以同時執行，每個連續程式利用前一個階段的輸出作為輸入，在類似於Unix這樣的OS內使用檔案或軟體管線。

當獨立分解的執行任務尚未完成時，需進行一些軟體工程，使應用程式在OS和底層硬體上是可見的，並能在任務間明確地傳遞資料。但是不應該需要對階段演算法進行重寫。粗粒度的任務分解可透過檔案、網路應用程式(socket)或管線的進程通訊來實現。而針對細粒度的控制，如Posix執行緒API——pthreads，可由許多OS支援，包括Linux、Windows以及許多即時作業系統。

複雜的、模組化的多工嵌入式軟體系統時常會展現出意外的同步。整體系統任務很可能涉及到對應不同輸入的不同責任等多項任務。若沒有一個時間共用的OS，各任務就必須在個別處理器上執行。在一個時間共用的單處理器上，它們在輪流時間中執行；在一個具有SMP作業系統的多核心處理器上，它們能在可利用的處理器上同步執行。

圖1a：複雜的模組化多工嵌入式軟體系統時常會展現出意外的同步。有了一個時間共用的OS，各任務就必須在個別處理器上執行。在一個時間共用的單處理器上，它們在輪流時間中執行；在具有SMP作業系統的多處理器上，它們在可利用的處理器上同步執行。圖1b：在SMP作業系統中，所有的處理器都面對相同的記憶體、I/O元件和全域OS狀態。在單CPU上利用時間分段執行的多任務程式，將能同時在一個SMP系統中的CPU上執行。

分散式處理

分散式典型運算在網路用戶端伺服器模式中很常見，它在某些時候不被認為是‘平行’的。用戶端伺服器程式設計基本上是一種控制流程分解的形式。程式任務並不是獨自執行所有的運算，而是將工作請求發送到針對特定工作設計的特殊系統任務。用戶端伺服器程式設計大多都在LAN和WAN上完成，但SMP SoC也遵循相同的範例。未作修改的用戶端伺服器二進位資料可透過晶片上的TCP/IP或空迴繞網路(loopback network)介面進行通訊，或者使用更有效率的方法，利用區域通訊協議在記憶體中傳遞緩衝資料。

這些方法可能會被單獨或組合使用，以藉助SMP的性能優勢。有人甚至可能會建構一個分散式SMP伺服器的平行數據陣列，且各陣列均建置一個控制流程管線。

在SoC系統中，可以對處理器的靜態實體分解任務進行平行處理，處理器的平行任務可於硬體中完成，這可以減少軟體開銷和實體尺寸，但卻不能提供靈活性。

如果可以將一個嵌入式應用靜態地分解成用戶端和伺服器，並透過晶片互連進行通訊，那麼只需要使用訊息傳遞程式碼建置一個共用協議，以便將系統互相連繫。訊息傳遞協議可提供一個抽象層，使或多或少的處理器配置都能執行一般的應用程式碼，但無論任何配置，處理器的負載平衡就如同硬體分割一樣是靜態的。要達到更靈活的平行系統程式設計，可利用具有共享資源多核心處理器系統上的軟體任務分配來實現。

在SMP作業系統中，所有的處理器都面對相同的記憶體、I/O元件和全域OS狀態，這使得處理器間的程式移轉更簡單、更有效率，也更容易平衡負載。不需要額外的編程或系統管理，在單CPU上利用時間分段執行的多任務程式，將能同時在一個SMP系統中的CPU上執行。如同Linux，一個SMP的排程器可切換處理器的程式。

執行多個處理程序的Linux應用程式不需要修改，就可以利用SMP平行特性，而且通常不需要進行重新編譯。SMP Linux環境為可用處理器之間的調整提供了許多工具，如提高/降低任務的優先順序，或是對於在處理器子集上執行任意任務加以限制。要使用不同的即時排程體制，必須要有適當的核心支援。

類似Unix的OS能為應用程式提供一些針對相關任務優先順序排程的控制，甚至在單核心處理器時間共用系統中也是如此。傳統的外部命令和系統呼叫指令在Linux系統中被強化，藉由更精緻的機制排定任務優先順序、任務組或特定系統使用者。另外，在多核心處理器配置中，任一Linux任務都具有一個參數，用來指定那一組處理器可排定任務。預設參數即為整個系統處理器組，但這種具有類似於CPU的系統處理器組卻是可控制的。

SMP範例要求所有處理器找尋所有相同位址下的記憶體；對於低性能的處理器，必須透過將所有處理器的指令預取和載入/儲存流通量，置放在一個共用的記憶體和I/O匯流排上來達成。然而這種模式隨著處理器的增加而失去效用，因為匯流排會成為瓶頸。即使在單核心處理器系統中，高性能嵌入式核心的指令和數據頻寬需求亦支配了主記憶體和處理器間的緩衝記憶體。

在一個每顆處理器均具備獨立快取的系統中，其本質上已不屬於SMP，當一個處理器的快取保存了記憶體中唯一一個最近位置值的複製數據時，這時不對稱就產生了，必須加入快取一致性協議來恢復對稱。

在一個所有處理器都連接到一個公共匯流排的簡單系統中，快取控制器可監控匯流排，以得知哪一個快取記憶體保存了指定記憶體位置的最新版本。在更先進的系統中，是利用交換結構的點對點的連接將處理器連接到記憶體，因此快取一致性需要更高度的支援。一致性管理單元應該對記憶體執行施加全域指令，產生干涉訊號來維護處理器核心間的快取記憶體一致性。

像Linux這樣的SMP OS可自由地轉移任務，動態地均衡處理器負載。在嵌入式SoC中，絕大部份的整體運算可以在中斷服務中執行。好的負載均衡和性能調整必須對發生中斷服務的地方進行控制。Linux OS具有一個類似於IRQ的控制介面，可讓使用者和程式確認哪一個處理器負責指定的中斷服務。

快取憶體一致性基礎架構很實用，不僅在SMP的處理器間，在處理器和I/O DMA通道之間也相當有用。若是使用軟體的方式，便需要在每個I/O DMA作業之前或之後利用CPU來處理DMA緩衝器，對於I/O密集的應用而言，性能將大受影響；而使用I/O一致性硬體將I/O DMA連接到記憶體的方式，可以對DMA串流進行排序，並與一致的載入/儲存流程整合在一起，免除了軟體的開銷。

快取一致性管理單元應該對處理器、I/O和記憶體間的記憶體串流施加命令，這可增加處理器記憶體存取時間的週期，透過管線停滯產生處理器週期損失的結果。然而，一些如在單一核心上使用硬體多執行緒的方法，可允許單核心執行並行的指令串流，以增加管線的效率。

各核心的執行緒看起來就如同OS軟體中完善的CPU，包括具有獨立的中斷輸入。執行緒共用相同的緩衝記憶體和功能單元並插入到它們的管線執行中。若一個執行緒停滯了，另一個可以繼續執行，讓一致性記憶體子系統延遲週期循環下去，否則將會遺失。管理多核心的相同SMP OS可以管理它們的硬體執行緒，針對SMP編寫的軟體可運用多執行緒處理，反之亦然。

若兩個執行緒同時爭取一個管線，其性能相較於在許多獨立核心上兩個執行緒來得更低，應該對SMP Linux核心進行負載均衡最佳化。對於功耗最佳化，排程器可以將工作一次一個載入到一個核心的虛擬處理器上，使其他的處理器處於低功耗狀態。在性能最佳化方面，可以將工作分配到許多核心上，然後將多執行緒載入到每個核心中，直到所有的核心都有一個進展中的任務為止。

利用晶片上多處理功能可實現高SoC性能。SMP平台和軟體提供了一個具有靈活性的高性能運算平台，能大幅提升單一處理器的速度，而這通常只需要稍微、或者根本不需要修改應用程式碼。

作者：Mark Throndson

處理器事業部產品行銷總監

MIPS公司

[ 本帖最後由 masonchung 於 2008-10-11 09:41 PM 編輯 ]

		自動登錄	找回密碼
密碼			申請會員

處理器設計的下一步 單晶片同步多處理技術

本帖子中包含更多資源

處理器設計的下一步　單晶片同步多處理技術