# パイプラインステージ統合と DVSの併用による消費電力の削減

# 嶋田 創† 安藤秀樹<sup>††</sup>島田俊夫<sup>††</sup>

近年のモバイル・プロセッサでは、低消費電力と高性能の両方が要求されている.この要求に応え る手法として我々は、パイプラインステージ統合 (PSU: Pipeline Stage Unification)を提案し、現 在主流の Dynamic Voltage Scaling(DVS)よりも消費エネルギーを削減可能であることを示した. しかし、DVS と PSU は排他的にしか利用できないものではなく、併用することによってさらなる消 費電力の削減を達成できると考えられる.本論文では、DVS と PSU を複合し消費電力を削減する ハイブリッド制御機構を提案する.この機構はシステムが要求するスループットに応じて動的に統合 するステージ数とクロック周波数と電源電圧を適応させることにより、DVS と PSU それぞれを単独 で用いるよりも多くの消費電力の削減を達成する.この機構を種々の目標のスループットに対して評 価した結果、提案するハイブリッド制御機構は DVS 単独に対して最大 14%、PSU 単独に対して最 大 28%消費電力を削減できることを示した.

# Power Consumption Reduction through Combining Pipeline Stage Unification and DVS

HAJIME SHIMADA,<sup>†</sup> HIDEKI ANDO<sup>††</sup> and TOSHIO SHIMADA<sup>††</sup>

Recent mobile processors are required to exhibit both low-power consumption and high performance. To satisfy these requirements, we proposed pipeline stage unification (PSU), and showed that it can reduce energy consumption than that of dynamic voltage scaling (DVS) which is currently employed. However, DVS and PSU are not exclusive techniques, and so further reduction of power comsumption can be achieved through combining them. This paper proposes a hybrid control mechanism which combines DVS and PSU to reduce power consumption more. This mechanism adapts the number of unifying stages, clock frequency, and supply voltage according to the throughput that the system requires, and consequently it reduces power consumption more than standalone DVS and standalone PSU. We evaluated our mechanism with various target throughputs. Our evaluation results show that our mechanism reduces power consumption by a maximum of 14% compared to the standalone DVS or by a maximum of 28% compared to the standalone PSU.

## 1. はじめに

近年のモバイル・プロセッサでは、低消費電力と高 性能の両方が要求されている.この要求を満たすため に、現在 **DVS**(dynamic voltage scaling)と呼ばれる 方式が導入されている (たとえば、Transmeta Crusoe の LongRun<sup>1)</sup>, Intel PentiumM シリーズの Speed-Step<sup>2)</sup>, AMD Turion の PowerNow<sup>3)</sup>). DVS はバッ テリ持続時間要求やプロセッサ負荷に応じて、動的に クロック周波数と電源電圧を変更するものである.バッ テリ持続時間要求が強いか、与えられた負荷が低けれ ば、クロック周波数を低下させ、消費電力を削減する. さらに、延びたクロック・サイクル時間に信号の遅延 を合わせ、電源電圧を低下させる.これにより、プロ グラム実行に要する消費電力を削減する.このように、 DVS は消費電力を削減する有効な手法であるが、プ ロセス技術の進歩に応じて最大電源電圧は下げられる 一方で、サブスレッショルド・リーク電流を増加させ る閾値電圧の低下は得策とはいえない点や、ソフト・ エラーの増加という面から、最小電源電圧はそれほど 下げられないことから、その有効性は減少していく.

これに対して,我々はパイプラインのステージを動的 に統合するパイプラインステージ統合 (PSU: pipeline stage unification) と呼ぶ手法を提案した<sup>4)~6)</sup>. PSU では DVS と同様に,プロセッサの消費電力を削減す るためにクロック周波数を低下させるが, DVS と異

<sup>†</sup> 京都大学大学院情報学研究科

Graduate School of Informatics, Kyoto University †† 名古屋大学大学院工学研究科

Graduate School of Engineering, Nagoya University

#### 情報処理学会論文誌



なり,電源電圧を低下させるのではなく,パイプライ ン・レジスタをバイパスさせることによって複数のパ イプライン・ステージを統合する.クロック・ドライ バの消費電力削減や,投機失敗に対するペナルティ削 減による IPC 向上により,プロセッサの消費エネル ギーが削減される.

以前の論文では、PSU と DVS それぞれを単独で用 いた場合の評価を行い、ステージ統合の切り替え点と なるクロック周波数 (スイッチング・ポイント) におい て、PSUはDVSと比べ消費エネルギーをより多く削 減できることを示した<sup>4)~6)</sup>. しかしながら, PSU と DVS は排他的にしか利用できないものではなく、併 用することが可能である。前述した通り、DVS は将 来のプロセス技術では有効性は減少していくが、その 有効性がなくなることはないと考えられる. PSU だ けでは、スイッチング・ポイント間ではクロック周波 数の変化に比例した量でしか消費電力を削減できない が、このとき電源電圧も同時に下げれば、さらに消費 電力を削減できる.そこで我々は、DVSと PSU を複 合し,統合するステージ数とクロック周波数を動的に 変更することによって目標とするスループットを満足 しつつ、消費電力を可能なかぎり抑えるハイブリッド 制御機構について提案し7),8),それを用いた時の消費 電力を DVS と比較する.

本論文の構成は以下の通りである.2章ではこの研 究のベースとなる PSU について述べる.3章では提 案する DVS と PSU を複合するハイブリッド制御機 構について述べる.4章では評価における仮定につい て説明し,5章で評価結果を示す.6章では関連文献 について述べ,最後に,7章でまとめる.

## 2. PSU の概要

図1に PSU に関連する信号線とパイプライン・レジスタとの結線関係を示す.説明を簡単にするために, 2ステージの統合を例としている.図1に示すように, パイプライン・レジスタには、クロックの階層ネット ワークの最終段のクロック・ドライバの出力が入力さ れている.また、PSU のための信号線として、統合 信号と呼ぶ、統合を指示する信号線が追加される.

図1(a)はステージを統合していない状態を,図1 (b)は統合した状態を示す.図中の黒い部分は動作部 分を示し,灰色の部分は動作していない部分を示す. 図1(a)は通常のパイプラインとして動作している状 態を示しており,統合信号は1である.隣接する組合 せ論理回路AとBは、それらの回路の間のパイプラ イン・レジスタが動作しているため,異なったステー ジとして動作する.一方,図1(b)では,統合信号を 0にすることによって組合せ論理回路AとBの間の パイプライン・レジスタへのクロックが入力されなく なり,信号は統合信号により制御されるマルチプレク サ(図では省略)によりパイプライン・レジスタをバ イパスする.この場合,2つの組合せ論理回路は1つ のステージとして動作する.

以上では2ステージ統合の場合についてのみ述べた が,統合信号を複数用意し,クロック・ドライバ停止 のための信号を適切に制御することにより,さらに多 くのステージを統合できるように拡張可能である.

# DVS と PSU を複合するハイブリッド制 御機構

この節では、DVS と PSU を複合し消費電力を削減 するハイブリッド制御機構を提案する.以下の説明に おいて,統合度とは PSU によって統合されているス テージ数とする.統合度 1 は統合しないことを意味す る.クロック周波数は商用のプロセッサにおける DVS と同様,あらかじめ定められた離散値のいずれかを取 ることとする.目標とするスループットを TP<sub>target</sub> と 表し、これは OS より指示されるものとする.通常, DVS では制御は OS より下のソフトウェア・レイア で行われるが、本ハイブリッド制御機構においても同 様であり、TP<sub>target</sub> が指示される以外に OS との間に やりとりはない.

# 3.1 アルゴリズム

制御アルゴリズムは、基本的には、最小の電力でス ループットが TP<sub>target</sub> を満たすよう、定期的に、統 合度、クロック周波数、電源電圧の3つのパラメータ を調整させるものである.調整のために、サンプリン グ・フェーズと呼ぶ区間を設ける.このフェーズでは、 設定可能な統合度の全てについて、実際に IPC を測 定し、パラメータ決定に用いる.決定したパラメータ で、次のサンプリング・フェーズまでプロセッサを動



作させる.この期間を,実行フェーズと呼ぶ.図2に 2つのフェーズが切り替わる様子を示す.

図 2 に示しているように、サンプリング・フェーズ は、さらに、設定可能な統合度を変化させ、その各々 における IPC を測定するサンプリング・サブフェー ズよりなる.サンプリング・フェーズのある統合度 uにおけるサンプリング・サブフェーズにおいては、ま ず、測定した IPC より、 $TP_{target}$  を満たす最小のク ロック周波数  $f_u$  を求める.次に、実行開始から現在 までのスループット  $TP_{current}$  を計算し、 $TP_{target}$  と の誤差を計算する.その量に応じて、次の実行フェー ズにおいて誤差を縮められるよう、クロック周波数  $f_u$ を調整する. $u \geq f_u$ の組に対応する最小の電源電圧  $V_u$  を求め、 $\{u, f_u, V_u\}$  を統合度 u における最適なパ ラメータとする.

全てのサンプリング・サブフェーズが終了したなら, 各パラメータにおけるプロセッサの消費電力を推定し, それが最小となるパラメータを次の実行フェーズのパ ラメータ { $U, f_U, V_U$ } として採用し,次の実行フェー ズに入る.

与えられたプロセッサに対し,統合度とクロック周 波数が定まれば,そのパラメータでプロセッサが正し く動作するための最小の電源電圧は一意に定まる (4.3 節で述べる).したがって,サンプリング・フェーズで 実際に求める必要があるのは,統合度とクロック周波 数だけである.

アルゴリズムの詳細を説明する前に,準備として, スループットの計算について説明する.一般にスルー プット*TP*は,単位時間あたりの実行命令数で定義さ れ,以下の式で定義される:

$$TP = \frac{total\_insts}{total\_time}$$
(1)  
=  $IPC \times f$ (2)

ここで、f はクロック周波数、total\_insts はプロ グラムの実行開始からスループット計算時までの総実 行命令数, total\_time はプログラムの実行開始からス ループット計算時までの総実行時間である.

以下,アルゴリズムの説明のために,実行フェーズ,

および,サンプリング・フェーズに実行順に番号を付ける.この番号は,実行フェーズ,および,サンプリ ング・フェーズ各々に独立してつけることとする.よっ て,各フェーズと番号の出現順は,「実行フェーズ 1, サンプリング・フェーズ 1,実行フェーズ 2,サンプ リング・フェーズ 2,…」のようになる.

アルゴリズムは以下の通りである:

- 求めるパラメータ { 統合度, クロック周 波数,電源電圧 } と TP<sub>current</sub> を, それぞれ, {1, f<sub>1max</sub>, V<sub>1max</sub>}, 0 に初期化する.ここで, f<sub>1max</sub>, V<sub>1max</sub> はそれぞれ, 統合度1におけるクロック周波 数と電源電圧の可動範囲における最大値である.
- (2) サンプリング・フェーズ(i)に入ったら、次の 実行フェーズにおけるパラメータ候補集合 CAND を空に初期化する.
- (3) 各サンプリング・サブフェーズでは、クロック 周波数を各統合度 u における可動範囲の最大値と し、実行命令数 *insts* およびクロック・サイクル数 *cycles* を計測する.サンプリング・サブフェーズ終 了時には、以下のようにして、各サンプリング・サ ブフェーズにおける統合度 u におけるパラメータ { $u, f_u, V_u$ } を求める.
  - (a) *TP<sub>current</sub>* を式 (1) を用いて更新する.
  - (b) 統合度 *u* における IPC, *IPC<sub>u</sub>* を以下の式 で求める.

$$IPC_u = \frac{insts}{cycles} \tag{3}$$

- (c)  $TP_{target}$  を満たす最小のクロック周波数  $f_u$ を,得られた  $IPC_u$  を式 (2) に代入して求め る. ただし,  $f_u > f_{umax}$  ならば  $f_u = f_{umax}$ ,  $f_u < f_{umin}$  ならば  $f_u = f_{umin}$  とする. ここで,  $f_{umax}$  は統合度 u におけるクロック周波数の可動 範囲における最大値,  $f_{umin}$  は統合度 u における クロック周波数の可動範囲における最小値である.
- (d) TP<sub>target</sub> と TP<sub>current</sub> との誤差 error を以下の式で計算する:

$$error = \frac{TP_{current}}{TP_{target}} - 1 \tag{4}$$

次の実行フェーズで *error* がより小さくなるよう に,(c) で得られた  $f_u$  を修正する.ここで, $f_u$ は離散値であるため,その離散値のステップにし たがって修正する.この時,修正の最大ステップ 数は,あらかじめ  $k_{max}$  と定めておく.

具体的には, *error* の絶対値が, あらかじめ定め た誤差範囲 E に対し,以下の式を満たす最大の 非負の整数  $k(\leq k_{max})$  を見つけ,  $f_u \in k$  ステッ プだけ増減させる.

 $|error| > k \times E$  (5) error が非負ならば減少させ、負ならば増加させ る. ただし、 $f_u > f_{umax}$  ならば  $f_u$  を  $f_{umax}$ ,  $f_u < f_{umin}$  ならば  $f_u$  を  $f_{umin}$  とする.

- (e)  $u, f_u$  でインデクスされる表を引いて  $V_u$  を 求め, *CAND* に  $\{u, f_u, V_u\}$  を加える.
- (f) 全ての統合度のサンプリングが終わっていな ければ、まだサンプリングが終わっていない統合 度を選択し、サンプリング・サブフェーズに入る. この場合、アルゴリズムは(3)の最初に戻る.
- (4) CAND に含まれる各パラメータ候補の消費電力を求め、最も消費電力が小さい候補の {u, fu, Vu}を次の実行フェーズのパラメータ {U(i+1), f<sub>U(i+1)</sub>, V<sub>U(i+1</sub>)}とする.

ただし,  $TP_{target}$  を達成することを重視し, error が負かつ  $|error| > k_{max} \times E$ であれば,  $TP_{current}$ が  $TP_{target}$  を大幅に下回っているとして, スルー プットが最大になるよう, 統合度 1, クロック周波 数 100%で動作させる.

以上では,説明を容易にするために,サンプリング・ フェーズでは,可能な全ての統合度について IPC の 測定を行うと述べたが,実際には,実行フェーズでも IPC の測定を行い,その統合度における最適なクロッ ク周波数と電源電圧を,サンプリング・サブフェーズ での方法と同じ方法で求める.これにより,サンプリ ング・フェーズでは,実行フェーズで設定されていた 統合度以外の場合でのサンプリングのみを行えば良く, サンプリング・フェーズ時間を短縮できる.

## 3.2 実 装

3.1 節のアルゴリズムはソフトウェアで実装するが, その際に3つの方法が考えられる.1つ目の方法は, そのソフトウェアの実行を別スレッドとし,必要に応 じて切り替える方法である.この方法は,OSを介し たスレッド切り替えを要し,その時間オーバヘッドが 問題となる.2つ目の方法は,同じく別スレッドとす るが,SMT(Simultaneous Multi-Threading)でプロ グラムの実行と同時に実行するものである.この方法 は、アルゴリズムのスレッドは、常に「起きている」 ので、スレッド切り替えのオーバヘッドはないが、プ ロセッサを SMT に対応させなければならならず、プ ロセッサが複雑化したり、面積が増大する (文献 9) に よれば 5%) という問題がある.3 つ目の方法は、ア ルゴリズムを実行する専用の RISC コアを備えること である.この方法は、先の2 つの方法のような欠点は ないが、RISC コアの面積コストが問題となる.しか し、このコストは以下に述べるように十分小さく問題 ない.

例えば MIPS 4KE を搭載した場合について検討す る. 文献 10) によれば, MIPS 4KE コアのサイズは 130nm のプロセス技術で 1.2~1.5mm<sup>2</sup> である. 上記 のコアは, アルゴリズムの実行に必要な浮動小数点ユ ニットを含まないので, これを追加しなくてはならな い. 文献 11) によれば, この面積は 130nm のプロセ ス技術で 1.8mm<sup>2</sup> である. これらを 90nm のプロセス 技術にシュリンクすると,約1.4~1.6mm<sup>2</sup> となる. こ れを 90nm のプロセス技術で 100mm<sup>2</sup> 前後の PC 用 モバイル・プロセッサに搭載すると考えると, その面 積オーバヘッドは 2%程度となると言える. このオー バヘッドは十分許容できるものと考える.

なお, RISC コアはメインのプロセッサとは独立し ており, アルゴリズムのソフトウェアは, RISC コア の命令として専用の ROM に埋め込まれる.また, ア ルゴリズムの実行のために以下のカウンタ/レジスタ が追加される.

- total\_insts を記憶するレジスタ
- (2) total\_time を記憶するレジスタ
- (3) *insts* を数えるカウンタ
- (4) cycles を数えるカウンタ

これらのカウンタ/レジスタは RISC コアの近傍に 配置され,(3)(4)のカウンタは毎サイクル,メイン・ プロセッサによって更新される.メイン・プロセッサ からカウンタまでは距離が遠く,1サイクルでカウン タを更新できない懸念があるが,これはパイプライ ン化すれば問題ない.(1)(2)のレジスタについては, (3)(4)のカウンタの値を用いて,毎サンプリング・サ ブフェーズの開始時に RISC コアにより計算され更新 される.

## 4. 評価環境

## 4.1 シミュレーション環境

SimpleScalar Tool Set<sup>12)</sup> 中の out-of-order 実行シ ミュレータをベースに提案するハイブリッド制御機 構を組み込み,測定を行なった.命令セットは Sim-



Fig.3 Assumed PSU pipeline.

表1 ベンチマーク Table 1 Benchmark.

| ベンチマーク  | 入力                     |  |
|---------|------------------------|--|
| bzip2   | train/input.compressed |  |
| gcc     | train/cp-decl.i        |  |
| gzip    | train/input.combined   |  |
| mcf     | ref/inp.in             |  |
| parser  | train/train.in         |  |
| perlbmk | train/scrabbl.in       |  |
| vortex  | train/lendian.raw      |  |
| vpr     | train/route.in         |  |

pleScalar PISA である. 表1 に示すように, ベンチ マーク・プログラムとして, SPECint2000 の8本を 用いた. ベンチマーク・プログラムのバイナリは gcc ver.2.7.2.3を用い, -O6 -funroll-loops のオプションで コンパイルし作成した.入力は train 入力もしくは ref 入力を用い,最初の1G 命令をスキップした後, 1.5G 命令を測定に用いた.

表2に、シミュレーションにおいて仮定したプロ セッサの構成を示す.パイプラインの段数は20段と 仮定した.

# 4.2 パイプラインの仮定

本評価では,統合度1,2,4の3種を仮定する.図3 に統合度1,2,4のパイプラインを示す.図3(a)に示 すように,評価においては,180nmのPentium 4<sup>13)</sup> のパイプラインとほぼ等しいパイプラインをベースと した.図中の各ステージの動作については,以下のと

表 2 プロセッサの構成 Table 2 Processor configuration

| Table 2 Trocessor configuration. |                                                                                                         |  |
|----------------------------------|---------------------------------------------------------------------------------------------------------|--|
| プロセッサ<br>・コア                     | 発行幅 8, RUU 64 エントリ,<br>LSQ 32 エントリ, int ALU 8,<br>int mult/div 4, fp ALU 8,<br>fp mult/div 4, メモリ・ポート 8 |  |
| 分岐予測                             | PHT 8K エントリ/<br>履歴長 6 の gshare,<br>BTB 2K エントリ,<br>RAS 16 エントリ                                          |  |
| L1 命令キャッシュ                       | 64KB/32B ライン/1-way                                                                                      |  |
| L1 データ・キャッシュ                     | 64KB/32B ライン/1-way                                                                                      |  |
| L2 キャッシュ                         | 2MB/64B ライン/4-way                                                                                       |  |
| メモリ                              | 初期参照 64 サイクル,<br>転送間隔 2 サイクル                                                                            |  |
| TLB                              | 命令 16 エントリ,<br>データ 32 エントリ,<br>ミス・レイテンシ 128 サイクル                                                        |  |

#### おりである.

- NextPC: 分岐予測による次の PC の決定
- Fetch:命令キャッシュからの命令フェッチ
- Drive1:フェッチした命令のデコーダへの転送
- Alloc:RUU (Register Update Unit), LSQ (Load/Store Queue)の割当て
- Rename:レジスタ・リネーミング
- Queue: RUU への書き込み
- Schedule:命令スケジューリング
- Dispatch: RUU からの発行
- Register:レジスタ読み出し

- 表3 統合度と最大クロック周波数,実行レイテンシ,キャッシュ・ ヒット・レイテンシ,分岐予測ミス・ペナルティの関係
- Table 3 Assumptions of execution latencies, cache hit latencies, and branch misprediction penalty in PSU processor.

| 統合度          |          | 1    | 2   | 4   |
|--------------|----------|------|-----|-----|
| 最大クロック周波数    |          | 100% | 50% | 25% |
| 実行<br>レイテンシ  | int mult | 3    | 2   | 1   |
|              | fp ALU   | 2    | 1   | 1   |
|              | fp mult  | 4    | 2   | 1   |
| キャッシュ・ヒット    | L1       | 4    | 2   | 1   |
| レイテンシ        | L2       | 16   | 8   | 4   |
| 分岐予測ミス・ペナルティ |          | 20   | 10  | 5   |

- Exec: 実行
- Flags:フラグの書き込み
- BrnChk:分岐命令の実行結果と分岐予測の比較
   Drive2:分岐予測の結果のフロントエンドへの
- Drive2: 分岐手術の相次のプロクトエクトへの 転送
- Cache:データ・キャッシュ・アクセス
- Writeback: ライトバック
- Commit : コミット

表3に,これらのパイプラインにおける最大のク ロック周波数,命令の実行レイテンシ,分岐予測ミス・ ペナルティ,キャッシュ・ヒット・レイテンシを示す. なお, int/fp div と sqrt については,同一資源を繰り 返し使用し完全なパイプライン化はされておらず,ス テージの統合はできないと仮定した.レイテンシはそ れぞれ,20,12,24 サイクルとした.

#### 4.3 電源電圧とクロック周波数の関係

クロック周波数は 5%きざみで全 20 段階の中から 選択されるとした.各統合度における電源電圧とク ロック周波数の関係は,90nmのプロセス技術で製造 されている Intel Pentium M Model 755<sup>14)</sup>を基に 定めた.まず,統合度 U が 1 の場合について説明す る.クロック周波数が 100%~30%の場合の電源電圧 は PentiumM Model 755 の値を用いた.同プロセッ サの最小クロック周波数である 30%より下のクロック 周波数の場合は,同プロセッサの最小電源電圧である 0.988Vより低下させることができないと仮定した.こ れは、トランジスタの閾値電圧,ソフト・エラー,ノ イズ・マージン等から,同プロセッサにおいて,電源 電圧を下げることが困難であるため実現されていない と推測したからである.

Uが2以上の場合については、次の式で統合度が1 の時の電圧より求めた.

 $V(U, f) = V(1, U \times f)$  (6) ここで、V(U, f)は統合度 U、クロック周波数 f のと きの電源電圧である.これは次のようにして求めるこ とができる. 統合度 1, 電源電圧 V での最大のクロッ ク周波数を f とすると, 統合度を U(> 1) とした場 合, 同じ電源電圧 V での最大クロック周波数は f/U に落ちる. つまり,

$$V\left(U,\frac{f}{U}\right) = V(1,f) \tag{7}$$

である.これより,式(6)が求まる.

以上のようにして求めた電源電圧とクロック周波数の関係を表4に示す.なお,どの統合度においても電源電圧は0.988Vを下限とした.

#### 4.4 消費電力の計算方法

DVSの消費電力は、アクティビティ・ファクタを a、 スイッチするノードの全容量を C、クロック周波数を f、電源電圧を V、リーク電流を  $I_{leak}$  とすると、動的 消費電力  $P_{DVSdynamimc}$  と静的消費電力  $P_{DVSstatic}$ の和であり、以下の式で表される:

 $P_{DVS} = P_{DVSdynamic} + P_{DVSstatic} \tag{8}$ 

$$P_{DVSdynamic} = a \times C \times f \times V \tag{9}$$

$$P_{DVSstatic} = I_{leak} \times V \tag{10}$$

ここで,最大電源電圧  $V_{max}$ ,最大クロック周波数  $f_{max}$  の時の静的消費電力の最大値  $P_{DVSstatic,max}$  の 動的消費電力の最大値  $P_{DVSdynamic,max}$  に対する割 合を s とする.すなわち,

 $P_{DVSstatic,max} = P_{DVSdynamic,max} \times s \quad (11)$ 

*I*<sub>leak</sub> は,5節の評価における電源電圧の範囲において,電源電圧に関わらず一定と仮定すると(この仮定の妥当性については付録 A.2節を参照),式(10)より, *P*<sub>DVSstatic</sub> は電源電圧に比例するので,

$$P_{DVSstatic} = P_{DVSstatic,max} \times \frac{V}{V_{max}} \quad (12)$$

と書くことができる.式 (9), (11) を (12) に代入すると,

 $P_{DVSstatic} = a \times C \times f_{max} \times s \times V_{max} \times V(13)$   $\succeq \& @.$ 

評価においては、 $s \ge 0.11$ (静的消費電力がプロセッ サの全消費電力の約 10%を占める)と仮定した.これ は、最近のプロセス技術によるプロセッサの代表的な 値である<sup>15)</sup>.静的消費電力削減にあまり注力されて いなかった数年前のプロセス技術では、sは約 0.43~ 0.67 程度(静的消費電力がプロセッサの全消費電力の 約 30~40%を占める)であったが<sup>16)</sup>、最近では改良が なされ<sup>17)</sup>、0.11 程度となっている.

PSUの消費電力 *P<sub>PSU</sub>* は,動的消費電力 *P<sub>PSUdynamic</sub>* と静的消費電力 *P<sub>PSUstatic</sub>* の和であり,以下の式で 表される:

$$P_{PSU} = P_{PSUdynamic} + P_{PSUstatic} \tag{14}$$

Vol. 0 No. 0

$$P_{PSUdynamic} = P_{DVSdynamic} \times \left(1 - \frac{U-1}{U} \times m \times k\right) (15)$$

$$P_{PSUstatic} = P_{DVSstatic} - P_{PRstatic} \times \frac{U-1}{U}$$
(16)

ここで, m はプロセッサの全動的消費電力に対する クロック・ネットワークの動的消費電力の割合, k は パイプライン・レジスタを駆動するクロック・ネット ワークの最終段のクロック・ドライバの動的消費電力 がクロック・ネットワークの全動的消費電力に占める 割合, P<sub>PRstatic</sub> はパイプライン・レジスタの静的消 費電力である.

PSU の動的消費電力は、パイプライン・ステージ 統合によるパイプライン・レジスタへのクロック分配 が抑制されることにより削減される.統合度 U では、 全パイプライン・レジスタの (U-1)/U へのクロック 分配が抑制される.全パイプライン・レジスタへのク ロック分配に要する最終段クロック・ドライバの動的 消費電力は、 $P_{DVSdynamic} \times m \times k$  であるから、こ れに (U-1)/U を乗じた値が削減される動的消費電 力である.

PSU の静的消費電力は、パイプライン・ステージ の統合時、バイパスされるパイプライン・レジスタを パワー・ゲーティングすることにより削減される.し たがって、統合度 U のとき、パイプライン・レジスタ が消費する静的消費電力  $P_{PRstatic}$  に (U-1)/U を 乗じた値が削減される.

評価においては, m は文献 5), 6) と同様に 30%と 仮定した.この値は,文献 18)~21) から得た商用プ ロセッサの m の値 (18%~40%) のほぼ中央値である. また, k は参考文献 19) に示されている 130nm の Intel Itanium 2 の値より,88%を仮定した.m, k の値 は用いるプロセッサ・アーキテクチャ,半導体テクノ ロジ,クロック・ネットワークへの工夫により大きく 変動する.また,今回は  $P_{PRstatic}$  は保守的に 0 と仮 定した.つまり, PSU によるパイプライン・レジス タのパワー・ゲーティングの効果は計算に反映させず, PSU には不利となるよう仮定した.

なお,消費電力の評価では,クロック周波数100%, 最大電源電圧での消費電力で正規化した値を用いた. このため,*a*と*C*は正規化のための除算によって消去 され,これらの値は評価に関係ない.

## 5. 評価結果

評価は、統合度1のプロセッサがクロック周波数

表 4 電源電圧とクロック周波数の関係

Table 4 Relationship between supply voltage and clock frequency.

| クロック周波数 | 統合度 1  | 統合度 2  | 統合度 4  |
|---------|--------|--------|--------|
| 100%    | 1.340V |        |        |
| 95%     | 1.316V |        |        |
| 90%     | 1.292V |        |        |
| 85%     | 1.268V | _      |        |
| 80%     | 1.244V |        | _      |
| 75%     | 1.220V | _      |        |
| 70%     | 1.196V |        |        |
| 65%     | 1.172V |        | _      |
| 60%     | 1.148V |        |        |
| 55%     | 1.124V |        | _      |
| 50%     | 1.100V | 1.340V |        |
| 45%     | 1.076V | 1.292V |        |
| 40%     | 1.052V | 1.244V |        |
| 35%     | 1.020V | 1.196V | _      |
| 30%     | 0.988V | 1.148V |        |
| 25%     | 0.988V | 1.100V | 1.340V |
| 20%     | 0.988V | 1.052V | 1.244V |
| 15%     | 0.988V | 0.988V | 1.148V |
| 10%     | 0.988V | 0.988V | 1.052V |
| 5%      | 0.988V | 0.988V | 0.988V |

表 5 統合度 1, クロック周波数 100%での IPC Table 5 IPC in unification degree 1 and 100% clock frequency.

| ベンチマーク  | IPC  |
|---------|------|
| bzip2   | 2.67 |
| gcc     | 1.39 |
| gzip    | 1.25 |
| mcf     | 0.32 |
| parser  | 1.03 |
| perlbmk | 1.06 |
| vortex  | 2.29 |
| vpr     | 0.97 |

100%で動作する時のスループットを測定し、そのス ループットの 10%~100%を 10%刻みで  $TP_{target}$  と して指定して行った.表5に  $TP_{target}$ の計算に用い た IPC を示す.

後に 5.4 節で述べるが,アルゴリズムの実行による オーバヘッドは非常に小さいため,この節の評価にお いて,これを含めていない.

#### **5.1** 消費電力の削減

提案するハイブリッド制御機構を用いた場合と DVS の消費電力を比較する.測定したハイブリッド制御機 構のパラメータを以下のようにした.

- 最大クロック周波数: 2GHz
- 実行フェーズ: 2ms
- サンプリング・サブフェーズ: 20μs
- 誤差範囲 E: 0.005
- $k_{max}$  : 2



図 4 ハイブリッド制御機構, DVS, PSU の消費電力 Fig. 4 Power consumption of hybrid control mechanism, DVS, and PSU.

これらの値は、予備評価によって決定した.

図4にハイブリッド制御機構, DVS, PSU の場合 の消費電力を示す. 図の横軸は TPtarget を示し、縦 軸は100%のスループットの時の消費電力で正規化し た消費電力を示している.4本の折れ線グラフは,現 実の DVS, 理想の DVS, PSU 単独, ハイブリッド 制御機構の,各 TPtarget における消費電力のベンチ マーク平均である.現実の DVS の消費電力とは,統 合度1において、3.1節で述べたアルゴリズムで動的 にクロック周波数と電源電圧を変更した場合の消費電 力である.理想のDVSの消費電力とは、プログラム の全実行を通しての IPC があらかじめ分かっており, その情報を用いた場合の消費電力である.この場合, 全実行を通しての IPC と TPtarget を式 (1) に代入し て、TPtarget を満たす最小のクロック周波数を求め、 そのクロック周波数のみを用いて実行する. DVS に おいて、上記のような実行が最も消費電力を小さくす ることは、参考文献 22) に示されている. また、PSU 単独とは、スイッチング・ポイント間のクロック周波 数を選択した場合においても,電源電圧を変更しない ものである.

図4より,100%の*TP*<sub>target</sub>の場合を除いて,ハイ ブリッド制御機構は他の3つの手法よりも消費電力を 削減できることがわかる.100%の*TP*<sub>target</sub>では現実 のDVSよりも消費電力が大きい.これは,後に5.3 節で示すように,100%の*TP*<sub>target</sub>において,現実の DVS はハイブリッド制御機構よりも最終的なスルー プットが低く,その分だけ消費電力が低くなっている からである.また,同じ理由で,理想のDVSが達成 した最終的なスループットは*TP*<sub>target</sub>を満たしてい るのに対し,その他の3つは満たしていないため,理 想のDVS は90%,100%の*TP*<sub>target</sub>において,他の



図 5 DVS, PSU に対するハイブリッド制御機構の消費電力削減率 Fig. 5 Power consumption reduction ratio of hybrid control mechanism compared to DVS and PSU.

3つの手法より多く電力を消費している.

ハイブリッド制御機構の他の3手法に対する消費 電力削減率を図5に示す。概して、 $TP_{target}$ が小さ い部分でハイブリッド制御機構が消費電力を大きく削 減している。これは、低い $TP_{target}$ の方がより大き な統合度を利用できる局面が多いからである。また、  $TP_{target}$ が大きい部分では、統合度1で動作する局 面が増えるために DVS との差が少なくなる。また、  $TP_{target}$ が小さい部分で PSU 単独に対する削減率が 非常に大きくなるのは、図4からも見て取れるように、 小さい $TP_{target}$ では、PSUの消費電力が大きいから である。この理由は、今回の評価では PSU には静的 消費電力削減能力がないとしたため、 $TP_{target}$ が小さ い部分では静的消費電力によって消費電力の下限が抑 えられているためである。

ハイブリッド制御機構の DVS に対する消費電力削 減率は, $TP_{target}=20\%$ 時において最大を示し,理想 の DVS に対して 11%,現実の DVS に対して 14%と 大きな削減率を達成した.また,PSU 単独に対する 消費電力削減率は, $TP_{target}=10\%$ 時において最大を 示し,その大きさは 28%であった.

#### 5.2 選択されたクロック周波数の内訳

5.1 節の測定において,現実の DVS, PSU 単独, ハ イブリッド制御機構の動作時に選択されたクロック周 波数の分布を調べた.図6に,*TP<sub>target</sub>*をそれぞれ 80%,60%,40%,20%に指定した時の分布を示す.図 の横軸はクロック周波数であり,縦軸は選択されたク ロック周波数の割合である.

図より,現実の DVS ではそれぞれの *TP*<sub>target</sub> に 等しいクロック周波数を中心に選択されていることが 分かる.一方,ハイブリッド制御機構では PSU を多 用するために,より低いクロック周波数が選択されて

8



図 6 種々の  $TP_{target}$  に対する選択されたクロック周波数の分布 Fig.6 Distribution of selected clock frequencies for varios  $TP_{target}$ .

いることが分かる.特に,図6(d)のようにTP<sub>target</sub> が低い場合は,より高い統合度を利用することができ るため,この傾向が大きい.逆に,図6(a)のように TP<sub>target</sub>が高い場合は,PSUを適用できない局面が 多いため,現実のDVSに近い分布となっている.こ れより,ハイブリッド制御機構がDVSに比べて大き く消費電力を削減できる理由は,積極的にPSUを用 いてるためであることが分かる.なお,PSU単独はハ イブリッド制御機構とほぼ同じ形の分布となっている.

## **5.3** *TP*<sub>target</sub> の達成率

ハイブリッド制御機構のアルゴリズムは、定期的 にスループットを調整するものなので、最終的なス ループットが $TP_{target}$ を下まわる可能性がある。図7 に $TP_{target}$ に対する達成率のベンチマーク平均を示 す、 $TP_{target}$ 達成率は、実行終了時のスループットを  $TP_{target}$ で割ったものである。

図7より、ハイブリッド制御機構は $TP_{target}=90\%$ 時に約 $1\%TP_{target}$ を下回り、 $TP_{target}=100\%$ 時には 3%ほど下回る結果となった以外は、 $TP_{target}$ を達成で きている.なお、高い $TP_{target}$ において、 $TP_{target}$ を



達成できないことが問題な状況においては,*TP<sub>target</sub>*をやや高めに設定することにより,達成率を100%以上にすることができる.

# 5.4 アルゴリズムの実行時間の評価

3.1節で示したアルゴリズムを C 言語で記述し,4.1 節のベンチマーク・プログラムのコンパイル条件と同 じ条件でコンパイルし,得られたアセンブリ・コード より,アルゴリズムの実行サイクル数を評価した.また,得られた実行サイクル数より,アルゴリズムの実行時間を評価した.

アルゴリズムを実行する RISC コアを MIPS 4KE とし、以下の条件で評価した.

- 1命令イン・オーダ発行の5段パイプラインで実行される.
- 分岐予測はなく、条件分岐命令がフェッチされた 場合、実行完了までパイプラインはストールする。
- クロック周波数は 400MHz とする.これは、参考 文献 10) に示されている、130nm における MIPS 4KE コアの動作周波数 340MHz をベースとし、 90nm にシュリンクして約 1.2 倍になったものと した。

RISC コアのクロック周波数は 400MHz と,メイン・プロセッサの 2GHz のちょうど 1/5 を仮定している.よって,互いに同期してカウンタを更新/参照できる.

得られた実行サイクル数は以下の通りである.なお, 3.1節の箇条書きのアルゴリズムの(1)(2)には計算が 存在しないため,評価からは省いてある.

- (1) 各サンプリング・サブフェーズ終了後の(u, fu, Vu)
   の計算(アルゴリズムの(3)): 144 サイクル
- (2) 次の実行フェーズのパラメータの決定 (アルゴ リズムの (4)): 66 サイクル

4節の評価条件と同様に3種類の統合度を利用する ことを仮定した場合,1組のサンプリング・フェーズと 実行フェーズの実行においては,アルゴリズムの(3) が3回,(4)が1回実行されることになる.よって, この1組の実行において,アルゴリズムの実行サイク ル数は498サイクルとなる.これを実行時間に換算す ると1245nsとなり,これは,実行フェーズの時間の 約0.06%でしかない.アルゴリズム計算用コアは,ア ルゴリズムの実行を行う時以外は停止するため,上記 の実行時間しか電力を消費しない.よって,アルゴリ ズムの実行による消費電力の増加は,問題にならない ほど小さいと言える.

5.5 アルゴリズムの実行時のオーバーヘッド

本ハイブリッド制御機構では, DVS と PSU のモー ド切り替えのオーバーヘッドを被る.本評価では, こ れを考慮に入れなかったが,それはこのオーバーヘッ ドが評価結果にほとんど影響を与えないためである. 以下これを説明する.

一般に、DVS におけるモード切り替え (クロック周 波数と電源電圧の変更) にはいくらかのオーバーヘッ ドを被る.たとえば、Enhanced Intel Speed Step<sup>23)</sup> では, 10µs の間プロセッサを停止させなければなら ない.

PSUのモード切り替えのオーバーヘッドは, DVS と同じくクロック周波数変更のための時間の他に,統 合信号の変更がプロセッサ全体に行き渡るまでのサイ クル数である.後者は,多くとも1000サイクルは越 えないと容易に推測できるが,5.1節の評価パラメー タでは,この場合,0.5µsとなる.これは,クロック 周波数変更のオーバーヘッドに比べて極めて小さいの で,PSUのモード切り替えのオーバーヘッドとして は,クロック周波数変更についてのみ考えれば良いこ とがわかる.つまり,高々DVSのモード切り替えと 同じだけのオーバーヘッドがかかるといえる.

本ハイブリッド制御機構では、サンプリング・フェー ズ開始時と終了時、および、各サンプリング・サブフェー ズ間に、PSU、DVS のモード切り替えのオーバーヘッ ドを被る.今回の評価では3種類の統合度を仮定した ので、1回のサンプリング・フェーズで3回のモード切 り替えが生じる.1回のモード切り替えのオーバーヘッ ドを 10µs とすると、1 回のサンプリング・フェーズに おけるオーバーヘッドは,合計で 30µs となる.一方, 本ハイブリッド制御機構の1フェーズ周期は、サンプ リング・フェーズと実行フェーズからなり、オーバー ヘッドの重みは、この1フェーズ周期に対して判断 されなければならない. 今回の評価では, 実行フェー ズを 2ms, サンプリング・フェーズを  $40\mu s(20\mu s \circ O)$ サンプリング・サブフェーズが2回☆)としたので、1 フェーズ周期に対するオーバーヘッドの割合は、わず か 1.5% でしかない. よって,オーバーヘッドが本研 究で行った評価に与える影響は極めて小さい.

## 6. 関連研究

パイプラインの長さを動的に変更する他の研究として、Koppanalil らは、我々に遅れてではあるが、Dynamic Pipeline Scaling (DPS) と呼ぶ方式を提案した<sup>24)</sup>. この他、Ehthymiou らは、非同期プロセッサ における方式を提案した<sup>25)</sup>.

動的にパイプラインのリソースを変更して消費電力 を削減する研究には以下のものがある. Albonesi は, 動的に命令ウィンドウやキャッシュのサイズとクロッ ク周波数を変更し,実行時間を削減する方法を提案し た<sup>26)</sup>. 一般に,資源サイズと実現可能なクロック周波 数は,トレードオフの関係にある. このトレードオフ

<sup>☆ 3.1</sup> 節の最後の段落で述べたように,前の実行フェーズでもサン プリングを行うために,サンプリング・サブフェーズの回数は, 用いる統合度の数より1回分少なくなる.

の最適点を求め、プログラムの実行時間を削減する. Bahar らは、プログラムの実行中に同時発行命令数が 大きく変化することに着目し、必要に応じて動的に命 令発行論理と機能ユニットの一部を停止させ、消費電 力を削減することを提案した<sup>27)</sup>. Manne らは分岐予 測ミスしたパスからフェッチした命令を減らして消費 電力を削減することを提案した<sup>28)</sup>. 具体的には、分岐 予測の信頼性が低い分岐命令が連続してフェッチされ た場合、その後の命令のフェッチを停止することによ り、分岐予測ミスしたパスからフェッチする命令数を 削減する. Canal らは、データ、アドレス、命令をあ る特別のエンコーディングによって圧縮し、パイプラ インの活動量を減少させ、消費電力を削減する方法を 提案した<sup>29)</sup>.

DVS に関する研究としては、様々な DVS のアルゴ リズムを評価したもの<sup>30)</sup> や、リアルタイム・システ ムにおける DVS のスケジューリングについて提案を 行なっているもの<sup>31)</sup> がある.また、DVS を発展させ たものとして、プロセッサをいくつかの領域に区切り、 領域ごとに異なる電源電圧とクロック周波数で動作さ せる Multiple Clock Domain アーキテクチャ<sup>32),33)</sup> が ある.

## 7.まとめ

本論文では、消費電力削減手法である PSU と DVS を複合するハイブリッド制御機構を提案し、その機構 によって削減される消費電力を、現在主流の消費電力 削減手法である DVS、および、以前に提案した PSU と比較した.提案するハイブリッド制御機構は、定期 的に IPC をサンプリングし、次の期間の統合度とク ロック周波数と電源電圧を決定し、目標とするスルー プットに適応しつつ、電力を削減するものである.

評価の結果,提案するハイブリッド制御機構を用い ることにより,最大スループットの10%から100%の 目標スループットにおいて,DVSのみ,および,PSU のみの場合よりも消費電力を大きく削減できることを 示した.消費電力削減率の最大は,理想なDVSに対 して11%,現実のDVSに対して14%,PSU単独に 対して28%であった.

### 参考文献

- 1) Laird, D.: Crusoe Processor Products and Technology, Transmeta Corporation (2000).
- Intel Corporation: Intel Pentium M Processor on 90nm Process with 2MB L2 Cache Datasheet (2006).

- Advanced Micro Devices, Inc.: AMD Athlon64 Processor Power and Thermal Data Sheet (2006).
- 4) 嶋田創,安藤秀樹,島田俊夫:低消費電力化のための可変パイプライン,情報処理学会研究報告, Vol. 2001-ARC-145, pp. 57–62 (2001).
- 5) 嶋田創,安藤秀樹,島田俊夫:パイプラインステージ統合:将来のモバイルプロセッサのための消費 エネルギー削減技術,先進的計算基盤システムシンポジウム SACSIS2003, pp. 283–290 (2003).
- 6) Shimada, H., Ando, H. and Shimada, T.: Pipeline Stage Unification: A Low-Energy Consumption Technique for Future Mobile Processors, *Proc. of the Int. Symp. on Low Power Electronics and Design 2003*, pp. 326–329 (2003).
- 7) 嶋田創, 安藤秀樹, 島田俊夫: パイプラインステージ統合とダイナミック・ボルテージ・スケーリングを併用したハイブリッド消費電力削減機構, 先進的計算基盤システムシンポジウム SACSIS2004, pp. 11–18 (2004).
- 8) Shimada, H., Ando, H. and Shimada, T.: Hybrid Power Reduction Scheme Using Pipeline Stage Unification and Dynamic Voltage Scaling, 9th IEEE Symposium on Low-Power and High-Speed Chips (COOL Chips IX), pp. 201–214 (2006).
- 9) Marr, D. T., Binns, F., Hill, D. L., Hinton, G., Koufaty, D. A., Miller, J. A. and Upton, M.: Hyper-Threading Technology Architecture and Microarchitecture, *Intel Technology Journal*, Vol. 6, pp. 1–12 (2002).
- Snyder, C. D.: MIPS SoCs it to EPF 2001, *Microprocessor Report 2001/8/20*, Vol. 34, Archive 1, pp. 1–3 (2001).
- Halfhill, T. R.: MIPS 24KE: Better Late Than Never, *Microprocessor Report 2005/5/31*, Vol.34, Archive 1, pp. 7–9 (2005).
- 12) Burger, D. and Austin, T. M.: The SimpleScalar Tool Set, Version 2.0, Technical Report CS-TR-97-1342, University of Wisconsin-Madison Computer Sciences Dept. (1997).
- Glaskowsky, P. N.: Pentium 4 (Partially) Previewed, *Microprocessor Report*, Vol.14, Archive 8, pp. 1–4 (2000).
- Intel Corporation: Intel Pentium M Processor Datasheet (2004).
- 15) Hart, J., Choe, S. Y., Cheng, L., Chou, C., Dixit, A., Ho, K., Hsu, J., Lee, K. and Wu, J.: Implementation of a 4th-Generation 1.8GHz Dual-Core SPARC V9 Microprocessor, 2005 *IEEE Int. Solid-State Circuits Conf. Digest of Technical Papers*, pp. 186–187 (2005).
- 16) 大石基之,進藤智則,堀切近史:リーク電流と闘

う, 日経エレクトロニクス 2004/4/26, No. 872, pp. 99-127 (2004).

- 17) Bai, P., Auth, C., Balakrishnan, S., Bost, M., Brain, R., Chikarmane, V., Heussner, R., Hussein, M., Hwang, J., Ingerly, D., James, R., Jeong, J., Kenyon, C., Lee, E., Lee, S. H., Lindert, N., Liu, M., Ma, Z., Marieb, T., Murthy, A., Nagisetty, R., Natarajan, S., Neirynck, J., Ott, A., Parker, C., Sebastian, J., Shaheed, R., Sivakumar, S., Steigerwald, J., Tyagi, S., Weber, C., Woolery, B., Yeoh, A., Zhang, K., and Bohr, M.: A 65nm Logic Technology Featuring 35nm Gate Length, Enhanced Channel Strain, 8 Cu Interconnect Layers, Low-k ILD and 0.57μ m<sup>2</sup> SRAM Cell, 2004 International Electron Device Meeting Technical Digest, pp. 657–660 (2004).
- 18) Gowan, M. K., Biro, L. L. and Jackson, D. B.: Power Considerations in the Design of the Alpha 21264 Microprocessor, the 35th Design Automation Conf., pp. 726–731 (1998).
- 19) Anderson, F. E., Wells, J. S. and Berta, E. Z.: The Core Clock System on the Next-Generation Itanium Microprocessor, 2002 IEEE Int. Solid-State Circuits Conf. Visual Supplement to the Digest of Technical Papers, pp. 110–111 (2002).
- 20) Clark, L. T., Hoffman, E. J., Miller, J., Biyani, M., Liao, Y., Strazdus, S., Morrow, M., Velarde, K. E. and Yarch, M. A.: An Embedded 32-b Microprocessor Core for Low-Power and High-Performance Applications, *IEEE Journal* of Solid-State Circuits, Vol.36, No.11, pp.1599– 1608 (2001).
- 21) Gronowski, P. E., Bowhill, W. J., Preston, R. P., Gowan, M. K. and Allmon, R. L.: High-Performance Microprocessor Design, *IEEE Journal of Solid-State Circuits*, Vol. 33, No. 5, pp. 677–686 (1998).
- 22) Ishihara, T. and Yasuura, H.: Voltage Scheduling Problem for Dynamically Variable Voltage Processors, *Proc. of the Int. Symp. on Low Power Electronics and Design 1998*, pp. 197–202 (1998).
- 23) McGregor, J.: x86 Power and Thermal Management, *Microprocessor Report 2004/12/6*, Vol. 18, Archive 12, pp. 1–6 (2004).
- 24) Koppanalil, J., Ramrakhyani, P., Desai, S., Vaidyanathan, A. and Rotenberg, E.: A Case for Dynamic Pipeline Scaling, *Proc. of Int. Conf. on Compilers, Architecture, and Synthe*sis for Embedded Systems 2002, pp. 1–8 (2002).
- 25) Effhymiou, A. and Garside, J. D.: Adaptive Pipeline Depth Control for Processor Power-

Management, Proc. of Int. Conf. on Computer Design 2002, pp. 454–457 (2002).

- 26) Albonesi, D. H.: Dynamic IPC/Clock Rate Optimization, Proc. of the 25th Annual Int. Symp. on Computer Architecture, pp. 282–292 (1998).
- 27) Bahar, R.I. and Manne, S.: Power and Energy Reduction Via Pipeline Balancing, *Proc. of the* 28th Annual Int. Symp. on Computer Architecture, pp. 218–229 (2001).
- 28) Manne, S., Klauser, A. and Grunwald, D.: Pipeline Gating: Speculation Control For Energy Reduction, Proc. of the 25th Annual Int. Symp. on Computer Architecture, pp. 132–141 (1998).
- 29) Canal, R., Gonzalez, A. and Smith, J.E.: Very Low Power Pipelines using Significance Compression, Proc. of the 33rd Annual Int. Symp. on Microarchitecture, pp. 181–190 (2000).
- 30) Pering, T., Burd, T. and Brodersen, R.: The Simulation and Evaluation of Dynamic Voltage Scaling Algorithms, *Proc. of Int. Symp. on Low Power Electronics and Design 1998*, pp. 76–81 (1998).
- 31) Krishna, C. M. and Lee, Y.-H.: Voltage-Clock-Scaling Adaptive Scheduling Techniques for Low Power in Hard Real-Time Systems, *IEEE Transactions on Computers*, Vol. 52, No. 12, pp. 1586–1593 (2003).
- 32) Magklis, G., Scott, M. L., Semeraro, G., Albonesi, D. H. and Dropsho, S.: Profile-based Dynamic Voltage and Frequency Scaling for a Multiple Clock Domain Microprocessor, Proc. of the 30th Annual Int. Symp. on Computer Architecture, pp. 14–25 (2003).
- 33) Semeraro, G., Albonesi, D. H., Dropsho, S. G., Magklis, G., Dwarkadas, S. and Scott, M. L.: Dynamic Frequency and Voltage Control for a Multiple Clock Domain Microarchitecture, *Proc. of the 35th Annual Int. Symp. on Microarchitecture*, pp. 356–367 (2002).
- 34) Agarwal, A., Mukhopadhyay, S., Raychowdhury, A., Roy, K. and Kim, C. H.: Leakage Power Analysis and Reduction for Nanoscale Circuits, *IEEE Micro*, Vol. 26, No. 2, pp. 68–80 (2006).
- 35) 桜井貴康: リーク電流はこう抑える (1), 日経エレ クトロニクス 2004/9/13, No. 882, pp. 154–161 (2004).
- 36) Taur, Y. and Ning, T.: Fundamental of Modern VLSI Devices, Cambridge University Press (1998).



#### 付 録

#### A.1 電力遅延積の削減

図8に電力遅延積の評価結果を示す。図の横軸は TP<sub>target</sub>を示し、縦軸は100%のスループットの時の 電力遅延積で正規化した電力遅延積を示している。4 本の棒グラフは、現実のDVS、理想のDVS、PSU単 独、ハイブリッド制御機構の、各TP<sub>target</sub>における 電力遅延積のベンチマーク平均である。

本論文の問題設定において、この評価結果に意味付 けをするのは非常に難しい.本論文の問題設定では, OS から指示されたスループット (遅延に相関)を満足 するという最優先の制限の下で, 消費電力を最小化す ることを目的としている.これに対して、電力遅延積 は、実行に要するエネルギーの評価指標であり、遅延 時間を指示された目標以下にすることを条件として与 えられていない. たとえば, 遅延時間が目標を大幅に 越えていても,電力が非常に小さければ,電力遅延積 は良い値となることがあるが、本論文の問題設定では 決定的に悪い結果である.また,遅延時間が目標を大 幅に下回り、電力遅延積が良い値となっても、本論文 の問題設定では、遅延時間については目標を達成して いることのみが評価されるだけであり、下回った量は 関係なく、電力でしか評価はくださない、このように 重要な条件が与えられていない評価指標による評価を, 本論文でこれまでに行った評価に加えて行う意味を著 者らは見いだすことができない.以上のように意味付 けが困難な評価であるが, 査読者による本論文採録条 件と示されたため、ここに掲載するものである.

## A.2 リーク電流 *Ileak* の仮定

4.4 節において, *I*<sub>leak</sub>の値は,評価に用いた電源電 圧の変動範囲では,電源電圧にかかわらず一定の値を 取るものとした.この妥当性を,この節で説明する. 今回の評価で仮定した 90nm のプロセス技術におい て、 $I_{leak}$ の大部分はサブスレッショルド・リーク電 流 $I_{sub}$ とゲート・リーク電流 $I_{gate}$ からなる. このう ち、 $I_{gate}$ については、90nm のプロセス技術において は $I_{sub}$ の 1/10 程度であることが文献 34) で示されて おり、十分に小さく、本研究では消費電力の計算から 除外した.なお、現状のプロセスを単純に微細化して いくとゲート・リーク電流は増えていくが、high-k材 料によるゲート絶縁膜の実用化によって 10<sup>-3</sup>~10<sup>-4</sup> 倍になると見込まれており、将来のプロセス技術にお いても、大きな問題とならない可能性は高い<sup>35)</sup>.

以下, *I<sub>sub</sub>* の大きさが電源電圧にかかわらず一定の 値を取ることを説明する.

CMOS のドレイン-ソース間電流 *I*<sub>ds</sub> は以下の式 で表される<sup>36)</sup>.

$$I_{ds} = \mu_{eff} \cdot C_{ox} \cdot \frac{W}{L} (m-1) \left(\frac{kt}{q}\right)^2 \\ \times e^{q \cdot \frac{V_q - V_t}{mkT}} \left(1 - e^{-\frac{q}{kT} \cdot V_{ds}}\right)$$
(17)

上記の式中の定数と変数は、以下の通りである.

| $\mu_{eff}$ | : | 天劝惨勤及 (CIII / V·S)                     |
|-------------|---|----------------------------------------|
| $C_{ox}$    | : | 単位面積あたりの                               |
|             |   | ゲート絶縁膜容量 (F/cm <sup>2</sup> )          |
| W           | : | チャネル幅 (cm)                             |
| L           | : | チャネル長 (cm)                             |
| k           | : | ボルツマン定数                                |
|             |   | $(= 1.38 \times 10^{-23} \text{ J/K})$ |
| T           | : | 絶対温度 (K)                               |
| q           | : | 電子の電荷 (= 1.6 × 10 <sup>-19</sup> C)    |
| $V_g$       | : | ゲート電圧 (V)                              |
| $V_t$       | : | 閾値電圧 (V)                               |
| т.7         |   | ドレイン電圧なり                               |

 V<sub>ds</sub>
 :
 ドレイン電圧 (V)

 m
 :
 ボディ効果定数

式 (17) の中で,電源電圧に応じて値が変化する変数は, $V_g \geq V_{ds}$ のみである.このうち, $V_g$ は, $I_{sub}$ の計算時には 0 となるため,実質,変化する変数は $V_{ds}$ のみである.そのため,式 (17) 中の最も右の括弧内のみが電源電圧の変動とともに変化し,それ以外の部分は,まとめて 1 つの定数として見ることができる.さらに,kt/qは室温(25 °C)で26mV,プロセッサ動作時に上昇した接合温度,たとえば,100 °Cでは32mV であるため,式(17)の最も右の括弧の値はほぼ1となる.よって, $I_{sub}$ は電源電圧にかかわらず一定ということが言える.