低レイテンシ1対1結合 マルチポート・インターリーブ・キャッシュの評価

·嶋田 創<sup>†</sup> 安藤秀樹<sup>†</sup> 島田俊夫<sup>†</sup>

プロセッサの高性能化のために,データ・キャッシュには高いバンド幅と低いレイテンシが要求される.現在の多くのプロセッサでは,高いバンド幅を得るためにキャッシュはインターリーブによりマルチポート化されている.しかしインターリーブ・キャッシュでは,ロード/ストア・ユニットとの間に相互結合網が必要となるため,低レイテンシ化が困難である.この問題に対して,キャッシュの各バンクとロード/ストア・ユニットを1対1で結合することにより複雑な相互結合網を取り除き,アクセスを小さなバンクに限定する構成のキャッシュが有効と考えられる.この構成のキャッシュを,我々は PPC インターリーブ・キャッシュ (point-to-point connected interleaved cache)と呼ぶ.本論文では,PPC キャッシュの有効性を,回路レベルおよびアーキテクチャ・レベルでの評価により検証する.PPC キャッシュでは命令発行前にアクセスするバンクを求める必要があり,これが求められなかったときにペナルティを被る.まず最初に,このペナルティを含めた PPC キャッシュによるアクセス時間を評価し,大きな改善が見られることを確認した.次に,クロック・サイクル時間と実行サイクル数のトレードオフを考慮し,32Kバイトで最善にパイプライン化されたキャッシュを持つ16命令発行のプロセッサの性能を評価した.PPC キャッシュを持つプロセッサは,従来のキャッシュを持つ場合に比べ,クロック・サイクル時間の下限の仮定に応じて,最大10~11%,平均6~7%性能を改善できることを確認した.

# Evaluation of a Low-latency Point-to-Point Connected Multiported Interleaved Cache

HAJIME SHIMADA,<sup>†</sup> HIDEAKI ANDO<sup>†</sup> and TOSHIO SHIMADA<sup>†</sup>

Both high bandwidth and low latency are required to a data cache for high-performance processors. In most current processors, the cache is multiported by interleaving to achieve high bandwidth. However, it is difficult for the interleaved cache to achieve low latency because an interconnection network is necessary between the cache and the load/store units. To solve this problem, a cache organization that removes the complicated interconnection network by connecting each bank with a load/store unit by point-to-point and restricts a cache access to a small bank will be effective. We call the cache with this organization a PPC (point-to-point connected) interleaved cache. This paper validates the effectiveness of the PPC cache with both circuit-level and architectural-level evaluation. The PPC cache requires the bank number to be accessed before instruction issue. Penalties are imposed when the bank number is not obtained. We first evaluate the access time of the PPC cache, taking the penalties into account, and found a significant improvement over the conventional cache. Also, we evaluate the 16-issue processor performance with the 32K-byte best pipelined cache, considering trade-offs between the clock cycle time and the execution cycle count. We confirmed that the processor with the PPC cache improves the performance by a maximum of 10-11% or an average of 6-7% over that with the conventional cache depending on the assumption of the lower bound of the clock cycle time.

1. はじめに

近年のプロセッサは,高速なクロックで動作し,複数の命令を同時に実行することで高い性能を得ている.

このためにメモリ・システムには,低いレイテンシと 高いバンド幅が求められる.クロックはより速く,命 令発行バンド幅はより広くなる将来のプロセッサでは, メモリ・システムに対するこのような要求はさらに強 くなる.一般にメモリ・システムは階層化されている が,その中でも1次キャッシュの性能改善は計算機の 性能に大きな影響を与えるため,非常に重要である.

<sup>†</sup> 名古屋大学大学院工学研究科

Graduate School of Engineering, Nagoya University

本論文では,データ・キャッシュの低レイテンシ,お よび,高バンド幅を実現する機構について検討する.

キャッシュのレイテンシを削減するには,ヒット率 を向上させ,アクセス時間を短くすることが必要であ る.ヒット率は,連想度を上げ容量を増加させること で改善できるが,連想度の増加は複雑さを急速に増加 させるので,大きな改善のためには容量を増加させる ことが必要である.しかし一方で,容量を増加させる とアクセス時間が増加するので,トレードオフが存在 する.特に,近年のディープ・サブミクロン半導体技 術においては,ゲート遅延に比べて配線遅延が大きく なっているため,アクセス時間の増大は深刻化してい る.このため,容量を大きくすることでレイテンシを 削減することが困難になってきている.

一方,キャッシュのバンド幅拡大については,同時 に複数のアクセス要求に応える必要があるため,通常, マルチポート化により対応している.マルチポート化 には,一般には次の4つの方法がある.1つは,メモ リ・セルをマルチポートにすることである.この方法 は,各ポートから独立にキャッシュをアクセスすること ができるという点で理想的であるが,実現に高いコス トを要する.また,バンド幅に対しスケーラビリティ がない .2 つめの方法は,空間的多重化である.この方 法は,キャッシュのコピーを必要なポート数だけ用意 することにより,マルチポート化するものである(た とえば, Compag Alpha 21164<sup>1)</sup>). この方法は, 読み 出しに関しては、単一ポートのキャッシュのアクセス 時間を維持したまま,バンド幅拡大を実現できるとい う点で優れている.しかし書き込みについては,複数 のコピーの内容を同一にするために,データのストア はすべてのコピーに行わなければならないため,バン ド幅は拡大しないという欠点がある.また,複数のコ ピーが必要なので高コストである.3つめの方法は,時 間的多重化である.単一ポートのキャッシュを1サイク ルに複数回アクセスすることにより,マルチポートを 実現する(たとえばCompaq Alpha 21264<sup>2)</sup>).この 方法は低コストであるが,多くのポートを必要とする 将来のプロセッサでは使えない.最後の方法は,キャッ シュを複数のバンクに分割してインターリーブする方 法である.この方法では,前述の3つの方法に比べ, バンクにおけるアクセス競合によるバンド幅低下や, ロード/ストア・ユニットとバンクを結合する相互結 合網によるアクセス時間増大という問題があるが,コ ストとスケーラビリティの点で優れている.このため, 多くのプロセッサで採用されている(たとえば,Intel Pentium<sup>3)</sup>, MIPS  $R10000^{4)}$ , AMD Athlon<sup>5)</sup>).

本研究の目的は、マルチポート・インターリーブ・ キャッシュのレイテンシの改善にある.この目的のた めに, 我々は文献 6) で提案されているロード/スト ア・ユニットとインターリーブ・キャッシュの各バン クを1対1で結合する構成に着目した<sup>7),8)</sup>.本構成の キャッシュを搭載するプロセッサでは,命令を命令ウィ ンドウへ書き込む前に,何らかの方法によりアクセス するバンクを求める.命令ウィンドウからは,決定さ れたバンクに結合されたロード/ストア・ユニットに 発行され,目的のバンクにアクセスする.本方式は, インターリーブ・キャッシュから複雑な相互結合網を 削除することにより, レイテンシを低減することがで きる.また,アクセス時間はバンクを構成する小さな SRAM のアクセス時間で決まるため, これによって もレイテンシを低減することができる.以上2つの 効果により,スケーラビリティの高い大容量,マルチ ポートのキャッシュを構成することができると考えら れる.本方式の有効性について,文献 6) では,2 バ ンクの場合に限定し,簡単な評価が行われている.し かし,バンク数が2より大きな場合の評価や,キャッ シュのアクセス時間やスーパスカラ・プロセッサの動 的スケジューリングの効果を考慮した詳細な評価は行 われておらず,有効性の定量的確認が不足している. 本論文では、これらの点を考慮した詳細な評価を行う. 以下,ポート数分のロード/ストア・ユニットを用意 し, インターリーブ・キャッシュの各バンクと1対1 で結合する構成のキャッシュのことを, PPC キャッ シュ(point-to-point connected cache)と呼ぶ.

2章ではキャッシュのアクセス時間について概説する.3章では提案の構成と機構について説明する.4 章では提案機構を評価する.5章で関連研究について 述べ,6章で本研究をまとめる.

2. キャッシュのアクセス時間

本章では,キャッシュのアクセス時間について概説する.最初に単一ポートの場合について,次にインター リーブによるマルチポートの場合について説明する.

2.1 単一ポート・キャッシュ

キャッシュはデータ・アレイとタグ・アレイの 2 つ の部分よりなる.アクセス時間は,それぞれの信号 パスの長い方で決まる.データ・アレイおよびタグ・ アレイそれぞれの信号パスの遅延時間 $T_{access}(data)$ ,  $T_{access}(tag)$ は,以下の式で表される.

 $T_{access}(data) = T_{addr}(data) + T_{decode}(data)$ 

 $+ T_{wordline}(data)$  $+ T_{bitline}(data)$ 





(a) 元の構成
(b) ビット方向に分割した構成
図1 アクセス時間を削減するためのキャッシュの構成例

Fig. 1 Cache organization example to reduce the access time.

+ 
$$T_{sense}(data) + T_{select}(data)$$
  
+  $T_{output}(data)$ 

$$\begin{split} T_{access}(tag) &= T_{addr}(tag) + T_{decode}(tag) \\ &+ T_{wordline}(tag) + T_{bitline}(tag) \\ &+ T_{sense}(tag) + T_{cmp}(tag) \\ &+ T_{select}(tag) + T_{output}(data) \end{split}$$

ここで, $T_{addr}(array)$ , $T_{decode}(array)$ ,

 $T_{wordline}(array)$ ,  $T_{bitline}(array)$ ,  $T_{sense}(array)$ は それぞれ,  $array \in data, tag 側 の アドレス 駆動遅延,$ アドレス・デコード遅延, ワード線遅延, ビット線遅延, $センス・アンプ遅延である.<math>T_{select}(data)$ はアレイから 読み出されたデータから要求されているデータを選択 する出力マルチプレクサを通過する遅延,  $T_{select}(tag)$ はその出力マルチプレクサを制御する遅延,  $T_{cmp}(tag)$ はタグ比較の遅延,  $T_{output}(data)$ は出力バスの遅延 である.

キャッシュの各アレイは,論理的には1つのアレイ であるが,アクセス時間を短縮するために,物理的に は通常複数に分割されている<sup>9)</sup>.図1に,1つのデー タ・アレイをビット方向に2つに分割した例を示す.図 において,Aは連想度,Bはブロック・サイズ(単位: バイト),Sはセット数である.同図(a)に示した単 ーのアレイの場合,log<sub>2</sub>Sビットのアドレスをデコー ドするデコーダにより,S本のワード線の中の1本を 駆動する.ワード線により選択されたセルは,ビット 線を駆動し,センス・アンプにより信号は増幅される. タグ比較結果から得られる選択信号(図では省略)に よってデータが選択され,バスに出力される.

同図 (b) は,ビット方向に 2 つに分割した場合で ある.各アレイをサプアレイと呼ぶ. $log_2S = 1$ ビッ トのアドレスが両方のサブアレイに与えられ,デー タが読み出される.アドレスの第 $log_2S$ 番目のビット



でサブアレイを選択する.選択されたサブアレイか らの出力は、トライステート・バッファを介して出力 バスに出力される.アドレス・デコーダは、サブアレ イに多く分割するほどその複雑さが低減されるので、  $T_{decode}(array)$ が短くなる.また、ビット線が短くな るので  $T_{bitline}(data)$ が短くなる.しかし一方で、ア ドレスは複数のアレイに分配されなければならないの で、 $T_{addr}(array)$ が長くなる.また、出力バスに結合 されるトライステート・バッファ数の増加と出力バス 長の増加により  $T_{output}(array)$ が長くなる.さらに、 タグ・アレイとデータ・アレイの距離が増加するので、  $T_{select}(tag)$ が長くなる.これらは、アレイや出力マ ルチプレクサの配置を工夫<sup>10)</sup>することにより改善され るが、依然としてアクセス時間に大きな影響を与え、 アレイ分割とトレードオフの関係にある.

分割にはこのほかワード方向の分割がある.この分 割では,ワード線が短くなるので $T_{wordline}(array)$ が 短くなる.一方でアドレス・デコーダの数が増えるの で, $T_{addr}(array)$ が長くなる.

以上述べたように,分割にはトレードオフが存在す るが,一般には,容量が大きいほど最適なサブアレイ W 3 基本スーパスカラ・プロセッサの構成



数は多くなる.

2.2 インターリーブ・キャッシュ

マルチポート・インターリーブ・キャッシュの遅延 時間は、単一ポート・キャッシュの場合に比べて増加 する.これは、インターリーブ・キャッシュにはバン クとポートとの相互結合網(通常クロスバー)が必要 なためである.しかし前節で述べたように、高速化の ために一般にキャッシュは、物理的にすでに複数のサ ブアレイに分割され、それらはバスで結合されている ので、これを拡張してクロスバーを形成すれば、遅延 が大きく増加することはない.

図2に,データ・アレイから読み出されたデータを 出力バスに出力する論理回路を示す.この図は,デー タ・アレイが2つに分割された場合の例である.同 図(a)は文献11)に示されている単一ポートの場合の 回路であり,(b)は2ポートのインターリーブに対応 するように拡張した回路である(実際の回路は,大き な負荷を駆動するドライバが挿入されているなど高速 化のための工夫がある.ここでは図を簡単化するため に論理のみ示す).単一ポートの場合,タグ比較結果 (tag match0/1)とアドレスから生成されるアレイを 指定する信号(array0/1)の論理積をとった信号を, トライステート・バッファの制御ピンに与え、アレイ の出力を選択し,データ・バスを介してデータ・ポー トに出力する.これに対して2ポートの場合,まず, 2 つのポートに出力する 2 つのバスを用意し, 各アレ イの出力を2つのバスにトライステート・バッファで 結合する.選択は、タグ比較結果とアレイを指定する 信号に加え、どのポートに出力するかを指定する信号 (port0/1)の論理積とする.

クロスバーによる遅延について詳しく考えてみる. クロスバーによる遅延は,網をデータが通過する時間 と網のスイッチを制御(図2では,トライステート・ バッファの選択)する時間の2つに分けられる.ま ず、データ通過時間について考える.キャッシュの容 量が小さい場合、アクセス時間を最小とするサブアレ イ数は少ない.インターリーブ・キャッシュに必要な バンク数が、最適なサブアレイ数より多い場合、必要 以上に分割されることとなる.これによりアクセス時 間が増加する.一方、容量が大きい場合、アクセス時 間最小の構成では、多くのアレイに分割される.必要 なバンク数より最適なサブアレイ数が多くなれば、こ のようなペナルティを課せられることがないため、イ ンターリーブによる遅延増加は小さい.明らかなこと であるが、ポート数が多いほどこのペナルティを被ら ないキャッシュ容量の下限が上がる.

これに対して,網のスイッチは単一ポート・キャッ シュには必要ないので,つねに遅延増加を引き起こす. スイッチに要する時間の多くは,どのアレイの出力を どの出力バスに出力するかの選択肢が増えることによ るものである.図2に示した回路では,タグ比較結果 を出力するゲートのファンアウトが増加することによ り遅延が増加する.

## 3. 1対1結合インターリーブ・キャッシュ

本章ではまず最初に,本論文で仮定するスーパスカ ラ・プロセッサの基本構成を述べる.その後,PPC キャッシュを組み込んだ構成を示す.次に,命令発行 前にパンク番号を求める機構について述べる.さらに, 本機構を強化する方式について説明する.本論文では, ロード/ストア命令が使用できるアドレシング・モー ドとして,最も一般的なベース相対のみの場合を考え るが,このほかによくサポートされているアドレシン グ・モードとして,インデクス修飾の場合について議 論する.最後に,PPCキャッシュをプロセッサに組み 込むには,アドレス計算とキャッシュ・アクセスを別々 にスケジューリングする分離ロード/ストアと呼ばれ る方式が必要であるが,その長所と短所について議論 する.

3.1 基本構成

図3に,本論文で仮定するスーパスカラ・プロセッ サの基本構成を示す.図4には,ロード/ストア命令 のパイプライン構成を示す.フロントエンドは,本研 究には無関係なので省略している.

命令はデコード後,レジスタ・ファイルとリオーダ・ バッファを参照しオペランドを得,命令ウィンドウに書 き込まれる.命令ウィンドウより命令は各機能ユニッ トに発行され実行される.ロード/ストア命令につい ては,さらにデータ・キャッシュをアクセスする.デー タ・キャッシュの長いアクセス時間がクロック・サイ

| Cycle                     | 0        | 1        | 2     | 3        | 4        | 5        | 6         |
|---------------------------|----------|----------|-------|----------|----------|----------|-----------|
| Load/Store<br>Instruction | Reg Read | Dispatch | Issue | Addr Gen | D-Cache1 | D-Cache2 | Reg Write |

図4 基本プロセッサにおけるロード/ストア命令のパイプライン Fig.4 Pipeline for load/store instructions in the baseline processor.

| - Disp       | atch — | ✓ Iss  | sue —       |
|--------------|--------|--------|-------------|
| Win<br>Write | Wakeup | Select | Win<br>Read |

図5 Dispatch と Issue ステージでの処理内容 Fig.5 Breakdown of Dispatch and Issue stages.



図 6 PPC を搭載するスーパスカラ・プロセッサの構成 Fig. 6 Superscalar processor organization with the PPC cache.

クル時間に与える悪影響を避けるため,最近の高速な プロセッサでは,アクセス動作はパイプライン化され ている場合が多い.この例では2段にパイプライン化 されている.

3.3 節での説明を容易にするために,命令ウィンド ウへの書き込みから発行までの処理をより細かく分解 して説明する.図5に,DispatchとIssueの2つの パイプライン・ステージの処理内容とタイミングを示 す.Dispatchステージの前半で,命令は命令ウィンド ウに書き込まれる(Win Write).後半では,次のサ イクルに実行が終了する命令の結果タグが命令ウィン ドウにブロードキャストされ,タグ比較の結果,参照 オペランドが利用可能かどうかを表すフラグが更新さ れる(Wakeup).次にIssueステージの前半で,参照 オペランドがそろっている命令の中から,発行する命 令が選択され(Select),後半で,選択された命令が 命令ウィンドウより読み出され,機能ユニットに送り 出される(Win Read).

3.2 PPC キャッシュを組み込んだ構成

図6に PPC キャッシュを組み込んだスーパスカラ・ プロセッサの構成を示す.基本構成との大きな違いは 次の2点である.第1に,バンク数と同数のロード/ ストア・ユニットを用意し,それらとバンクを1対1 で結合する.第2に,命令ウィンドウに命令を書き 込む前に,アクセスするバンクの番号を計算あるい は予測により求めるユニット(BNU: bank number calculation/prediction unit)を設ける.得られたバ ンク番号を命令とともに命令ウィンドウに書き込む. 発行時に参照し目的のロード/ストア・ユニットに命 令を発行する.ロード/ストア・ユニットで実効アド レスを計算し,結合されたバンクにアクセスする.

5

PPC キャッシュは,インターリーブ・キャッシュか ら複雑な相互結合網を削除することにより,レイテン シを低減することができる.また,アクセス時間はバ ンクを構成する小さなSRAMのアクセス時間で決ま るため,これによってもレイテンシを低減することが できる.一方,欠点としては,通常のインターリーブ・ キャッシュと比べ,データバスが大きくなる場合があ ることである.バンク数と同数のロード/ストア・ユ ニットが必要なため,バンク数を多くしバンク競合を 削減しようとした場合,従来構成よりも多くのロード/ ストア・ユニットが必要になる.このようなことは通 常のインターリーブ・キャッシュでは必要ない.ロー ド/ストア・ユニットの増加によりコスト増加,バイ パス遅延の増加などが生じる.

3.3 バンク番号の計算と予測

BNU はバンク番号を得るユニットである.バンク 番号を得るには,計算による方法や予測による方法が 考えられる.本節ではそれらの方法について説明する. 3.3.1 バンク番号の計算

バンク番号を計算により求める場合,レジスタ・ファ イルあるいはリオーダ・バッファよりベース・レジスタ を得た後,アドレスの下位よりバンク番号が得られる 桁までオフセットを加算して求める.この方法はレジ スタ参照時にベース・レジスタがすでに利用可能な場 合にのみ可能である.計算はアドレスの下位のみなの で,計算時間は短い.たとえば,ワードによる4ウェ イ・インターリーブの場合,4ビットの計算ですむ.

計算によってバンク番号を得る場合のロード/スト ア命令のパイプラインを,図7に示す.PPCキャッ シュのアクセス時間は従来のキャッシュより短いので, 1サイクルでアクセスできるとする.図7(a)に,BNU



(b)PPC キャッシュにおいて BNU でペース・レジスタが利用可能でない場合
図8 通常の分離ロード/ストアと PPC キャッシュにおける命令発行のタイミング
Fig. 8 Timing of instruction issue in usual split load/stores and PPC cache.

においてバンク番号が得られる場合のパイプライン構 成を示す.Dispatch ステージの前半でバンク番号を 計算し,後半で命令ウィンドウに書き込む.書き込ま れたバンク番号は,命令がどの資源を要求するかを示 すフラグの1つであり,Issue ステージのSelect 時に 参照される.バンク番号の書き込みタイミングは,命 令ウィンドウへの命令の書き込みタイミングより半サ イクル後ろとなるが,参照はIssue ステージなので問 題ない.この仕様に合わせて,命令が要求するその他 の資源についても,要求資源フラグをセットするタイ ミングを Dispatch の後半に変更する.

一方,ベース・レジスタが利用可能でないために, BNUでバンク番号が得られない場合,利用可能にな るのを待つのではなく,通常通り命令ウィンドウに書 き込む.その後,分離ロード/ストアと同様の動作で, アドレス計算の後,目的のロード/ストア・ユニット に発行する.ここで,分離ロード/ストアとは,1つ のロード/ストア命令を,アドレス計算とキャッシュ・ アクセスの2つの操作に分解し、それらを別々にスケ ジュールし実行する方式をいう.図7(b)にパイプラ イン示す.サイクル2に,ベース・レジスタが利用可 能になるとする.命令は,実効アドレスを計算するた め ALU に発行される.このとき,通常の命令発行と 異なり、当該命令が格納されている命令ウィンドウの エントリを削除しない.サイクル3で実効アドレスを 計算する.このサイクルの早期にバンク番号を得るこ とができるので,命令ウィンドウ内の当該命令のエン トリに,得られたバンク番号を書き込む.サイクル4 では,命令ウィンドウの当該命令のエントリに実効ア ドレスが書き込まれ,再スケジューリングされて目的 のロード/ストア・ユニットに再発行される.サイク ル5では,ロード/ストア・ユニットのアドレス計算 回路をバイパスし,データ・キャッシュをアクセスす る.サイクル6で得られたデータを書き込む.

以上の動作は,分離ロード/ストアとほぼ同一であ るが,本方式では2度目の発行サイクルを隠蔽できな い点が異なる.図8に命令の発行タイミングの詳細 を示す.図の上方にあるサイクル番号は,図7(b)の それと対応している.図8(a)は通常の分離ロード/ス トアの場合である.アドレス計算とオーバラップして キャッシュ・アクセス操作の発行動作を行うことがで きるため,オーバヘッドは生じない.同図(b)にPPC キャッシュにおける場合を示す.アドレス計算の前半 にバンク番号が得られ(Bank Calc), そのサイクル の後半に命令ウィンドウの当該エントリの要求資源フ ラグを更新する(Update R-flag).次のサイクルに選 択,命令ウィンドウの読み出しが行われ,再発行を完 了する.以上のように, PPC キャッシュの場合, ロー ド/ストア・ユニットはキャッシュのバンクと1対1で 結合されているため、資源要求の調停のためにバンク 番号が必要である.このため,バンク番号が命令ウィ ンドウに書き込まれなければ,発行する命令の選択を 開始することができない.このようなことは通常の分 離ロード/ストアは生じない.このため,再発行に余 分に1サイクルを要する.つまり,再発行のサイクル が, BNU でバンク番号を得られなかったことによる ペナルティということができる.

Vol. 42 No. SIG 12(HPS 4)

計算によりバンク番号を得る方法では,数ビットの 加算器が必要なだけなので, 3.3.2 項で述べるストラ イド予測による方式より低コストであるという利点が ある.一方,欠点としては,4章で評価を行うが,ベー ス・レジスタが計算時点で利用可能である確率があま り高くないという点である.このため, PPC キャッ シュの恩恵を得る機会が減少する.もう1つの欠点 は,実装によってはクロック速度に悪影響を与える可 能性があることである.本説明では,命令のDispatch と Issue を 2 サイクルで行うプロセッサを仮定したた め,バンク番号の計算を Dispatch ステージの前半に 組み込むことができ,クロック速度に影響を与える可 能性を少なくすることができた.しかし,Dispatchと Issue を1 サイクルで行うようなプロセッサでは,ク ロック速度に影響を与えてしまう.レジスタ読み出し のステージで行うように変更しても,レジスタ読み出 しはクリティカル・パスの1つであるから,やはりク ロック速度に影響を与える可能性がある.この問題は, 計算するビット数を減らすことができれば低減するこ とができる.もし桁上げを予測することができれば, バンク番号指定に使用する桁のみの加算ですませるこ とができる.我々は文献8)において,論理積1ゲー トを用いた予測方法を提案した.この方法では,たと

えばライン・インターリーブでは、ベース・レジスタ とオフセット値におけるライン内オフセット部(LO: line offset)の最上位ビットの論理積をとったものと する.LOの最上位桁のレジスタ値とオフセット値が (1,1)のときに桁上がりがあり、(0,0)のときには桁上 がりがないことを利用するものである.(1,0)あるい は(0,1)のときはLOの最上位より下位のビットに依 存するが、これらのビットがランダムでも50%の確率 で予測は成功する.したがって、この予測手法は、最 終的には75%程度の確率で成功すると考えられる.ま た、オフセット値は0である確率は高く(文献8)で の測定では24%)、このときは桁上がりはないので、 予測成功の確率はさらに高いと期待できる.

3.3.2 バンク予測と予測失敗からの回復動作

3.3.1 項で述べた方法では,バンク番号計算時にベー ス・レジスタが利用可能でない場合,1 サイクルのペ ナルティを被る.これに対し,バンク番号の予測を行 い,それに従って投機的にロード/ストア・ユニット に発行すれば,レイテンシ削減に効果がある.

バンク予測として,大きく分けて2つの方法を示 す.1つは,最新のベース・レジスタが利用できない 場合,その以前の値を予測値とし,計算により求める 方法を提案する.以下これを古いレジスタ予測方式と 呼ぶ.ベース・レジスタの更新によってバンク番号が 影響を受けないなら,予測は正しいものとなる.たと えば,ワードによる4ウェイ・インターリーブの場合, 4 ワードの整数倍のストライドで変化するならば,ア クセスするバンクは変化しないので100%正しく予測 できる.また,ベースが1バイトのストライドで変化 する場合,ベース・アドレスの変化がワード境界を越 えるときのみ予測を誤るので,75%の予測精度を得る ことができる.この方法は,予測に要するコストが非 常に小さいという利点がある.一方,バンク番号を得 るためには計算が必要なため,実装によっては前述の ようにクロック速度に影響を与える可能性がある.

2 つめの方法は,一般的なアドレス予測方式を修正 して用いる方法である<sup>6),12)</sup>.パンク予測は,アドレ ス予測<sup>13)~17)</sup>のサブセットと考えられる.予測器の修 正には,パンク予測に特化するいくつかの方法が考え られる.まず,パンク番号はアドレスの一部なので, 値履歴表にはバンク番号を指定する部分を含むアドレ スの下位のみ保持すればよい.これによりコストを大 幅に削減できる.また,後述するが予測誤りによるペ ナルティは小さい.加えて,少ないバンクを予測する ことは比較的容易である.以上を考慮すると,タグ・ チェックや信頼性推定機構を省略する選択肢がある.こ れらは予測率(全ロード/ストア命令に対し正しくバ ンクを予測できた割合)の向上とコスト削減の効果が ある.古いレジスタ予測方式と異なり,レジスタ読み 出しと並行して予測を行うことができるので,クロッ ク速度への影響はほとんどない.

予測により命令が発行される場合,その検証はアド レス計算時に行う.発行後も予測誤りに備えて,命令 ウィンドウのエントリを削除せず,予測が正しいこと が分かった時点で削除する.予測が誤りと分かった場 合,3.3.1項で説明した方法と同様の手順で,命令を 再発行する.再発行のための1サイクルが,予測誤り のペナルティである.また,命令ウィンドウのエント リの削除が遅れるので,命令ウィンドウがより頻繁に 一杯になるという問題がある.これも実装によっては, ペナルティとして課せられる.

3.4 性能向上のための強化

予測により命令を発行する場合,使用されないすべ てのロード/ストア・ユニットに対しブロードキャスト すれば,たとえ予測を誤ってもペナルティを被る確率 を下げることができる<sup>6)</sup>.ブロードキャストを行う命 令の選択方法としては,たとえば,予測により発行す る命令の内,プログラム順で最も古いものとする方法 や,予測の信頼性が低いものとする方法が考えられる.

命令ウィンドウとすべての機能ユニットの間にはす でに相互結合網が形成されているので,プロードキャ ストによる通信の複雑さの増加はほとんどない.予測 ミスを知らせる信号は,プロードキャストされた各ユ ニットからの予測ミス信号の論理積をとる必要がある が,予測の正誤はサイクルの早期に判明するので問題 ない.

3.5 インデクス修飾アドレシングの場合

本論文では,ロード/ストア命令が使用できるアド レシング・モードとして,ベース相対のみの場合を仮 定しているが,このほかによくサポートされているア ドレシング・モードとして,インデクス修飾がある. たとえば,SPARCでは,ベース相対とインデクス修 飾の両方をサポートしている.本節では,インデクス 修飾アドレシングの場合について議論する.

アドレシング方式が異なるだけなので,これまで説 明した PPC キャッシュの方式において変更しなけれ ばならない点は,BNU のみである.まず,計算によ リバンクを求める機構においては,当然であるが,2 つのレジスタを加えてバンクを求める必要がある.バ ンク番号を求める計算時間は変わらない.2つのレジ スタが利用可能な確率は,1つのレジスタが利用可能 な確率より低いので,計算可能な確率は下がり,BNU としてのこの方式の有効性は低下する.古いレジスタ の予測でも同様に,2つのレジスタの参照が必要なた め,予測精度は低下する.ストライド予測については, アドレスをどのようにして生成するかは,アドレスの 履歴とは無関係なので,予測精度は変わらないと思わ れる.

3.6 分離ロード/ストア

PPC キャッシュでは,前述のように,分離ロード/ ストア方式を使用しなければならない.本節では,分 離ロード/ストアの長所/短所について議論する.

短所としては、まず命令発行バンド幅をより多く消 費するということがあげられる.また、アドレス計算 にALUを用いるので、ALUがより多く消費される. これらによりIPC(instruction per clock cycle)が低 下する可能性がある.回路上の短所としては、通常の 場合、アドレス計算とキャッシュ・アクセスの遅延の合 計が設計目標を満たせばよいが、分離すると、それぞ れの遅延が設計目標を満たさなければならないという ことがあげられる、アドレス計算のサイクルにキャッ シュ・アクセスの一部の回路を移動させることが可能 な通常の場合に対し、そのようなことは分離の場合で きない.

長所としては,メモリ依存を考慮した正確なスケ ジューリングが可能な点である.メモリ依存を知るた めには,データ・アドレスが必要である.分離ロード/ ストアでは,データ・アドレスが命令ウィンドウの中 で参照できるので,アドレスを比較することにより依 存が判明し,それに基づいた正確なスケジューリング が可能となる.これに対し,通常のロード/ストアで は,スケジューリング時にアドレスが判明していない ので,先行するストアがすべて発行されなければロー ドは発行できない.これは偽の依存を発生させること になり,IPC が低下する.

分離ロード/ストアで,メモリ依存を解析してスケ ジューリングする場合,命令ウィンドウにアドレスを 格納するサイクルが必要となる.このサイクルを必要 なときのみ挿入する最適化は容易である.つまり,先 行するすべてのストアが発行されているなら,ロード はアドレス計算に続いてキャッシュをアクセスすると いう方法が採れる.このタイミングでの動作を図8(a) で説明した.

本章の説明では,分離ロード/ストアを1つの命 令ウィンドウで実装したが,実装の容易さの点から, キャッシュ・アクセス操作を別のウィンドウで保持する 方が有利である.一般に,この命令ウィンドウのこと をLSQ(load/store queue)と呼ぶ.メモリ依存を考 慮したスケジューリングのために,アドレス比較を行 う必要があるが,これは別のパッファにする方が実装 が容易である.また,ロードがLSQ内にとどまって いる先行ストアに依存していた場合,LSQ内でデータ を受け取るよう回路を構成する必要がある.このフォ ワーディング機構を実装するためにも,別バッファに する方が有利である.ただし,これは実装上の問題で あり,論理的には1つのウィンドウで構成する方法と エントリ数の違いを除いて等価である.また,3.1項 の基本構成の説明では,一般性を欠かないために,分 離しない通常のロード/ストア方式を仮定したが,分 離ロード/ストアの方が正確なスケジューリングによ り高い IPC が得られるので,以下の評価においては, 比較対象の基本プロセッサも分離ロード/ストアを仮 定している.

## 4. 評価結果

本章では,最初にインターリーブ・キャッシュのア クセス時間の評価を行い,PPC キャッシュによるア クセス時間の削減について評価する.次に,BNU の 性能によって,PPC キャッシュの実効的なアクセス時 間が変化するので,それについて評価する.さらに, BNU に用いるストライド・バンク予測器について評 価する.最後に,PPC キャッシュをプロセッサに搭載 した場合の性能を評価する.

4.1 キャッシュ・アクセス時間の評価

アクセス時間の評価方法について述べた後,評価結 果を示す.

4.1.1 評価方法

CACTI<sup>10),11)</sup>を修正し,キャッシュのアクセス時間 を求めた.CACTIは,与えられたキャッシュ容量,ブ ロック・サイズ,連想度の下で,アクセス時間を最小 にするアレイの分割数と,そのときのアクセス時間を 求めるプログラムである.我々は,CACTIに対し次 のような修正を加えた.

第1に,インターリーブ・キャッシュのアクセス時間を測定できるよう,相互結合網に関わる回路を加えた.第2に,最近のプロセス技術に適応できるように,トランジスタと配線のパラメータについて次のことを行った.トランジスタの特性に関しCACTIで仮定されているパラメータを,最小加工寸法と電源電圧に対してスケーリングできるようようにした(たとえば文献18)参照).配線に関するパラメータは,文献19)に示されているのものを用いた.表1に,測定に用いた0.18µmプロセス・パラメータを示す.我々が仮定したトランジスタ特性は,半導体回路の論文誌に掲



載されている文献,たとえば,文献20)のものとほぼ 一致しており,妥当なものと考える.第3に,配線遅 延の影響を小さくするために,サプアレイ配置の最適 化,負荷の大きなトランジスタのサイジング,長い配 線へのリピータの挿入,配線層の使い分け(アレイ内 部に中層メタル,アレイ間に高層メタル)を行った. 修正の詳細については,本論文の範囲を超えるので省 略する.

4.1.2 アクセス時間

図9に, 32 バイト・ブロック, 2 ウェイ連想で, 容 量を 8 K~256K バイトで変化させた時のアクセス時 間の測定結果を示す.縦軸は,8Kバイトのキャッシュ のアクセス時間 959 ps で規格化した遅延である.以 下では,8Kバイトのキャッシュのアクセス時間のr倍 の遅延のことを, r CA8 と表すこととする.8 KB バ イトのキャッシュを基準としているのは,この10年 間のハイエンドの多くのプロセッサにおいて、搭載す るキャッシュ容量は8K~64Kバイトの範囲で変動し ている.また,キャッシュ・アクセスはプロセッサの クリティカル・パスの1つであるため,これがクロッ ク・サイクル時間を決定することがよくある(このた め、プロセッサの世代が新しくなるときに容量が小さ くなることもある).キャッシュ容量の変動の範囲で の最小値である8Kバイトでの遅延を基準とすれば, クロック・サイクル時間との関係が直感的にわかる.

図9からわかるように,単一ポートでは,32Kバイト以上では,容量を倍にするごとにおよそ0.14 CA8で増加していく.16Kバイト以下では,その量は小さい.

ポートを増やすと、2.2 項で述べたように、アレイ の必要以上の分割と相互結合網の遅延でアクセス時 間が増加する.容量が大きい場合(32 K バイト以上)

9

| Transistor              |                             |                              | Mi                       | d-Level M  | etal                        | То          | p-Level M  | etal                     |                |
|-------------------------|-----------------------------|------------------------------|--------------------------|------------|-----------------------------|-------------|------------|--------------------------|----------------|
| Gate<br>Cap.<br>(fF/µm) | Junction<br>Cap.<br>(fF/µm) | Transistor<br>Res.<br>(K-µm) | Supply<br>Voltage<br>(V) | Width (nm) | $\frac{\text{Res.}}{(m/m)}$ | Cap. (fF/m) | Width (nm) | $\frac{\rm Res.}{(m/m)}$ | Cap.<br>(fF/m) |
| 1.56                    | 1.51                        | 3.6                          | 1.8                      | 320        | 107                         | 0.253       | 530        | 36                       | 0.270          |

表1 仮定した  $0.18\mu$ m プロセス技術におけるトランジスタと配線の特性 Table 1 Features of transistors and wires in the assumed  $0.18\mu$ m process technology.



Fig. 10 Access time reduction with the PPC cache.

は,遅延増加は相互結合網によるもののみである.1 ポートから2ポートにすると,網のスイッチ論理が 必要となり,遅延が大きく増加する.この量はおよそ 0.14 CA8 である.ポートをそれ以上にしても,選択 論理のファンアウトが増加するだけなので増加量は小 さく,2から4ポートにするとおよそ0.05 CA8,4か ら8ポートにするとおよそ0.07 CA8 増加する.一方, 容量が小さい場合,アレイの分割が大きく作用する. この影響は大きく,たとえば,容量128 Kバイトでは 単一ポートから8ポートにすると,0.25 CA8 の遅延 増加であるが,容量8 Kバイトでは0.40 CA8 も増加 する.

図10 に, PPC キャッシュによるアクセス時間の削減の割合を示す.一般に,ポート数が多いほど,より 多くのバンクに分割されるため, PPC キャッシュによ るアクセス時間削減率は大きい.たとえば,64 K バ イトのキャッシュでは,8 ポートで35%,2 ポートで も20%ほどアクセス時間を削減できる.

また,前述のように単一ポート・キャッシュの遅延 時間は,容量を増加させると,緩やかな増加から急な 増加傾向を示すので,キャッシュ容量を大きくすれば PPCキャッシュによるアクセス時間削減量も大きくな る.しかし,単一ポート・キャッシュの遅延時間の容 量に対する増加量は一定なので(増加率が一定という わけではない), PPC キャッシュの効果は容量増加に 対し低減の傾向を示す.図10より,2ポートと4ポー トの場合でこの現象が見られる.8ポートの場合は測 定の範囲でこの現象は見られないが,さらに大きな容 量に対して測定すれば観測されると思われる.

## 4.2 PPC キャッシュの実効アクセス時間

PPCキャッシュを使用することにより,前節で示し たアクセス時間削減の利益を享受するためには,BNU でアクセスするバンクが正しく得られることが必要で ある.3.3 項で述べたように,BNU で正しいバンク 番号が得られなければ,1サイクルのペナルティを被 る.これを考慮に入れたアクセス時間が,PPCキャッ シュの実効的なアクセス時間(effective access time) である.実効アクセス時間は,キャッシュ・アクセス 時間の期待値であり,PPCキャッシュの性能を知るた めの指標となる.本節では,実効アクセス時間を評価 する.なお,実効アクセス時間に対し,4.1 項で求め たキャッシュそのもののアクセス時間のことを,物理 アクセス時間(physical access time)と呼ぶことと する.

## 4.2.1 評価方法

BNU で正しいバンク番号が得られる確率を CBR (correctly bank number obtained rate), 正しいバ ンク番号が得られなかった場合のペナルティを PPC ペナルティと呼ぶこととする.PPC キャッシュの実効 アクセス時間は,次の式で求められる.

Effective access time = PPC physical access time

+  $PCCpenalty \times (1 - CBR)$ 

ここで, PPC ペナルティは命令の再発行に必要な 1 クロック・サイクルに相当する時間であるが,これ を以下の計算では PPC の物理アクセス時間とする. キャッシュ・アクセスがプロセッサのクリティカル・パ スの1つであることはよく知られている.ここでは, PPC キャッシュを導入したプロセッサでも PPC キャッ シュのアクセス時間がクロック・サイクル時間を決定 すると仮定する.この仮定は,キャッシュ以外のクリ ティカル・パスがクロック・サイクル時間を決定する ことがあるので,つねに正しいわけではない.特に,1 つのバンクが小さいほど,他のパスがクロック・サイ

|             | Table 2 De  | nemnark progra   | 1113.   |          |
|-------------|-------------|------------------|---------|----------|
| program     | input       | instructions     | % loads | % stores |
| compress 95 | bigtest.in  | 95M              | 20.8%   | 13.7%    |
| gcc         | genoutput.i | 84M              | 26.2%   | 14.3%    |
| go          | 2stone9.in  | $75\mathrm{M}$   | 21.3%   | 6.7%     |
| ijpeg       | specmun.ppm | $450 \mathrm{M}$ | 19.1%   | 7.8%     |
| li          | train.lsp   | 183M             | 25.7%   | 16.4%    |
| m88ksim     | ctl.in      | 420M             | 20.2%   | 9.8%     |
| perl        | scrabbl.in  | $80\mathrm{M}$   | 27.5%   | 18.8%    |
| vortex      | vortex.in   | 80M              | 30.0%   | 25.0%    |

表 2 ベンチマーク・プログラム Table 2 Bonghmark programs

クル時間を決定する可能性が大きい.したがって,こ の仮定の下でのPPCキャッシュの実効アクセス時間 は下限を示すこととなる.このように,以下の測定結 果を見るには注意を要するが,BNUを考慮したPPC キャッシュの実効アクセス時間を知るうえではよい指 標と考える.

BNUの CBR は、プロセッサの動的な振舞いに関 係するため、プロセッサの実行シミュレーションが必 要である.シミュレーションには、SimpleScalar Tool Set<sup>21)</sup>中のout-of-order 実行シミュレータを基に、我々 の機構を組み込んだシミュレータを用いた.命令セッ トは MIPS R10000 である.ベンチマーク・プログ ラムには SPECint95 を用い、そのバイナリは GCC ver.2.7.2.3、オプション-O6 -funroll-loops でコンパイ ルして得た.表2に各ベンチマーク・プログラムに対 する入力セット、実行命令数、ロードとストアの占め る割合を示す.入力は、測定時間が過大にならないよ うに、関数の出現頻度をほぼ維持しつつ調整している. また、プログラムの特定の部分を繰り返すプログラム については、その部分を抜き出し繰返し回数を調整し ている.

データ・キャッシュのポート数が,2,4,8である3 つのプロセッサ・モデルP2,P4,P8を仮定した.デー タ・キャッシュは,ポート数と等しいバンクに分割され ているとする.P2モデルは,4命令発行で,命令ウィ ンドウとして32エントリのRUU(register update unit)と16エントリのLSQ(load/store queue)を 持つ.機能ユニットには,2つのALU,2つのロード/ ストア・ユニット,1つの整数乗除算ユニット,2つの 浮動小数点ALU,1つの浮動小数点乗除算ユニットを 持つ.これらの機能ユニットのレイテンシはR10000 とほぼ同じである.P4,P8モデルはP2モデルに対 し,上記資源(命令ウィンドウと機能ユニット)をそ れぞれ2倍,4倍持つ.

命令ウィンドウに RUU を用いているので,命令ウィ ンドウのエントリはコミットされるまで削除されない. 表3 C 機構を持つ PPC キャッシュによる実効アクセス時間の増 加率(%)

Table 3 Increase of the effective access time in PPC cache with C mechanism(%).

| program    | P2   | P4   | P8   |
|------------|------|------|------|
| compress95 | 9.1  | 0.5  | -8.8 |
| gcc        | 20.6 | 15.4 | 7.8  |
| go         | 31.0 | 21.3 | 11.8 |
| ijpeg      | 16.8 | 11.7 | 10.0 |
| li         | 25.2 | 20.2 | 12.5 |
| m88ksim    | 20.0 | 13.4 | 4.4  |
| perl       | 18.4 | 15.7 | 8.6  |
| vortex     | 16.2 | 14.2 | 7.8  |

したがって,3.3.2 項で述べた発行後のエントリの削除の遅れにより命令ウィンドウ占有時間が長くなることによるペナルティは課せられない.ただしコミットも遅れるならば,そのペナルティは課せられたことになる.また,従来のキャッシュを用いるプロセッサにおいてもロード/ストア命令は,LSQを用い分離方式で,メモリ依存を考慮した正確なスケジューリングが行われる.

L1 データ・キャッシュは,ポート数以外は全モデル で同一であり,容量 32 K バイト, 32 バイト・ブロッ ク,2ウェイ連想である.ヒット・レイテンシは,従来 のキャッシュの場合2 サイクル, PPC キャッシュの場 合1 サイクルとした. L1 命令キャッシュは完全, L2 キャッシュは,単一ポート,容量2Mバイト,統合,64 バイト・ブロック,4 ウェイ連想で,6 サイクルのヒッ ト・レイテンシ,36 サイクルのミス・レイテンシとし た.分岐予測器には,13ビットのインデクス,6ビッ トの履歴の $gshare^{22}$ と,2Kエントリ,4ウェイ連想 のBTB, および, 16 エントリのリターン・アドレス・ スタックを用いた.分岐予測ミス・ペナルティは5サ イクルとした.なお,4.4項ではキャッシュのヒット・ レイテンシと分岐予測ミス・ペナルティを種々変えて 測定を行うが,これらがCBRに与える影響は,測定 の結果,非常に小さい.このため,上述のパラメータ での測定結果のみ示す.

#### 表 4 BNU でベース・レジスタが利用可能な割合

Table 4 Availability rate of base registers at BNU(%).

| P2   | P4                                                                 | P8                                                                                                                                                                        |
|------|--------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 64.8 | 62.9                                                               | 63.5                                                                                                                                                                      |
| 50.5 | 42.6                                                               | 38.7                                                                                                                                                                      |
| 37.6 | 34.6                                                               | 32.7                                                                                                                                                                      |
| 55.2 | 47.7                                                               | 35.4                                                                                                                                                                      |
| 44.7 | 36.1                                                               | 31.6                                                                                                                                                                      |
| 51.3 | 45.3                                                               | 43.7                                                                                                                                                                      |
| 53.2 | 42.2                                                               | 37.4                                                                                                                                                                      |
| 55.9 | 44.3                                                               | 38.7                                                                                                                                                                      |
|      | P2<br>64.8<br>50.5<br>37.6<br>55.2<br>44.7<br>51.3<br>53.2<br>55.9 | P2     P4       64.8     62.9       50.5     42.6       37.6     34.6       55.2     47.7       44.7     36.1       51.3     45.3       53.2     42.2       55.9     44.3 |

BNUと命令発行に組み込む機構として,以下の5 つの機構を仮定した.

- C : ベース・アドレスが利用可能な とき,バンクを計算により求め る.
  - O : 古いレジスタ予測によってバン クを予測する.
  - S : ストライド予測によってバンク を予測する.
- S+B : ストライド予測によってバンク を予測し,発行の際,プログラ ム順で最も早い命令を使用され ないロード/ストア・ユニット にプロードキャストする.
- S+B+C : 計算可能な場合は計算により, そうでないときは,ストライド 予測によってバンク番号を得る .予測により発行する場合は, 前述のポリシーでプロードキャ ストする.

なお,ストライド・バンク予測器は4K エントリ の表より構成される.この表は,ロード/ストア命令 の命令アドレスでインデクスされ,各エントリは対応 する命令が最後にアクセスしたアドレスの下位よりバ ンク番号までのビット(最終値)と,その前にアクセ スしたアドレスとの差分の下位よりバンク番号までの ビット(ストライド)を保持する.最終値とストライ ド(初期値はいずれも0)を加えて予測値とする.タ グはない.また,ストライドが検出されたかどうかを 表す状態も存在しない.この方式は,文献16)で示さ れた3状態の予測器より単純であるが,バンク予測と しては本方式の方が有効である.このことについては, 4.3 項で述べる.

4.2.2 実効アクセス時間

まず最初に, BNU に C 機構のみを実装した場合の 評価結果を示す. C 機構のみでは, ほとんど場合で実



Fig. 11  $\,$  Effective access time reduction rate.



効アクセス時間を削減することはできなかった.表3 に,従来のキャッシュに対するPPCキャッシュの実効 アクセス時間の増加率を示す.正の数は増加したこと を意味し,負の数は減少したことを意味する.同表か らわかるように,ほとんどの場合で実効アクセス時間 は増加している.特に,ポート数が少ないプロセッサ ほど物理アクセス時間の削減量が小さいため,実効ア クセス時間の増加率が大きく,P2,P4では,すべて のベンチマークで増加した.

このように実効アクセス時間を削減できなかった理 由は,BNU でバンク番号を計算する際に,ベース・ レジスタが利用可能な割合が小さいことである.表4 に,BNU でベース・レジスタが利用可能であった割 合を示す.同表よりわかるように,平均で40~50%程 度しか利用可能でない.このため,頻繁にペナルティ が課せられ実効アクセス時間が増加した.以上より, C 機構より高い確率で正しくバンクを指定できる機構 が必要であることがわかる.

次に,C機構以外の場合の実効アクセス時間の削減 率を図11に示す.正の数は減少したことを意味し,負 の数は増加したことを意味する.また,図12にCBR を示す.評価結果より次のことがわかる.

- 予測を用いることで CBR は大きく向上する.た とえば P4 において,O機構では 59~78%,S機構では 71~86%まで向上する.当然ながら,ポート数が少ないほど CBR は高い.S機構の CBR は ベンチマーク平均で,P2で 90%なのに対し,P8 では 72%である.
- 予測にブロードキャストを導入すれば、ポートが 多い場合において大きく CBR を向上できる.S から S+B 機構にすることにより、平均で P2 で は5%ポイントしか改善しないが、P8 では7%ポ イント改善する.特に、ストライド予測で CBR の低い gcc, go, li において効果が大きい.
- さらに、ベース・レジスタ利用可能時に計算を行うことを加えれば、P8においてCBRは2~6%ポイント改善する。
- ポート数が多いほど高度な BNU / 発行機構を使う利点が現れてくる.その結果,ポート数が増加しても CBR が大きく低下することはない.ベンチマーク平均で P2 から P8 の CBR の減少量は, の機構では 21%ポイントもあるが,S+B+C 機構では 13%ポイントと小さくなる.
- CBR はポート数が多い場合の方が低いが,物理 アクセス時間の削減率が大きいので,実効アクセ ス時間の削減率はポート数が多いほど大きい.削



減率は S+B+C 機構の場合で, P2 で平均 16%, P8 では 22%もある.

4.3 ストライド・バンク予測器の評価

前節で述べたように,我々はストライド・バンク予 測器として,通常のストライド・アドレス予測器とは 異なり,ストライド検出を表す状態とタグの両方を持 たない構成とした.PPCキャッシュでは,パンク予測 を誤ってもバンク予測を行わなくても,ともに1サイ クルのペナルティを被るので,全ロード/ストア命令 に対する予測精度(予測率と呼ぶ)が高い方が有利で ある.

図13に、P4モデルにおける予測率の測定結果を示 す(他のモデルでも同様の傾向).各ベンチマークに 2本の棒グラフがある.左がタグと状態を持つ通常の ストライド予測器の場合であり,右がこれらを削除し た簡易予測器の場合である.同図よりわかるように, 予測率はどのベンチマークでも簡易予測器の方がかな り大きい.予測率は平均で,通常の予測器で57%であ るのに対して,簡易予測器では78%ある.

表5に,キャッシュを4ポートのワード・インター リーブとした場合の1エントリに必要なビット数を示 す.32ビット・アーキテクチャで,4Kエントリの表 を仮定している.ADRは通常のストライド・アドレ ス予測器,BANKは最終値とストライド・フィールド にバンクに関係する下位4ビットを保持する予測器, OURは我々の提案するストライド・パンク予測器に 対応する.同表からわかるように,我々の予測器のコ ストは,通常の予測器の10%ほどしか要しない.4K エントリの表のコストは,わずか4Kバイトである.

4.4 プロセッサ性能評価

本章では,従来のキャッシュを持つプロセッサに対し, PPC キャッシュを持つプロセッサがどれほど性能 を改善するかを評価する.本評価では,クロック・サ 表 5 ストライド・アドレス予測器とストライド・パンク予測器の コスト

Table 5 Cost of stride address predictor and stride bank predictors(bits).

| scheme | tag | state  | last value | $\operatorname{stride}$ | total |
|--------|-----|--------|------------|-------------------------|-------|
| ADR    | 18  | 2      | 32         | 32                      | 84    |
| BANK   | 18  | $^{2}$ | 4          | 4                       | 28    |
| OUR    | 0   | 0      | 4          | 4                       | 8     |

イクル時間と実行サイクル数の両方を考慮し,性能を 比較する.クロック・サイクル時間について以下の仮 定を置く.

- クロック・サイクル時間の下限として,控えめな 仮定と積極的な仮定の2つの場合を想定する.各 仮定におけるクロック・サイクル時間は,文献19) より,それぞれ1.08 CA8,0.54 CA8 とする.こ れらの数字については後で説明する.
- クロック・サイクル時間を決定するクリティカル・ パスの遅延は、キャッシュ・アクセス以外につい ては、与えられたクロック・サイクル時間の下限 になっているとする.したがって、クロック・サ イクル時間は、次の式で与えられる:

clockcycletime = max(givenlowerbound, cacheaccesstime/n) ここで,nはキャッシュ・アクセスのパイプライ ン段数である.

 積極的な仮定の場合は,控えめな仮定の場合に比 ベパイプライン段数が倍であるとする.この効果 を分岐予測ミスペナルティに反映する.本測定で は,控えめな仮定で5サイクル,積極的な仮定で 10サイクルとする.

クロック・サイクル時間の下限の2つの仮定につい て説明する. 文献 19) によると, クロック・サイクル時 間の下限は,トレンド,SIA (Semiconductor Industry Association )の予測<sup>23)</sup>, ISSCC (International Solid-State Circuits Conference ) 掲載の回路<sup>24)</sup>など から,今後,8~16 FO4の間で推移すると予測して いる.ここで FO4 とは,半導体技術に独立な遅延の 単位であり, 360\*Ldrawn (ps) という時間の定数であ る.ここで,Ldrawn (\*m)は,与えられた半導体技術 における最小ゲート長である.n FO4とは1FO4の n 倍の時間を意味する.ゲート遅延はLdrawn にほぼ 比例して短縮されるので, FO4 を単位とする遅延は, 半導体技術に対し独立な数となる . 4.1.2 項で書いた ように 1 CA8 は 959 ps なので, クロック・サイク ル時間の下限は CA8 で表すと 0.54~1.08 CA8 とな る.本章では,下限の最小値と最大値の2つの場合を

#### 表 6 クロック・サイクル時間下限の控えめな仮定におけるキャッ シュ・アクセスのパイプライン段数とクロックサイクル時間 (CA8)の関係

Table 6 Relationship between the number of pipeline stages and clock cycle time (CA8) under the conservative assumption of the lower bound of the clock cycle time.

|               | パイプライン段数 |      |      |  |  |
|---------------|----------|------|------|--|--|
| モデル           | 従        | PPC  |      |  |  |
|               | 1        | 2    | 1    |  |  |
| P2            | 1.30     | 1.08 | 1.08 |  |  |
| P4            | 1.36     | 1.08 | 1.08 |  |  |
| $\mathbf{P8}$ | 1.45     | 1.08 | 1.08 |  |  |

想定して評価を行う.以下では,最初に控えめな仮定 の場合について,次に積極的な仮定の場合について評 価する.

## 4.4.1 クロック・サイクル時間下限の控えめな仮 定の場合

従来のキャッシュの場合, P2, P4, P8 の各プロセッ サ・モデルにおけるキャッシュ・アクセス時間は,図9 よりそれぞれ, 1.30 CA8, 1.36 CA8, 1.45 CA8 で ある.これに対し, PPC キャッシュの場合, それぞ れ,1.05 CA8,1.00 CA8,0.97 CA8 である.クロッ ク・サイクル時間の控えめな仮定における下限は 1.08 CA8 であるから,従来のキャッシュの場合,どのプロ セッサ・モデルにおいても,2段までのパイプライン 化ならばクロック・サイクル時間を低減できる.一方, PPC キャッシュの場合,キャッシュ・アクセス時間は どのプロセッサ・モデルにおいても下限より短いので、 キャッシュ・アクセスは最も長いクリティカル・パスで はない.よって,パイプライン化の必要はなく,どの モデルにおいても,クロック・サイクル時間は下限値 である.表6にキャッシュ・アクセスのパイプライン 段数とクロック・サイクル時間の関係をまとめる.表 において,下線を引いた数字は下限によって抑えられ たクロック・サイクル時間である.以下では,キャッ シュ・アクセスのパイプライン段数(従来, PPC)が, (1,1) および (2,1) の場合について評価を行う. なお, バンクを求める機構として,O,S,S+B,S+B+C の4つの機構に加え,バンクを完全に予測できる場合 (Perfect)について測定した.

パイプライン段数 (1,1) の場合

図 14 に性能測定結果を示す.どのプロセッサ・モ デルにおいても,クロック・サイクル時間の削減が大 きく作用し,PPC キャッシュを用いた場合性能が大 きく向上する.Perfect の場合では従来とPPC キャッ シュの場合でIPC は変わらないので,性能差はクロッ ク速度のみから生じる.表6に示したように,ポー ト数の多いキャッシュほどクロック・サイクル時間の 削減は大きいので,より大きな性能向上率を達成して いる.クロック・サイクル時間の改善が少ない P2 に おいても,19.1 ~ 20.2% (S+B+C 機構)の大きな性 能向上を示す.一方で,ポート数が多いほど CBR は 低いので,Perfect から実際の BNU にした場合の性 能低下は大きい.それでもなお P8 においては,28.9 ~ 32.8% (S+B+C 機構)の大きな性能向上を示して いる.

パイプライン段数 (2,1) の場合

従来キャッシュのパイプライン化によりクロック・ サイクル時間に違いがなくなり,性能差は IPC の違 いより生じる.図15に測定結果を示す.

どのプロセッサ・モデルでも,(1,1)の場合に比べ 性能向上率は小さくなっている.一般に,ポート数の 少ないプロセッサでは,狭いキャッシュ・バンド幅に よりメモリ・アクセスのスループットが低く抑えられ, ロード/ストア命令の長いレイテンシが他の命令の実 行によって隠蔽される.このため,図15からわかる ように,P2では完全なBNUの場合で得られる性能向 上率は最高で7.0%,平均で5.0%と大きくない.実際 のBNUにおいてはCBRが高いため,これに近い性 能を達成しているが,2.1~6.5%(S+B+C 機構)の 改善にとどまっている.

逆に,多くのポートを持つプロセッサでは,長いレイ テンシが露出され,性能に大きな影響を与える.完全な BNUにおいて,P8では最高12.9%,平均9.9%性能が 向上する.しかし一方で,ポート数が多けれればCBR が減少するので,完全なBNUからの損失量は大きい. それでもP8では最高10.7%,平均7.1%(S+B+C機 構)の性能向上を達成している.

同一のプロセッサ・モデルにおいて,各BNUの機構に対する性能は,当然ながら,CBR が高い順となっている.また,正の性能向上を得るには,CBR にはかなり高い値が要求されることがわかる.ijpeg においては,O機構ではどのプロセッサ・モデルでも性能向上を得ることができていない.O機構のCBR は図12より,47~78%であるが,この程度では不十分であることがわかる.S機構を用いれば,すべてのベンチマークで性能向上を得ることができるが,P8においても最高7.4%,平均3.7%にとどまる.これに発行時プロードキャストを加えれば,性能は最高9.5%,平均5.9%にまで向上する.さらにC機構を加えれば性能は前述の値,最高10.7%,平均7.1%にまで向上する.3.3 項で述べたように,BNUにC機構を組み込む場合は,クロック速度に悪影響を及ぼす可能性が





ある.この場合は,S+B 機構を組み込むのが最善と いえる.

## 4.4.2 クロック・サイクル時間下限の積極的な仮 定の場合

クロック・サイクル時間の下限は 0.54 CA8 と低い ため,キャッシュのパイプラインを控えめな仮定の場 合より深くし,クロック・サイクル時間を低減するこ とができる.表7 にキャッシュ・アクセスのパイプラ イン段数とクロック・サイクル時間の関係をまとめる. 下線を引いた数字は下限によって抑えられたクロック・ サイクル時間である.

ここでは誌面の節約のため,まず,従来とPPCの 両キャッシュの場合について,各パイプライン段数に おけるベンチマークの平均性能を示し,その後に,平 均性能が最も高いパイプライン段数の時の比較をベン チマークごとに示す.表8に平均性能の測定結果を示

- 表 7 クロック・サイクル時間下限の積極的な仮定におけるキャッ シュ・アクセスのパイプライン段数とクロックサイクル時間 (CA8)の関係
- Table 7 Average performance normalized by the performance of the processor with non-pipelined conventional cache.

|               | パイプライン段数 |      |      |      |      |  |
|---------------|----------|------|------|------|------|--|
| モデル           |          | 従来   |      | PI   | PC   |  |
|               | 1        | 2    | 3    | 1    | 2    |  |
| P2            | 1.30     | 0.65 | 0.54 | 1.05 | 0.54 |  |
| P4            | 1.36     | 0.68 | 0.54 | 1.00 | 0.54 |  |
| $\mathbf{P8}$ | 1.45     | 0.72 | 0.54 | 0.97 | 0.54 |  |

す.最も性能の低い場合であるパイプライン化してい ない従来キャッシュを持つプロセッサの性能で正規化 している.同表より,最も性能が高くなるパイプライ ン段数(従来,PPC)は,プロセッサ・モデルによら ず(3,2)であることがわかる.





Fig. 15 Speedup under the conservative assumption of the lower bound of the clock cycle time (pipeline stage of the cache access (conventional, PPC) = (2,1)).

## 表 8 パイプライン化していない従来キャッシュを持つプロセッサ の性能で規格化した平均性能

Table 8 Relationship between the number of pipeline stages and clock cycle time (CA8) under the aggressive assumption of the lower bound of the clock cycle time.

|     | パイプライン段数 |      |      |      |      |
|-----|----------|------|------|------|------|
| モデル |          | 従来   | PI   | PC   |      |
|     | 1        | 2    | 3    | 1    | 2    |
| P2  | 1.00     | 1.91 | 2.20 | 1.23 | 2.29 |
| P4  | 1.00     | 1.87 | 2.18 | 1.34 | 2.32 |
| P8  | 1.00     | 1.87 | 2.30 | 1.46 | 2.45 |

図 16 に, この場合において, PPC キャッシュを搭載したプロセッサの性能向上率をベンチマークごとに示す.クロック・サイクル時間は,従来の場合も PPC

の場合も下限値となっているので,性能差は IPC の違 いのみから生じる.一部の例外を除いて,どのモデル のどのベンチマークにおいても,控えめな仮定におけ る評価のパイプライン (2,1) と同様の傾向を示してい る(P2,O機構のm88ksimの性能が高いのは分岐ア ドレス予測精度が偶然高まったことによる).これは IPC の違いによってのみ性能差が生じているからであ る.ただし,パイプラインは (3,2) なので,(2,1) の場 合よりレイテンシ削減が性能に与える影響が小さい. また,分岐予測ミス・ペナルティは5から10になって いるので,これによっても影響は小さくなる.それで もなお,S+B+C機構でP2で2.2~6.3%,P4で3.6 ~8.3%,P8 で 3.4~9.5%の性能改善を達成している.





5. 関連研究

Wilson らは,インターリーブ・キャッシュにおける バンク競合を緩和し,バンド幅を拡大するライン・バッ ファと呼ぶ小さなバッファをロード/ストア・ユニット に付加することを提案した<sup>25),26)</sup>.ライン・バッファ は,最近アクセスした少数のデータあるいはそれを含 むブロックを保持する.キャッシュに対し読み出し要 求を出す際に,同時にライン・バッファをアクセスす る.バンク競合によりキャッシュが応答できない場合 でも,ライン・バッファにデータがあれば,要求を満 足することができる.Wilson らはさらに,ロード要 求を待ち合わせるバッファに連想検索機構を設け,読 み出されたデータを待ち合わせている他のロードにも データを供給する load all 機構を提案した<sup>25),26)</sup>.ラ イン・バッファと load all を併用することにより,単 ーポートのプロセッサにおいて,彼らが用いたベンチ マーク・プログラムで,ロードの37~63%(ロード/ ストアの24~52%)がキャッシュをアクセスせずに実 行を完了することができるという評価結果を得ている. しかし依然として多くのキャッシュ・アクセスが残さ れており,アクセス時間短縮が必要である.

同様にバッファを用いてバンド幅を拡大するキャッ シュ機構として,LBIC(locality-based interleaved cache)がある<sup>4)</sup>.この機構では,各バンクにバッファ を用意し,同一のキャッシュ・プロックに行く要求を1 つに結合することにより,要求量を削減する.この機 構は,実効的にバンド幅を拡大することができるが, レイテンシを削除することはできない.

アドレスを予測することにより,データをプリフェッ

チする機構が多く研究されている(たとえば,文献14), 27)). アドレス予測は値予測のサブセットであり,多 くの研究がされている(たとえば,文献13)~17)).ア ドレス予測以外にアドレスを得る方法として, Austin らはベース・レジスタを保持するキャッシュを用意す ることを提案している<sup>28)</sup>.アドレス予測により得ら れるプロセッサの性能向上が, 文献 29) に詳細に測定 されている.16命令発行で4ポート・データ・キャッ シュを持つプロセッサに対する彼らの測定によると、 予測誤りに対する方式として単純な無効化回復方式を 採った場合,5%以下の性能向上しか得られない.再 実行回復方式を採れば5~10%の性能向上を得ること ができるが,ハードウェアは複雑化する.この性能向 上率は PPC キャッシュと同程度であるが, 4.3 項で述 べたようにストライド・アドレス予測器は我々のスト ライド・バンク予測器より約10倍のコストを要する.

ロード命令のレイテンシを削減する機構として, Austin らは,実効アドレスの計算を XOR 演算で代 行する fast address calculation 機構<sup>30)</sup>を提案してい る.この技術は PPC キャッシュのアクセスにも利用 でき,我々の研究とは直交する.

Cho らは,静的な1つのメモリ参照命令は,実行時 にはある1つのメモリ領域(グローバルかスタックか ヒープ)を参照するという局所性に着目した<sup>31)</sup>領域 ごとにメモリ・アクセスのパイプラインとキャッシュ を持つことにより,複雑さの増加を抑制しつつキャッ シュのバンド幅を増加させる方式を提案している.

Neefs らは, PPC キャッシュと同様の機構において, 種々の値予測器をバンク予測に利用した場合の予測精 度やプロセッサ性能を評価している<sup>12)</sup>.しかし,バン ク予測器を組み込んだ正確な評価や,キャッシュのア クセス時間から求められるクロック・サイクル時間と IPC の両方を考慮した総合的な評価は行っていない.

6. ま と め

本論文では,マルチポート・キャッシュのレイテン シを削減する PPC キャッシュと呼ぶ機構を評価した. PPC キャッシュは,インターリーブ・キャッシュの各 バンクを1対1でロード/ストア・ユニットと結合し, 従来必要であった複雑な相互結合網を取り除き,アク セスを小さなバンクに限定する.これによりレイテン シを大幅に削減することができる.この構成では,命 令の発行前にどのバンクにアクセスするかを求める必 要がある.この機能を果たす BNU と呼ぶユニットに, 予測を含む種々の方式を示した.

PPC キャッシュの有効性を確認するために,回路レ

ベルおよび SPECint95 を用いたアーキテクチャ・レ ベルでのシミュレーションによる評価を行った.その 結果,最も高い性能を示すBNUと命令発行方式の場 合で,8ポート・インターリーブ32Kバイトのキャッ シュを持つ16命令発行のプロセッサにおいて,実効 アクセス時間を平均 22% 削減できることが分かった. またこの場合,平均83%の割合で命令を正しいロー ド/ストア・ユニットに発行できることが分かった.さ らに,従来のキャッシュとPPC キャッシュを搭載した プロセッサの性能を,クロック・サイクル時間と実行 サイクル数のトレードオフを考慮し,それぞれ最善の キャッシュ・パイプラインにおいて比較した.その結 果, 32 K バイト, 8 ポートのデータ・キャッシュを持つ 16 命令発行のプロセッサにおいて, クロック・サイク ル時間の下限を控えめに見積もった場合,最大11%, 平均 7%の性能向上を,クロック・サイクル時間の下 限を積極的に見積もった場合,最大10%,平均6%の 性能向上を達成できることを確認した.

謝辞 本研究の一部は,文部省科学研究費補助金基 盤研究(C)課題番号1068034,同じく11680351,財 団法人大川情報通信基金の支援を受けている.

## 参考文献

- 1) Digital Equipment Corporation: Alpha 21164 Microprocessor Hardware Reference Manual (1995).
- L.Gewnnap: Digital 21264 Sets New Standard, *Microprocessor Report*, Vol. 10, No. 14, pp. 11-16 (1996).
- Intel Corporation: Pentium(R) Processor Family Developer's Manual Vol.1 (1995).
- 4) J.A.Rivers, G.S.Tyson, E.S.Davidson and T.M.Austin: On High-Bandwidth Data Cache Design for Multi-Issue Processors, *In Proc.* 30th Int. Symp. on Microarchitecture, pp.46-56 (1997).
- 5) Advanced Micro Devices Inc.: AMD Athlon Processor Technical Brief (1999).
- 6) A.Yoaz, M.Erez, R.Ronen and S.Jourdan: Speculation Techniques for Improving Load Related Instruction Scheduling, In Proc. 26th Int. Symp. on Computer Architecture, pp. 42-53 (1999).
- 7) 嶋田創,安藤秀樹,島田俊夫: クロスバスイッ チをなくしたマルチバンクキャッシュ,情報処理 学会研究報告,99-ARC-135,pp.75-80 (1999).
- 8) 嶋田創,安藤秀樹,島田俊夫: クロスバスイッ チをなくしたマルチバンクキャッシュ,2000 年 並列処理シンポジウム JSPP2000, pp. 107-114 (2000).

- 9) T.Wada, S.Rajan and S.A.Przybylski: An Analytical Access Time Model for On-Chip Cache Memories, *IEEE Journal of Solid-State Circuits*, Vol. 27, No. 8, pp. 1147-1156 (1992).
- 10) G.Reinman and N.Jouppi: Extensions to CACTI. Unpublished document.
- S.J.E.Wilton and N.P.Jouppi: An Enhanced Access and Cycle Time Model for On-Chip Caches, WRL Research Report 93/5 (1994).
- 12) H.Neefs, H.Vandierendonck and K.D.Bosschere: A Technique for High Bandwidth and Deterministic Low Latency Load/Store Access to Multiple Cache Banks, In Proc. 6th Int. Symp. on High-Performance Computer Architecture, pp. 313-324 (2000).
- 13) M.H.Lipasti, C.B.Wilkerson and J.P.Shen: Value Locality and Load Value Prediction, In Proc. Seventh Int. Conf. on Architectural Support for Programming Languages and Operating Systems, pp. 136-147 (1996).
- 14) T.F.Chen and J.L.Baer: Effective Hardwarebased Data Prefetching for High Performance Processors, *IEEE Transactions on Computers*, Vol. 44, pp. 609–623 (1995).
- 15) F.Gabbay and A.Mendelson: The Effect of Instruction Fetch Bandwidth on Value Prediction, In Proc. 25th Int. Symp. on Computer Architecture, pp. 133-143 (1997).
- 16) K.Wang and M.Franklin: Highly Accurate Data Value Prediction using Hybrid Predictors, In Proc. 30th Int. Symp. on Microarchitecture, pp. 281-290 (1997).
- 17) Y.Sazeides and J.E.Smith: The Predictability of Data Values, In Proc. 30th Int. Symp. on Microarchitecture, pp. 248-258 (1997).
- 18) N.H.E.Weste and K.Eshraghian: Principles of CMOS VLSI Design, A System Perspective, Second Edition, Addison Wesley (1993).
- 19) V.Agarwal, M.S.Hrishikesh, S.W.Kechler and D.Burger: Clock Rate versus IPC: The End of the Road for Conventional Microarchitectures, In Proc. 27th Int. Symp. on Computer Architecture, pp. 248-259 (2000).
- 20) B.Amrutur and M.A.Horowitz: Speed and Power Scaling of SRAM, *IEEE Journal of Solid-State Circuits*, Vol. 35, No. 2, pp. 175– 185 (2000).
- 21) D.Burger and T.M.Austin: The SimpleScalar Tool Set, Version 2.0, Technical Report CS-TR-97-1342, University of Wisconsin-Madison Computer Sciences Department (1997).
- 22) S.McFarling: Combining Branch Predictors, Technical Report TN-36, Digital Equipment Corporation Western Resarch Laboratory

(1993).

- Semiconductor Industry Association: The National Technology Roadmap for Semiconductors (1999).
- 24) S.Naffziger: Subnanosecond 0.5\*m 64b Adder Design, International Solid-State Circuits Conference, pp. 362-363 (1996). In Digest of Technical Papers.
- 25) K.M.Wilson, K.Olukotun and M.Rosenblum: Increasing Cache Port Efficiency for Dynamic Superscalar Microprocessors, In Proc. 23rd Int. Symp. on Computer Architecture, pp. 147–157 (1996).
- 26) M.Wilson, K. and K.Olukotun: High Bandwidth On-Chip Cache Design, *IEEE Transactions on Computers*, Vol. 50, No. 4, pp. 292-307 (2001).
- 27) K.I.Farkas, P.Chow, N.P.Jouppi and Z.Vranesic: Memory-System Design Consideration for Dynamically-Scheduled Processors, In Proc.24th Int. Symp. on Computer Architecture, pp. 133-143 (1997).
- 28) T.M.Austin and G.S.Sohi: Zero-Cycle Loads: Microarchitecture Support for Reducing Load Latency, In Proc. 28th Int. Symp. on Microarchitecture, pp. 82-92 (1995).
- 29) Reinman, G. and Calder, B.: Predictive Techniques for Aggressive Load Speculation, In Proc. 31st Int. Symp. on Microarchitecture, pp. 127-137 (1998).
- 30) T.M.Austin, D.N.Pnevmatikatos and G.S.Sohi: Streaming Data Cache Access with Fast Address Calculation, In Proc. 22nd Int. Symp. on Computer Architecture, pp. 360-380 (1995).
- 31) S.Cho, P-C.Yew and G.Lee: Decoupling Local Variable Accesses in a Wide-Issue Superscalar Processor., In Proc. 26th Int. Symp. on Computer Architecture, pp. 100-110 (1999).

(平成 13 年 5 月 1 日受付) (平成 13 年 8 月 16 日採録)

## 嶋田 創(学生会員)

1976年生.1998年名古屋大学工 学部情報工学科卒業.2000年名古屋 大学大学院工学研究科情報工学専攻 博士課程前期課程修了.現在,名古 屋大学大学院工学研究科電子情報学

専攻博士課程後期課程在学中.計算機アーキテクチャ の研究に従事.



安藤 秀樹(正会員) 1959年生.1981年大阪大学工学 部電子工学科卒業.1983年大阪大 学大学院修士課程修了.京都大学工 学博士.1983年三菱電機(株)LSI 研究所.ISDN用ディジタル信号処

理 LSI,第5世代コンピュータ・プロジェクトの 推論 マシン用プロセッサの設計に従事.1991年Stanford 大学客員研究員.1997年名古屋大学大学院工学研究 科電子情報学専攻講師.1998年同大学助教授.1998 年東京大学大学院理学系研究科助教授併任.1998年 情報処理学会論文賞受賞.計算機アーキテクチャ,コ ンパイラの研究に従事. 島田 俊夫(正会員)

1968年東京大学工学部計数工学 科卒業.1970年東京大学大学院修 士課程修了.同年電子技術総合研究 所入所.1993年より名古屋大学大 学院工学研究科電子情報学専攻教授.

人工知能向き言語,LISP マシン,データフロー計算機 の研究に従事.最近はマイクロプロセッサのアーキテ クチャやチップ内並列処理の研究を行っている.1988 年度市村賞,1994年度情報処理学会論文賞,1995年 度注目発明賞受賞.工学博士.