後藤弘茂のWeekly海外ニュース

正体が見えてきたIntelの6コア「Dunnington」と8コア「Beckton」




●4コア→6コア→8コアとCPUコア数を2ずつ増やす

 Intelは、MP(Multi-Processor)サーバー向けCPUのマルチコア化を急速に進めてゆく。来年(2008年)の「Dunnington(ダニングトン)」では6コア(ヘクサコア)、2009年の「Beckton(ベックトン)」では8コア(オクタコア)になる。どちらも、MCM(Multi-Chip Module)によるパッケージレベルマルチコアCPUではなく、ワンチップにCPUコアを集積したシリコンレベルのネイティブマルチコアCPUになる。Intelは、クアッドコア以降は、MCMによる簡易なマルチコア化はやめ、開発期間はかかっても、ネイティブマルチコアCPUを投入する計画へと切り替えたようだ。

 いずれのMP CPUも、マルチコア化だけでなく、大容量のキャッシュも搭載する。Dunningtonでは16MBの共有L3キャッシュ、Becktonでは24MBの“共有ラストレベルキャッシュ(Shared Last Level Cache)”を搭載するという。また、Becktonでは、QuickPath Interconnect(QPI) x4と、FB-DIMM2インターフェイス x4をCPUに統合する。この構成は、IA-64のクアッドコアCPU「Tukwila(タックウイラ)」と共通となり、同じチップセット「Boxboro(ボックスボロ)」が使われる。

Intel's MP Server CPU transition
※別ウィンドウで開きます
PDF版はこちら

 Intelは、ほぼ1年置きにMPサーバーCPUをアップデートしつつある。トレンドとしては、ボリュームサーバー&ワークステーション(ハイエンドデスクトップ)向けCPUよりも、さらにCPUコア数を増やす。2コア(2006年)→4コア(2007年)→6コア(2008年)→8コア(2009年)と、1年に2コアのペースで増えて行く。その代償として、マイクロアーキテクチャの更新は他のプラットフォームより1年程度遅れる。例えば、ボリュームサーバー&デスクトップでは2008年第4四半期にNehalem(ネハーレン)アーキテクチャへと移行するが、MPサーバーは2009年後半となる。

 もう1つの代償はダイサイズ(半導体本体の面積)になると推定される。NetBurstのデュアルコアXeon「Tulsa(タルサ)」は、65nmプロセスで16MBのL3キャッシュを搭載して435平方mmのダイサイズだった。NehalemベースのBecktonは、クアッドコアのNehalemが約270平方mmのダイであることを考えると、600平方mmクラスのモンスターチップになると推測される。

 ダイが肥大化する分、製造コストは上がる。Intelは、コスト増に見合うだけの利益を上げることができる、より上位のサーバー市場を、オクタコアで切り開けると考えていることになる。また、ダイサイズを推定する限り、Becktonは、少なくともハイエンドデスクトップPCに使えるダイサイズではない。もし、デスクトップ向けに転用したとしても、1,000ドルを大きく超える超高価格CPUと位置付けることになるだろう。

Core MAとNehalemのスケーラビリティ
※別ウィンドウで開きます
PDF版はこちら

●最大で128スレッドの並列性を実現するBeckton

 Becktonは、現在は「Nehalem-EX」へとコードネームが変更されている。Becktonは、他のNehalem系CPUと同様に45nmプロセスで製造されるが、CPUコア数は8コアとなる。Nehalemには、来年(2008年)第4四半期に投入されるクアッドコア以外に、デュアルコアもある。Nehalemは、2~8コアまでのスケーラビリティを持つことになる。

 BecktonのCPUコアのマイクロアーキテクチャ自体は、クアッドコアNehalemであるDP(Dual-Processor)版「Gainestown(ゲインズタウン)」とUP(Uni-Processor)版「Bloomfield(ブルームフィールド)」と同様だと見られる。ただし、Nehalem CPUコアのマイクロアーキテクチャは、まだ明らかにされていない。Nehalem系CPUコアは、2wayのSMT(Simultaneous Multithreading)機能を備える。そのため、8コアのBecktonは、16スレッドを並列に走らせることができる。4way MPでは64スレッド、8way MPでは128スレッドとなる。

 Becktonは大容量の共有キャッシュも搭載する。DP/UP版のNehalemは8MBのキャッシュを搭載するが、Becktonは24MBと3倍のキャッシュを搭載する。

 Nehalemファミリのキャッシュアーキテクチャについては、まだ詳細は明らかになっていない。Glenn J. Hinton(グレン・J・ヒントン)氏(Intel Fellow, Digital Enterprise Group, Director, IA-32 Microarchitecture Development)は、IDFで、Nehalemが3層のキャッシュを備えることを明らかにしている。Becktonでは、8コアで共有する24MB キャッシュ以外に、2コア程度で共有する、より小容量のキャッシュも備えるかもしれない。

Nehalem-EX(Beckton)の推定される構成
※別ウィンドウで開きます
PDF版はこちら

●3層のキャッシュ階層を持つDunnington

 これには根拠がある。Becktonの1つ前のDunningtonのキャッシュ階層が、そうした構造になっているからだ。Dunningtonは16MBの共有L3キャッシュを備えるが、それ以外に2個のCPUコア毎に共有する3MBのL2キャッシュを備えている。つまり、トータルで3MB×3=9MBのL2と、16MBのL3を備えている。

 階層的な共有キャッシュ構造になっている理由は、キャッシュアクセスレイテンシにあると推定される。キャッシュは容量が大きくなり、アクセスするコア数が増えるに従って、アクセスレイテンシが伸びる傾向にある。キャッシュレイテンシは、通常はL1データで2サイクル程度、L2で7~20サイクル程度に納める。そうしないと、CPUパフォーマンスに影響が出てしまうためだと推定される。そのため、キャッシュを大容量化しようとすると、必然的にキャッシュを階層化しなくてはならなくなる。

 Dunningtonの階層化キャッシュの理由はそこにあると推定される。6コアからのアクセスを調停しなければならない、16MBの大容量キャッシュのアクセスレイテンシは、おそらくL2としての許容範囲を超える。そのため、間により小容量のL2キャッシュを挟み込んだと考えられる。また、3MBずつのL2を2個のCPUコアで共有する理由は、キャッシュのコヒーレンシの問題を軽減するためだと推定される。L2を各CPUコア毎に占有にすると、キャッシュのスヌープと転送のトラフィックが大きくなりすぎると判断したのだろう。

 Dunningtonのこうしたキャッシュ階層から判断すると、Becktonのキャッシュも階層化されている可能性が高い。例えば、2CPUコア毎に比較的小容量の共有キャッシュを備え、その上で全体で共有する24MBキャッシュを持つという構造だ。

 また、Beckton以外のNehalemも、Dunningtonと同様にキャッシュが階層化されているかもしれない。DP/UP Nehalem(Gainestown/Bloomfield)は8MBのキャッシュを備え、3層のキャッシュ階層を持つとされている。以前の記事ではL0キャッシュの可能性を指摘したが、Dunningtonから推測すると、4コアで共有する8MBのキャッシュと、2コアで共有するより小容量のキャッシュの階層となっている可能性が高い。

キャッシュ階層とレイテンシ
※別ウィンドウで開きます
PDF版はこちら

●グルーレスの8ソケット構成までを実現

 Becktonは、CPUコアとキャッシュメモリ以外に、メモリコントローラとインターコネクト「QuickPath Interconnect(QPI)」コントローラを実装する。これも、DP/UP版Nehalemと同様だ。ただし、実装するコントローラの種類や数は異なる。

 DP/UP版Nehalemでは、3チャネルのDDR3メモリインターフェイス(RDIMM/UDIMM対応)を実装する。それに対して、Becktonは4チャネルのFB-DIMM2(FBD2)インターフェイスを実装する。ただし、Intelはメモリバッファチップをマザーボード上に設置することで、DDR3 RDIMMをサポートする。FB-DIMM2インターフェイスは備えるものの、FB-DIMM2自体は、現在のところサポート予定がない。メモリ回りについては、別記事で詳細にレポートしたい。

 DP版のGainestownが実装するQPIは2リンク、UP版のBloomfieldは1リンク、それに対してBecktonの持つQPIは4リンクとなっている。これは、4ソケット構成時に、各CPU同士が1 hopでアクセスできるようにするためだ。ちなみに、今回のBecktonでは、Intelは4ソケットMP構成だけでなく、8ソケットMP構成もグルーレスで可能とする。8ソケット構成では、CPU間のアクセスは最大2 hopsとなる。

Nehalem-EXの様々な構成例
※別ウィンドウで開きます
PDF版はこちら
Nehalemの8 Way MP構成例
※別ウィンドウで開きます
PDF版はこちら

□関連記事
【10月2日】【海外】デュアルコアからオクタコアまでスケーラブルなNehalem
http://pc.watch.impress.co.jp/docs/2007/1002/kaigai390.htm
【9月27日】【海外】Penrynの1.5倍のCPUコアを持つ次世代CPU「Nehalem」
http://pc.watch.impress.co.jp/docs/2007/0927/kaigai389.htm
【2006年4月7日】【IDF】電力効率だけでなく絶対性能も向上させた「Coreマイクロアーキテクチャ」
http://pc.watch.impress.co.jp/docs/2006/0407/idf05.htm
【2005年8月26日】【海外】マルチコアCPUが怒濤のように押し寄せるIntelの新ロードマップ
http://pc.watch.impress.co.jp/docs/2005/0826/kaigai207.htm

バックナンバー

(2007年10月18日)

[Reported by 後藤 弘茂(Hiroshige Goto)]


【PC Watchホームページ】


PC Watch編集部 pc-watch-info@impress.co.jp ご質問に対して、個別にご回答はいたしません

Copyright (c) 2007 Impress Watch Corporation, an Impress Group company. All rights reserved.