タンパク質の形を通して学ぶ「遺伝情報とは」

第13回 ゲノムワイド関連解析

トップページタンパク質の形を通し て学ぶ「遺伝情報とは」 > ゲノムワイド関連解析

13.1 GWAS

 2003年にヒトゲノム計画が完了しました。その成果の一つとして期待されたのが、病気の原因遺伝子を特定することでした。しかし、単一の遺伝子の異常の み で説明のつく病気、単因子疾患はわずかであり、大半が複数の遺伝子に少しずつ影響されることで発症する多因子疾患であることが明らかとなってくると、それまで の探索法では 限界があることもわかってきました。そうした中、2007年頃、DNAの塩基配列の解読技術に大きな革新が起こりました。次世代シーケンサーの登場です。 安価で迅速に個人のゲノムを解読することができるようになったのです。これにより、DNAの塩基配列の個人差をゲノム全体にわたって調べることができ、しかも多く の人のデータが得られるようになったことから、統計的に有意な解析結果を得られるようになりました。その結果、病気の原因遺伝子のみならず、体形や体質、さら には気質といった形質と遺伝子の関連性なども議論できるようになったのです。その新たな方法論はGWAS(Genome Wide Association Study;ゲノムワイド関連解析)とよばれています。

 GWASの基本的な考え方は次の通りです。ある疾患の患者群(case)とその疾患に罹患していない健常者群(control)、あるいはある遺伝的特性 をもつ者のグループ(たとえば、背が高い)とそうでない者のグループ(背が低い)などの間で、数十万から数百万箇所におよぶSNPについて、その頻度分布の差 異を調べます。もしグループ間で有意な統計的連関が見つかれば、そのSNP自身、あるいはそのSNP近傍にある遺伝子がその疾患あるいは形質に関連している可 能性があるわけです。そこでそれら候補遺伝子についてさらに詳細な解析、たとえばそこから生合成されるタンパク質の生理学的機能などを解析することで、関連 遺伝子か否かを明らかにしていこうという方法論です。

 具体的な例(ただし仮想的な例です)をあげて説明しましょう。いま身長という特性を考えます。図13.1を見ながら説明します(各自のSNPがAA、GG など2つずつあるのは、 DNA を両親それぞれか ら引き継いでいるからです)。SNP1を調べたら、すべての人が同じでした。SNP2は、背の高い人も、背の低いも同じSNPをもっていましたので、身長に 関与しているとは思えません。SNP3は、背の高い人がTをもち、背の低いはCをもつ傾向があります。したがって、このSNPは身長に関与している可能性があ ります。こん な感じです。しかし、これはあくまでも説明のために分かりやすく作った単純な例ですので、すんなりと結論が出てきましたが、実際には、関与しているか否かは微妙なものが多 く、そうした場合には統計学的な検定が必要とな ります。また、3つのSNPしか調べていませんから、SNP3だけが身長に関わっているとは言い切れません。この点については、次節でもう少し詳しくお話しし ます。



(イ) (ロ) (ハ) (二) (ホ) (へ)
SNP 1 AA AA AA AA AA AA
SNP 2 GG GC CC GG CG GG
SNP 3 TT TT CT CT CC CC

図13.1 GWASの具体例(ただし仮想的データです)

 GWASはゲノムコホート研究へと発展しています。コホート研究とは、健常者、疾患をもつ人を含む大勢の人のゲノムの塩基配列の解読を行い、その人たちの 将来にわたって生活環境、生活習慣、病気の発症等を観察し、追跡を続けることで、病気の発症とさまざまな遺伝子要因、さまざまな環境要因との関連を調べ、病気 の 予防に生かすことをめざした研究をいいます。日本では、東日本大震災後、東北メディカル・メガバンク機構が起ち上げられ、被災者の方々の健康と医療に貢献し、 個別化医療を推進するためのコホート研究が進められています。なかでも三世代コホート研究は、遺伝要因・環境要因を家族間で三世代にわたって比較することで、 どのような要因がどの程度病気や症状に関わっているかを調査することができるもので、7万人を超える参加者が集まり、その成果が期待されています。

13.2 統計学的検定方法

 ある形質とSNPとの関連性を評価する統計的手法について、もう少し詳しく見てみましょう。統計学を履修している人はよくわかると思いますが、知らない人 は、p 値とよばれる値が重要そうだという程度に理解いただければ結構です。

  具体的な例で説明します。ある形質について96人を対象とした調査を行いました。その形質をもった人(case)が48人、もたない人 (control)が48人とちょう ど半々の集団です。実際にはさまざまなSNPについてこれから説明する統計的検定を行いますが、ここではあるSNPに注目して話を勧めます。

 このSNPでは、Cもしくは Tのどちらかだけが観察されました。したがって、CとTのどちらかがこの形質に関与しているか、その可能性を探りたいわけです。両親からそれぞれ受け継いでいますか ら、CC、CT、TTの3つタイプの人がいます。CTとTTをひとまとめにしてCCと比較したのが上の表、CCとCTをひとまとめにしてTTと比較したのが下 の 表です。 明らかに、上の表では、同じSNPをもつ人の間で形質をもつものと、もたないものの間に差がありません。しかし、下の表では、TTの人がこの形質をもつ傾向がより大きいよ うに思えます。しかし、TTであってもこの形質をもたない人もいます。TTであることがこの形質に関与していると言っていいのでしょうか?

形 質 SNP 小計
CC CT, TT
〇〇 (case) 14 34 48
×× (control) 13 35 48
小計 27 69 96

p = 0.82、  - log10 0.82 = 0.086

形 質 SNP 小計
TT CT, CC
〇〇 (case) 14 34 48
×× (control) 4 44 48
小計 18 78 96

p = 0.0089、  - log10 0.0089 = 2.05

 こうした状況で活躍するのが統計学的検定です。帰無仮説のもと、この表のようなことが起こる確率を求めるのです。統計学を履修していない人には聞きなれな い用語だと思います。帰 無仮説とは、棄却(否定)されることを目的に立てられる仮説のことをいいます。上の例では「このSNPは形質〇〇の発現には関係なく、偶然、表のような結果が 出ることはあり得ることである」という仮説が帰無仮説になります。 「このSNPは形質〇〇の発現には関係ない」という仮説を否定するだけの統計学的根拠を明示することで、「このSNPは形質〇〇の発現に関係している」と主張したい、とい うわけです。

 帰無仮説が正しいという条件の下で、今回得られた「統計量の実現値」以上に極端な「統計量」が観測される確率のことを、p 値(有意確率)と言います。「その仮説が正しいと仮定したら、今回みたいな結果が起きる確率はこんなにも低いんだ。偶然こんなに低い確率のことが起こったと考えるより、そ の仮説は正しくないと考える方が自然じゃない?」と主張するときの『こんなに低い確率』のことです。 p 値が小さければ小さいほど、帰無仮説が正しくないと主張する上で強力な根拠となります( 「このSNPは形質〇〇の発現に関係している」と強く主張できます)。

 たとえばp 値が 0.0002 の場合、帰無仮説が正しければ、今回起きたような現象は 0.02% の確率でしか起きない現象ということになります。0.02% の確率でしか起こらない事象が偶然起こったとは考えにくいから、帰無仮説は正しくないといわざるを得ない、という論理を展開します。ただ、どれだけp 値が小さくても「0.02%の確率のことが偶然起こったかも」と言われてしまうとそれ以上何も主張できません。そこで、「p 値がこの値より小さければ帰無仮説を棄却(否定)する」という基準が通常は設定されます。これを有意水準といいます。有意水準は 5% か 1% に設定されることが多いです。 GWASでは、問題となる p 値は非常に小さな値となりますので、-log10 p で表します。たとえば、 -log10 10-2 = 2、 -log10 10-4 = 4、 -log10 10-8 = 8 となります。したがって、この値が大きいSNPほど、形質発現に関係している可能性が高いことになります。上の例では、表(A)では、p = 0.82、-log10 0.82 = 0.086、表(B)ではp = 0.0089、-log10 0.0089 = 2.05 となり、5%の有意水準で、表(B)では帰無仮説が棄却され、TTは形質〇〇に関与していると判断されます。

(注) ここで掲げたデータは、実は、2015年に発表された中国の研究者による論文からの引用です。caseが二重瞼、controlが一重瞼です。また、p値の説明に は、以下のサイトを参考にいたしました。
https://atarimae.biz/archives/12011

13.3 マンハッタン・プロット

 GWASの実際の解析結果を紹介しましょう。図13.2には、2012年、日本人集団26,620名に対して、肥満の程度(Body Mass Index: BMI)と250万ヵ所のSNPとの関連を評価したものです。横軸に250万のSNPを存在する染色体の番号の順番に並べ、それぞれのp値をプロットしてあります(横軸の 1~22の数字 は染色体番号で、染色体ごとにプロットの色を変えています)。縦軸はp値の対数、-log10 p 値です。したがって大きな値をもつSNPほど、BMI、すなわち肥満と関連をもっていることになります。-log10 p 値の大きいSNPに対して、そのSNPが内在する、あるいはそのSNPの近傍にある遺伝子の名前が関連遺伝子として示されています。こうして関連しているSNPがあぶ り出されてくるのです。

図13.2 SNPとMBIとの関連を調べたマンハッタン・プロット
Okada et al., Common variants at CDKAL1 and KLF9 are associated with body mass index
in east Asian populations Nature Genetics
,   44, 302–306 (2012). より引用

 ちなみに、この図はニューヨークのマンハッタンで林立するビル群のように見えることからマンハッタン・プロットとよばれています。

13.4 身長に関連する遺伝子

 これまで、遺伝子を同定する目的の多くは病気の原因遺伝子を見つけ出すことでした。それも、単一の遺伝子の変異によって発症する単一遺伝子疾患が主な対象でした。しかし GWASが普及し始めると、複数の遺伝子が関与する多因子遺伝子疾患についても、関連遺伝子を同定することが可能となりました。さらには、病気とは関係のな い、体 格や体質などの多遺伝子形質へも関心が向き始めました。図13.3は、ヨーロッパ北西部の人々の身長に関するGWASのマンハッタン・プロットを示したもので す。い くつかの関連遺伝子の候補が見出されています。

図13.3 ヨーロッパ北西部の人々の身長に関するGWASで得られたマンハッタン・プロッ ト
図中の赤字は、関連性が示唆されるSNPを含む、あるいは近傍にある遺伝子の名前
Karol Estrad, et al., A genome-wide association study of northwestern Europeans involves
the C-type natriuretic peptide signaling pathway in the etiology of human height variation
,
Human Molecular Genetics, 18, 3516–3524 (2009). より引用

 図13.3は2009年に発表されたある限られた地域の人の調査ですが、その後、身長に関連する多くのGWAS研究が行われました。そして2014年、それらをまとめた 「ヒトの身長に関連する遺伝子バリエーションを数百個も新規同定」(Nature Genetics, 2014)という表題の論文が発表されましたので、その概要をご紹介します。 253,000人以上を対象とした解析により、成人の身長と関連する遺伝子が新たに同定されました。

成人の身長は、多数の遺伝子の組み合わせによって決定される複合形質の典型例です。世代間で受け継 がれる遺伝要因が身長の個人差の原因の約80%を占めて います。今回、ヒトの身長に関する79件の研究で得られたデータを組み合わせて、成人の身長を決定する遺伝子を新たに同定しました。そして、身長と強く関連す る697個のSNPが同定されました。これに対して、前回の研究ではわずか180個しか同定されていませんでした。身長について観察される個人差には、数万個 のSNPが寄与していると推定され、その大部分のものは影響が非常に小さいものであると考えられます。今回の研究で発見された697個は、身長の個人差の約 16%の原因となっていると推定されました。これらの配列に対応する遺伝子には、骨と軟骨の成長と形成に関与するもの(例えば、コラーゲン遺伝子、骨形成性オ ステオグリシン遺伝子など)が多く含まれていますが、骨成長の調節機能を持つと考えられていなかったものも含まれており、今後の研究が待たれます。

 血液型のように、遺伝子と形質が1対1で対応している単一遺伝子形質はむしろ例外的かもしれません。多くの形質は多因子形質と思われます。それも数種類というレベルでは なく、数百~数万種類のSNPが1つの形質に関与しているというのが普通のことなのかもしれません。そして数百万以上あるSNPの総合的な結果として、一人ひ とりの遺伝的個性が出来上がっています。そのことをわれわれはどう理解し、受け入れていったらいいのでしょうか。

 地球の生物はすべて、DNAとタンパク質からなるシステムです。DNAの基本要素は4種類の塩基であり、タンパク質の基本要素は20種類のアミノ酸です。 ここまでは生命のもつ普遍的な描像です。一方、塩基配列やアミノ酸配列は、生物種ごとに異なり、同種といえども個体ごとに違いがあるという多様性が生命の特徴 でもありました。DNAとタンパク質という普遍的な物差しをもって多様性をより定量的に、より客観的に議論できるようになったこと、それが生命科学に、そして 生命観に大きなパラダイム変換をもたらしたと思いますし、これからも変化していくと思います。

 皆さんの世代は、おそらく自らのゲノム情報を知ることになると思います。具体的には、自分の持つSNPをすべて知ることになる時代を生きることになると思います。SNP の違いによって同じ病気でも治療法や処方する薬が異なることがあり、一人一人の遺伝的個性を踏まえた医療、パーソナル医療という側面で、多くの恩恵を得ること になるでしょう。しかし一方で、この究極の個人情報とどのように付き合っていくのかが問題となるでしょう。たとえば、多くのSNPには多数派と少数派はあっ ても、どちらが標準であるということはありません。そうは分かっていても、他人とは異なるSNPをもつということ、すなわち遺伝的多型あるいは遺伝的個性とい う 概念を個人として、そして社会としてどのように受け入れるのか、ほとんどの人はまだそのことにまったく関心をもっていませんし、したがって心の準備ができてい ないと思います。自分のもつSNPが身近となる時代が訪れたとき、そういえば昔そんな話を聞いたなと、この講義を思い出していただければ幸いで す。 

次世代シーケンサー

疾患発症に関わる日本人の遺伝的特徴の解明

遺伝情報を基にした縄文人の顔の復元