ケモインフォマティクス
考える男性研究者

「ケモインフォマティクスの仕事をやってみたいけど、どんなことを勉強しておけばいいんだろう?」

「ケモインフォマティクスの仕事内容って具体的にはどんなことなんだろう?」

そんな疑問を持っている人も多いと思います。

AI創薬(ビッグデータ創薬)の時代がやってきたと言われる中で、ケモインフォマティクスも重要な技術の一つと位置づけられています。

ケモインフォマティクスは確かに奥は深いですが、最低限必要な知識や考え方はそれほど多くありません。

実際僕も、ケモインフォマティクスを集中的に勉強して知識をつけたというよりも、他の領域の周辺知識として少しずつケモインフォマティクスの知識もついていき、基礎知識さえあればケモインフォマティクスの専門家とも十分ディスカッションはできています。

とはいえ、何を最初に勉強すべきかがまとまっているウェブサイトもあまりないのが現状ですよね。

そこでこの記事では、これからケモインフォマティクスに挑戦する人たちへ、創薬研究でどう役立つのか、何を最初に勉強するべきか、解説します。

この記事に書かれていることを理解、実践するだけで、あなたもケモインフォマティクス研究者への大きな第一歩を踏み出すことができます。

そもそも、ケモインフォマティクスとは?

ケモインフォマティクス(chemoinformatics)というのは、chemistry(化学)とinformatics(情報科学)を合わせたことばで、日本語にすると「化学情報学」となります。

要は、情報学的に化合物(化学物質)や化学反応を理解する学問領域となります。

例えば、化合物の特徴について考えるとき、僕たちは構造式を見ることが多いですよね。

その構造式を見て、骨格構造はこんなんで、そこにこんな修飾基がついていて・・・と見ていって、化合物の特徴を把握するわけです。

これは、「人間の目」によって、化合物の特徴をとらえていることになります。

それに対して、ケモインフォマティクスではコンピューターを使って化合物の構造や特徴をとらえることになります。

なので、人間には理解しやすい構造式の「絵」を、「コンピューターが理解できる情報」に変換して色々な解析を行うというわけです。

詳しくは以下で書いていきます。

ケモインフォマティクスは創薬研究にどう使える?

ケモインフォマティクスによってこれまで人間には思いつきもしなかったような良い「化合物」すなわち「薬」が生まれてくる可能性があります。

そして、ケモインフォマティクスは、化合物とタンパク質の結合親和性を考えることもできます。

薬の標的となるタンパク質と化合物が結合するのかしないのか、結合したとして薬理活性(効き目)があるのかないのか、といったことをケモインフォマティクスを使えばシミュレーションすることができるので、どんな構造の化合物が薬として適しているのか、たくさん化合物を合成して実験しなくてもすぐに分かる、ということです。

それから、薬はただ効き目が強ければいいわけではなく、副作用が弱かったり、一回飲んだら長く効果が持続することも大切です。

このような副作用や持続についても、薬の化学構造からシミュレーションできるというのが、ケモインフォマティクスの特徴です。

以上のように、バランスのとれた「薬」として使える化合物をデザインするのに、ケモインフォマティクスは不可欠というわけです。

ケモインフォマティクスは何から勉強し始めるといい?

ケモインフォマティクスの有用性が分かったところで、初めての場合は何から勉強すればいいのかということですが、まずは化合物の化学構造の記述方法について知識を持っておくと良いです。

上でも書きましたが、ケモインフォマティクスを行う際には、化合物の構造をコンピューターに読み込ませる必要があるので、構造式の「絵」あるいは「画像」ではなく、別の形式にデータを変換する必要があります。

じゃあどんな形式に変換すると良いのかということですが、いくつかやり方があります。

その中でも、一番シンプルで分かりやすいのが、「SMILES記法」という表記方法です。

「SMILES」というのは、「simplified molecular input line entry system」の略で、化合物の構造を文字列で表す、というやり方です。

例えば、アミノ酸の基本構造ともいえるグリシンをSMILESで表すと、「NCC(O)=O」となります。

ここで出てくるN、C、Oという文字は、それぞれ原子を表しています。

Nは窒素原子、Cは炭素原子、Oは窒素原子ですね。

原則として、SMILES記法では水素原子(H)は省略することになっています。

なので、原子の並びは非常にシンプルに書くことができます。

そこに、かっこが入ったり、二重線が入ったりするわけですが、これらはそれぞれ枝分かれと二重結合を表しているわけです。

このように、ざっくりと原子の並びや位置関係を表せるのが「SMILES記法」ということになります。

そして、もし余力がある人は、化学構造の表記方法に加えて、化合物の物性を表すパラメーターを取得する方法について知っておくとなお良しです。

化合物の物性を表すパラメーターというのは「記述子(descriptor)」と言ったりしますが、この情報を使って機械学習をしていくのがケモインフォマティクスのメインの部分になります。

機械学習で良好な結果を得るために、記述子のデータをどう加工するか、などがケモインフォマティクス研究者の腕が試されるところです。

このように、「化合物の情報をコンピューターに読み込ませて機械学習をする」というのが、ざっくりですが、ケモインフォマティクスということになります。

ケモインフォマティクスを専門書で勉強したいという人には、「化学のためのPythonによるデータ解析・機械学習入門」がおすすめです。

以下の記事で詳しく解説していますので、読んでみてください。

「化学のためのPythonによるデータ解析・機械学習入門」は初心者のバイブル!

ケモインフォマティクスの将来性は?

以上で書いている通り、ケモインフォマティクスは創薬研究に欠かせないものになりつつあります。

今後の製薬業界ではケモインフォマティクスがドラッグデザインの主要技術になっていくと予想されます。

そして、それに伴ってケモインフォマティクスの専門知識を持つ人材も必要になってくるので、これからますます需要は増えていくと予想しています。

また、ケモインフォマティクスは、バイオインフォマティクスや分析化学の基本となる部分もあるので、これからAI創薬で活躍することを目指す人にとっては間違いなく必須のスキルです。

なので、これから製薬業界に入る人にとっては、ケモインフォマティクスの基礎知識さえあれば、一生仕事に困らないと言っても過言ではないと思います。

まとめ

この記事では、ケモインフォマティクスの概要および製薬会社の仕事でどう使えるかについて解説しました。

もう1度要点をおさらいしておきましょう。

  • ケモインフォマティクスや新薬になる化合物を創り出すのに使える。
  • ケモインフォマティクスの第一ステップは、化合物をコンピューターに読み込ませる情報に変換すること。
  • 化合物の情報を使ってどうやって機械学習を行うかが、ケモインフォマティクスの基本であり腕の見せ所。

以上が理解できれば、ケモインフォマティクスの仕事をしている人とも研究のディスカッションができるんではないかと思います。

あるいは、専門書を読んでみるのもいいですね。

この記事で紹介した「化学のためのPythonによるデータ解析・機械学習入門」がおすすめです。

実際に創薬の現場で経験を積んでいくことも大切なので、基本を理解したらどんどん実践していきましょう。