機械学習の意味

考える男性研究者

「最近『機械学習』ってよく聞くけど、何なのかよく分からない・・・」

「機械学習には、Pythonというプログラミング言語をよく使うみたいだけど、なんで?」

この記事はそんな疑問や悩みをお持ちの皆さんに向けて書いています。

最近のAIブームの到来とともに、「機械学習」という単語がよく使われるようになってきました。

僕はたまたま、AIブームが来る前から機械学習に携わっていたので、そこまで疑問を感じることはなかったですが、この分野になじみがなかった人たちにとっては、「意味を知らない単語がいっぱい出てくるなぁ」という感じですよね。

そこで、この記事では、そもそも機械学習って何なのか、どんな風に製薬会社の仕事で使われているのかについて、解説します。

この記事を読むことで、今までなじみがないと思っていた機械学習の分野がより身近に感じて、機械学習のスキルをつけるための勉強法も知ることができます。

ゆきやゆきや

機械学習が理解できれば、AI創薬がどんなものかも分かるようになりますよ。

機械学習とは?

機械学習(machine learning)というのは、予測をしたい結果と予測に用いるデータとの関係から法則性を導き出して、その法則をもとに他のデータから予測を行う、というものです。

分かりにくいので具体例を挙げると、例えば化合物の構造と脂溶性の関係を機械学習で解析するとします。

まず訓練用のデータとして脂溶性の度合いが分かっている化合物のデータセットを用意します。

このデータには、脂溶性の指標の値(水オクタノール分配係数など)と、化合物の物性を示すパラメーター(分子量など)が含まれていて、機械学習を使ってこれらの間にある法則性を探して、予測モデルを作ります。

そして、作成した予測モデルに対して、今度は脂溶性が分からないけど構造は分かる化合物の物性を示すパラメーターを当てはめて、脂溶性を予測するという流れになります。

厳密に言うと、上で説明したのは「教師あり」の機械学習で、「教師なし」の機械学習もあります。

ですが、初心者の人は「教師あり」の機械学習が理解できればとりあえずは十分です。

そして、機械学習は、人工知能(artificial intelligence: AI)と一緒に取り上げられることが多いですが、これは機械学習がAIの基盤になっていることが多いからです。

学習用のデータセットをコンピューターに学習させて、そのデータセットから得られた法則から、新しいデータに対する予測を行うというのがAIの大事な仕事の一つなわけです。

そして機械学習は、「AI創薬」の時代を迎えた製薬業界でもよく使われるようになってきています。

製薬会社の仕事でどう使える?

化合物の創出

機械学習は、薬になる化合物の構造を予測することに使うことができます。

例えば、既に知られている、タンパク質の構造とそのタンパク質を阻害する化合物の構造の組み合わせを学習用のデータとして用意しておいて、そのデータセットを学習させて予測モデルを作ります。

学習用のデータセットは、社内の上市品や、市販薬のデータを使うことができます。

そして、開発しようとしている薬の標的になるタンパク質の構造に対して、阻害作用のある化合物の構造を、上で作ったモデルを使ってシミュレーションするというわけです。

こうすることで、わざわざいろんな化合物を合成して色々実験しなくても、薬になる良い化合物をすぐに見つけ出すことができるようになると期待されています。

さらに詳しく知りたい人は、以下の記事を読んでみてください。

ケモインフォマティクスは製薬企業でどう役立つ?どんな知識が必要?

創薬ターゲットの発見

機械学習は、薬の標的になるタンパク質を見つけることにも使えます。

どうやって標的のタンパク質を見つけるかというと、病気の人(または動物)と健康な人(または動物)の間で、身体の中にある遺伝子やタンパク質、あるいは代謝物の発現量を比較して、病気の時に増える(あるいは減るもの)を探し出して、それをもとに薬に標的にするタンパク質を考えるというアプローチをとります。

今までは、これまでいろんな研究者が積み上げてきた生物学的知見をもとに、仮説を立てて、標的になるタンパク質を考えるというのが主流でしたが、上で書いた考え方は、実験データのみから新しい仮説を立てるというやり方で、今までのやり方では見つからなかった薬の標的を見つけられると期待されています。

それによって、今まで治療が難しいと言われてきた難病にも、有効な治療法が見つかるかもしれません。

さらに詳しく知りたい人は、以下の記事を読んでみてください。

バイオインフォマティクスって何?製薬会社でどう使えるの?将来性は?

機械学習でPythonがよく使われるのはなぜ?

Python(パイソン)というのは、プログラミング言語の一つで、最近機械学習の分野でよく使われるようになってきています。

なぜ機械学習の分野でよく使われるかというと、「機械学習のライブラリが豊富にある」からです。

機械学習のライブラリというのは、機械学習でよく使われる理論や数式をスクリプトとして書いて、それらを他の人が再利用できるようにまとめたものです。

僕たちが機械学習を仕事で使う場合には、数式をスクリプトとして書く必要はなくて、既に他の人が作ってくれたものを呼び出すだけでいいわけです。

このような機械学習のライブラリは、Pythonが一番充実していることが、Pythonが機械学習の分野でよく使われる理由です。

プログラミング言語Pythonについてもっと詳しく知りたい人は、以下の記事を読んでみてください。

プログラミング言語Pythonとは?AIや機械学習に使える?

おすすめの機械学習の勉強法

機械学習図鑑

「機械学習図鑑」は、機械学習で使われるいろいろなアルゴリズムを解説した専門書です。

カラー印刷で図もたくさん使われており、計算が複雑でイメージがつかみにくい機械学習を、数式を理解できなくてもイメージだけでとらえやすくなっています。

また、それぞれのアルゴリズムを実装するためのPythonのコードも書かれており、すぐに仕事で実践することができるのも特徴です。

詳しくは、以下の記事で解説しています。

これから機械学習を勉強する人には「機械学習図鑑」がおすすめ!

Aidemy

Aidemyは、AIプログラミングを勉強できるオンライン学習サービスです。

プログラミング言語はPythonを使って、いろいろな機械学習の実践演習ができます。

実際にPythonのコードを書きながら進めていくので、「機械学習ってこんな感じなんだな」というイメージを作りながら勉強できます。

いろいろな学習コースが用意されていますが、無料のものもあるので、まずは無料のコースから始めてみても良いと思います。

詳しくは、以下の記事で解説しています。

製薬企業研究者や薬学部生のためのAidemy活用法

Udemy

Udemyは、プログラミングだけでなくウェブデザインやマーケティングなどの専門家が動画を投稿し公開している、オンライン動画学習プラットホームです。

基本的に動画講座は数万円するものが多く高いのですが、たまにセールが行われて、数千円まで価格が下がることがあるので、そのタイミングで自分の興味のあるものを購入する感じで使うと良いと思います。

詳しくは、以下の記事で解説しています。

製薬企業研究者や薬学部生のためのUdemy活用法

まとめ

この記事では、機械学習がどのように製薬会社の仕事で使えるか、どう勉強すればいいかについて解説しました。

もう1度おさらいしておきましょう。

  • 機械学習はデータの間にある法則性を見つける技術。ケモインフォマティクスやバイオインフォマティクスにも使われる。
  • Pythonが一番機械学習を実行しやすいプログラミング言語なので、よく使われる。
  • 最近は機械学習を勉強するための専門書やオンライン学習プラットホームも充実してきている。

この記事で書かれていることが理解できれば、なぜ機械学習を用いたAI創薬が注目されているのか、どうやって仕事に生かせるレベルまで勉強するかが分かると思います。

具体的な機械学習の勉強法については、別の記事で解説する予定です。