XMLとは？製薬会社の仕事でどう使う？

「XMLってちょくちょく聞くけど、どういうもんなんだろう？」

「XMLって製薬会社の仕事でどう使えるの？どの程度知っておくべきものなの？」

そんな疑問をお持ちの皆さんへこの記事を書いています。

実際僕も、プログラミングを勉強する前は、「XMLってなんだか難しそう・・・」っていうイメージを持っていました。

でも、ちょっと勉強しただけで製薬会社での仕事にも使うことができるようになりました。

この記事では、XMLについて、製薬会社の研究者や薬学部の学生が最低限知っておくべきことに絞って解説します。

この記事を読めば、XMLというのが意外に簡単で、創薬研究の仕事で使う具体的なイメージができるはずです。

XMLとは？

XMLというのは、extensible markup languageの略で、ウェブページを構成する要素をタグを使って定義するものになります。

タイトルを示す文字列は<title>というタグを使って囲んだり、本文にあたる部分には<text>というタグを使って囲んだりすることで、ウェブページ上にある要素がそれぞれどんな役割を持っているのかを示すことができます。

ちなみに、この例で示したtitleやtextというタグで囲んだ文字列は自由に定義できます。

似たようなものにHTML（hyper text markup language）というものがありますが、HTMLはタグの中の文字列があらかじめ決まっていて、コードを書く人が自由に決めることはできません。

HTMLについてもっと詳しく知りたい人は、HTMLの記事を見てみてください。

そういう意味で、XMLはHTMLと比べて自由度が高く、コードを見たときに各要素がどんな役割を持っているのか分かりやすいという特徴があります。

では、XMLをどんな仕事に使うことができるのか、ということですが、機械学習の訓練用データを集めるための「ウェブスクレイピング」で使うことができます。

「ウェブスクレイピング」というのは、ウェブページで公開されている情報を取り出してくることです。

ウェブページで公開されている情報を人工知能（aritificial intelligence: AI）に学習させてモデルを作成し、社内データの予測に使う、といった仕事をするときにXMLが出てくることがあります。

スクレイピングをするときには、ウェブページの情報全てをダウンロードするのではなく、必要な情報のみを選択してダウンロードすることになります。

この必要な情報を選ぶときにXMLタグを指定して、ダウンロードする情報を選ぶことになるわけです。

例えば、PubChemのような化合物の情報がまとめられたデータベースから化合物の名前の情報を取り出すとしましょう。

そして、化合物名は<name>というタグで囲まれているとします。

その場合は、スクレイピング用のスクリプトで<name>というタグを指定してやれば、化合物の名前の情報だけをダウンロードすることができるというわけです。

以上のように、ウェブページ上の必要な情報がどのXMLタグで囲まれているかをソースコードから読み取ることによってスクレイピングを行うことができます。

上でも書いたように、製薬会社の仕事では、XMLを主にスクレイピングの時に使用するので、XMLを「書く」ことはなく、XMLを「読む」ことができれば十分です。

XMLで記述されたウェブページのソースコードを見て、実際のページの見た目とコードのどことどこが対応するかが分かれば大丈夫です。

実際の仕事では、ウェブページのこの情報をダウンロードしたいという時にどのXMLタグを指定すればいいかが分かれば、機械学習に用いるデータを収集することができます。

この記事では、XMLとは何か、製薬会社の仕事でどのように使うかについて解説してきました。

もう一度要点をおさらいしておきましょう。

実際にウェブスクレイピングをやって身につけていくのが一番早いので、普段見ている化合物データベースの情報などをスクレイピングして理解を深めていくと良いでしょう。