「XMLってちょくちょく聞くけど、どういうもんなんだろう?」 「XMLって製薬会社の仕事でどう使えるの?どの程度知っておくべきものなの?」
そんな疑問をお持ちの皆さんへこの記事を書いています。
実際僕も、プログラミングを勉強する前は、「XMLってなんだか難しそう・・・」っていうイメージを持っていました。
でも、 。
この記事では、XMLについて、製薬会社の研究者や薬学部の学生が最低限知っておくべきことに絞って解説します。
この記事を読めば、XMLというのが はずです。
XMLとは?
XMLというのは、extensible markup languageの略で、ウェブページを構成する要素をタグを使って定義するものになります。
タイトルを示す文字列は<title>というタグを使って囲んだり、本文にあたる部分には<text>というタグを使って囲んだりすることで、ウェブページ上にある要素がそれぞれどんな役割を持っているのかを示すことができます。
ちなみに、この例で示したtitleやtextというタグで囲んだ文字列は自由に定義できます。
似たようなものにHTML(hyper text markup language)というものがありますが、HTMLはタグの中の文字列があらかじめ決まっていて、コードを書く人が自由に決めることはできません。
HTMLについてもっと詳しく知りたい人は、HTMLの記事を見てみてください。
そういう意味で、XMLはHTMLと比べて 、コードを見たときに という特徴があります。
製薬会社の仕事でどう使う?
では、XMLをどんな仕事に使うことができるのか、ということですが、機械学習の訓練用データを集めるための「ウェブスクレイピング」で使うことができます。
「ウェブスクレイピング」というのは、ウェブページで公開されている情報を取り出してくることです。
ウェブページで公開されている情報を人工知能(aritificial intelligence: AI)に学習させてモデルを作成し、社内データの予測に使う、といった仕事をするときにXMLが出てくることがあります。
スクレイピングをするときには、ウェブページの情報全てをダウンロードするのではなく、必要な情報のみを選択してダウンロードすることになります。
この必要な情報を選ぶときにXMLタグを指定して、ダウンロードする情報を選ぶことになるわけです。
例えば、PubChemのような化合物の情報がまとめられたデータベースから化合物の名前の情報を取り出すとしましょう。
そして、化合物名は<name>というタグで囲まれているとします。
その場合は、スクレイピング用のスクリプトで<name>というタグを指定してやれば、化合物の名前の情報だけをダウンロードすることができるというわけです。
以上のように、ウェブページ上の必要な情報がどのXMLタグで囲まれているかをソースコードから読み取ることによってスクレイピングを行うことができます。
製薬企業研究者や薬学部生が知っておくべきこと
上でも書いたように、製薬会社の仕事では、XMLを主にスクレイピングの時に使用するので、XMLを「書く」ことはなく、XMLを です。
XMLで記述されたウェブページのソースコードを見て、実際のページの見た目とコードのどことどこが対応するかが分かれば大丈夫です。
実際の仕事では、ウェブページのこの情報をダウンロードしたいという時にどのXMLタグを指定すればいいかが分かれば、機械学習に用いるデータを収集することができます。
まとめ
この記事では、XMLとは何か、製薬会社の仕事でどのように使うかについて解説してきました。
もう一度要点をおさらいしておきましょう。
- XMLはタグを使ってウェブページの構成要素を分類でき、ウェブスクレイピングでダウンロードする情報を選ぶ際に使える。
- XMLは自分でかけるようになる必要はなく、ウェブページのソースコードを見て内容が理解できれば充分。
実際にウェブスクレイピングをやって身につけていくのが一番早いので、普段見ている化合物データベースの情報などをスクレイピングして理解を深めていくと良いでしょう。