「プログラミング関係でHTMLってよく聞くけど、製薬会社の仕事で必要なの?」
「HTMLってどういうときに使うものなの?」
そんな疑問を持つ皆さんに向けて、この記事を書いています。
一般的にHTMLは、ウェブサービスを開発するプログラミングで利用するものです。
でも実は、HTMLって、製薬会社で仕事をするうえでも関係する部分があるんです。
実際僕はHTMLの知識を持っていたことで、
場面がありました。そこでこの記事では、HTMLについて、製薬企業研究者や薬学部生が最低限知っておくべきところにしぼって解説します。
この記事を読めば、仕事に必要なHTMLの知識を効率良く身につけることができます。
HTMLとは?
HTMLというのは、hypertext markup languageの略で、要はウェブページの骨格部分を作る言語といったようなものになります。
インターネット上にはいろいろなウェブページがありますが、そこにはタイトルがあったり、本文があったり、画像があったり、リンク付きの文字があったりするわけですね。
このような文字の種類を指定するのがHTMLです。
HTMLには「タグ」というものがあり、ホームページのソースコードで<p>とか<img>といった文字列を見たことがあるという人もいるかもしれません。
このカッコに囲まれた文字列が「タグ」で、中の文字によって、種類が変わってきます。
<p>というのは本文になりますし、<img>というのは画像を示すことになります。
また、このタグをさらに分類するために、class属性やid属性というものがあります。
同じ<p>タグでも、文字の色やフォントサイズを変えたいという時に指定します。
ちなみに、class属性は同じウェブページ内で同じ名前で複数指定することができますが、id属性はウェブページ1ページにつき同じ名前のものは1つしか指定できないという違いがあります。
class属性やid属性というのはHTML単体で意味をなすものではなくて、別の記事で解説しているCSSと強く関係するものになります。
ここでは、同じ文字のタグでもclass属性やid属性によって別物として扱えるんだな、ぐらいに理解しておけば大丈夫です。
製薬会社の仕事でどう使う?
じゃあウェブページを構成するものがどうして製薬会社の仕事で必要なのかというと、機械学習で訓練用のデータセットとしてウェブ上に公開されている情報をダウンロードすることがあるからですね。
ウェブ上の情報を取り出すことを「ウェブスクレイピング」といったりしますが、ウェブスクレイピングでは特定のHTMLタグを指定したり、class属性やid属性を指定してその情報だけをダウンロードしたりすることが多いです。
例えば、PubChemのような化合物のデータベースから、そこに載っている化合物名のみを取り出すとしましょう。
そして、化合物名が<h3>タグで囲まれているとすると、<h3>タグの情報のみをダウンロードするようにスクリプトを書けばいいわけです。
場合によっては、化合物名のところのタグが<h3 class=”compound-name”>となっていて、化合物名とは別に<h3>タグがあるかもしれません。
このような場合には、<h3>タグを指定しただけでは、化合物名以外の不要な情報も抽出してしまうことになるので、<h3>タグでかつclass属性が”compound-name”であるものという風に指定した方が無駄がなくて良いです。
ウェブページ全部の情報をダウンロードしようとするとデータサイズが大きくなり過ぎて時間がかかってしまったりしますからね。
このように、HTMLは欲しい情報を過不足なく選ぶために使うものだと思っておいてもらえればと思います。
製薬企業研究者や薬学部生が知っておくべきこととは?
製薬会社の仕事で使うにあたって理解しておく必要があるのは、HTMLタグにはどんな種類があって、それぞれがどんな役割を持っているかということです。
自分が取り出したい情報を過不足なく抽出するには、どんなHTMLタグ、class属性あるいはid属性を指定すれば良いかをわかっておく必要があるからです。
HTMLタグは以下です。
- <h1> ~ <h6>:タイトルを示すタグ。一番の大見出しが<h1>、それから
- <p>:本文であることを示すタグ。
- <a>:リンク付きの文字列であることを示すタグ。
- <img>:画像を示すタグ。
- <ol>:「1, 2, 3・・・」など順序つきの箇条書きを示すタグ。
- <ul>:「・」など順序なしの箇条書きを示すタグ。
- <tt>:表を示すタグ。
- <div>:ひとかたまりの要素を示すタグ。
- <section>:ひとかたまりの要素を示すタグ。
- <article>:ひとかたまりの要素を示すタグ。
あとはそれぞれのタグに対してclass属性やid属性を指定することがあるので、class属性やid属性を見て、適切に絞り込めそうなら絞り込むという判断ができることも大切です。
逆に、身につける必要のないスキルとしては、0からホームページを作り上げるとか、class属性やid属性を適切に指定できるようになるとか、コードを「書く」技術は不要です。
あくまで既に書かれたものを「読む」ことができれば十分です。
HTMLの勉強法
Progate
Progateは、実際にコードを書きながらプログラミングを勉強できるオンライン学習サービスです。
初心者向けの基礎的な内容から少しずつレベルアップして課題をクリアしていく形になります。
HTMLについても、学習コースが用意されており、どんなタグを使うのかや、class属性、id属性の指定の仕方まで学ぶことができます。
Progateについて詳しくは、以下の記事で解説しています。
ドットインストール
ドットインストールは動画の講義でプログラミングを勉強できるサービスです。
こちらも初心者向けの基礎的な内容を中心にレッスンが用意されています。
HTMLについても、一番基礎的な内容からとても丁寧に解説されています。
ドットインストールについて詳しくは、以下の記事で解説しています。
まとめ
この記事では、HTMLとは何か、製薬会社の仕事でどう使えるか、について解説しました。
もう一度おさらいしておきましょう。
- HTMLはウェブページの構造を記述するマークアップ言語で、ウェブスクレイピングで使うことがある。
- HTMLは自分で書ける必要はなく、ウェブページのソースコードを読むことさえできれば良い。
HTMLに関して覚えないといけないことは少ないので、Progateなどの学習サイトで軽く勉強しておけば、実務でウェブスクレイピングをやってみると良いでしょう。