株式会社エヌエスピー

PERTEN INSTRUMENTS社 日本総代理店

ケモメトリクスとは

化学における多変量解析が体系化されケモメトリクス(Chemometrics;化学計量学)として一つの学問分野となっています。近年の分析装置の進歩と共に分析によって得られる化学データの量は膨大なもとなりました。ケモメトリクスは、このような膨大な量の化学データから目的とする情報を数学(統計学を含む)の手法を駆使することにより最大限に引き出す事をその目的として発展してきました。Svante Woldはケモメトリクスの発展に大きく貢献した人物であり、彼の父親Herman Woldは部分最小二乗法(Partial Least Squares;PLS)の開発者です。今日でもPLSは、ケモメトリクスの応用において幅広く使われている解析手法です。

具体的な例として、近赤外分光法により得られる多変量データ(分光スペクトルデータ)をケモメトリクスにより一つの単位を持った数値データと結びつける事ができます。しかし、近赤外分光法への応用は、ケモメトリクスの応用における一例にすぎません。ケモメトリクスは、その他の様々な化学データを扱う事ができます。


(多変量解析の進化)
基本的な解析の手法として使われる重回帰分析(Multivariate Linear Regression;MLR)は、説明変数である多変量のデータ(ベクトル)と目的変数である数値(スカラー)を関連付ける解析手法です。次の図(fig.01)は、m個の情報を持つ多変量データがn検体分ある場合におけるMLRを表しています。図においてXは、n検体分の説明変数を表す行列であり、vは係数ベクトルを表しています。


MLRの説明変数は、多変量データであるため、どのような変数を説明変数に使うかを選択的に決める必要があります。適切な選択を行う事ができれば、精度の高い予測モデルを期待する事ができます。しかし、説明変数の選択に問題があれば、予測モデルの精度が低くなる事があります。

例えば分析装置から得られる化学データがm個の情報量を持っているとし、分析した検体数をn検体とすれば、MLRの入力となる行列は次のように表されます(fig.02)。


この例ではm個の変数が選択されていますが、その内のi番目とj番目の変数の間に強い相関関係がある場合(fig.03)、一般的にモデルの信頼性が損なわれると言われます。この問題は、多重共線性(Multicollinearity)と呼ばれています。MLRによる予測モデルを構築する場合は、分散拡大要因(Variance Inflation Factor;VIF)などによる多重共線性の検出テストを行う必要があります。


このようなMLRの問題を解決する解析手法として、その発展系である主成分解析(Principal Component Regression;PCR)があります。PCRは、主成分分析(Principal Component Analysis;PCA)により説明変数間の非直交性を排除した形に変数を再構築した上で回帰分析を行う手法です。次の図(fig.04)は、m個の情報を持つ多変量データがn検体分ある場合におけるPCRを表しています。図においてXは、n検体分の説明変数を表す行列であり、pは係数ベクトルを表しています。


MLRの図(fig.01)の係数ベクトルvとPCRの図(fig.04)の係数ベクトルpの関係は、一般的に次のようになります。


これは、PCRにおいて説明変数を再構築する際に情報量が圧縮されている事を表しています。このようにPCRは多重共線性の問題を回避すると同時にノイズなどの不必要な
部分を化学データから排除する効果も期待できます。

PCRの解析手法は、説明変数の分散を最大化しつつ目的変数と相関する潜在的な変数を探査するものであると言えます。つまり、目的変数は、ベクトルであり説明変数は、行列であるという前提で説明変数側のみで行列を直交分解します。これに対して目的変数の変動の情報も予測モデルの構築に利用する手法としてPLS(Partial Least Squares)が開発されました。PLSでは、複数の目的変数を同時に扱うものとし、目的変数も行列であるという前提でモデル構築を行います(目的変数が1つの場合は、特殊なケースとして扱われます)。目的変数と説明変数の両方において行列を直交分解し、目的変数と説明変数の相関を最大にする潜在的な変数を探査します。

ケモメトリクスの解析手法としてMLR、PCR、PLSがある事を説明しましたが、これらはいずれも線形モデルに分類されます。1940年代に生体ニューロンの数式モデルが提案され、1980年代に誤差逆伝播法(Back propagation)が提案されて以来、人工ニューラルネットワーク(Artificial Neural Network;ANN)が、ケモメトリクスの解析手法の一つとして使われるようになりました。このANNは、非線形モデルに分類される手法であり、より柔軟な予測モデルの構築が可能となりました。

(非線形解析手法-人工ニューラルネットワークによるモデル構築)
ANNは生体の神経系を神経細胞(ニューロン)の単位で数式モデルに置き換えたものです。ニューロンは、樹状突起を持った細胞体と軸索により構成されており、ニューロン間は軸索先端と樹状突起の結合部(シナプス)で繋がっています(実際には結合部にわずかな隙間があります)。


シナプスでは細胞間で神経伝達物質の移動が起こり、神経伝達物質を受容体が受け取ると、これによって膜電位という電位差が発生します。一つの細胞体は複数の樹状突起があるので、複数のシナプスが細胞体に存在しており、それらのシナプスの膜電位が細胞核近くでまとまり活動電位と呼ばれる電位差が発生します。細胞は制止状態において細胞の内側は外側との間にマイナスの電位差に保たれています(静止電位)。活動電位となる事でプラスの電位差となります。この活動電位の発生頻度が、閾値を超えると電流が軸索を流れ末端のシナプスへ伝わり、他の神経細胞に作用します。

小脳パーセプトロン説によると、環境から受ける感覚情報を大脳が受け、それに応じた運動指令を出すことで運動を制御していますが、この運動指令と感覚情報は小脳へも伝達され、大脳からの運動指令を小脳の学習教師とし情報感覚に対する出力モデルを構築します。これにより反復的な訓練の結果として、小脳による反射的な運動が可能となると考えられています。小脳は、大脳から学習を受ける自動制御装置と考える事ができるのです。学習が繰り返されるごとに神経系の多くのシナプスの抵抗が適切に更新されます。このシナプスの抵抗の探査ことが、学習そのものであり入出力モデルの構築であると言えます。

この小脳パーセプトロン説を数学モデルに置き換えることでANNモデルを構築されています。ANNの構成単位であるニューロンは次のようにモデル化されます。


fig.07においてxは感覚情報に対応する入力、wはシナプスの抵抗に対応する重みを表しています。また、sは活動電位を表しており次の式で表す事ができます。


神経細胞が、結合された他の神経細胞へ作用を与える強さは、細胞内でのインパルス発生頻度にかかっています。細胞内電位が高くなれば、インパルス発生頻度は高くなります。その様子は次のシグモイド関数によって表す事ができます。


実際にこの関数をグラフにすると次のようになります。


シグモイド関数(fig.09)においてαはゲインを表し素子の特徴を決める定数となります。ゲインが大きくなれば出力は、0か1の二者択一となります。ゲインが1、2、3、7と変化した場合のインパルス発生頻度の変化は次のようになります。


よってθを細胞内電位の閾値とすれば、ニューロンの出力yは次の式で表されます。


これで生体ニューロンのモデル化ができた事になります。ANNモデルにおいてニューロンを素子などと呼びます。後はこの素子を生体の神経系のように複数接続することで、ANNモデルを構築します。素子の接続方法により、様々なANNモデルが存在しますが、最も基本的なANNモデルとしてフィード・フォーワド型が挙げられます。


初期設定としてANNモデルにおける全ての重みwにはランダムな値が割り振られます。感覚情報に対応する入力xが与えられると重みwと閾値θに応じて一方向へ素子の間で情報が流れ、最終的に出力yが得られます。Yを目的変数とすれば、生体の神経系における大脳からの運動指令に対応する事になります。yとYには、誤差が生じるので全ての重みwを逆方向へ修正して行きます。このような重みの修正が誤差逆伝播法です。入力と重みの修正をyとYの差が十分小さくなるまで繰り返し行います。この操作は慣れない運動を感覚情報に基づいて何度も練習し慣れるまで続ける行為に対応します。

小脳が大脳の動作指令を反復学習し、複雑な運動を制御するように、化学データの入力に対し教師となる目的変数を導く反復学習を行い、化学データと目的変数を繋ぐANNモデルとして機能します。よって生体の学習と同様の柔軟なモデル構築が期待できるといえます。これは、不確実性を含む事になりますが、その一方で伝統的な線形モデルには無い柔軟性を獲得していると言えます。

ANNの応用における問題として学習効率が挙げられます。ANNには、さまざまなタイプのモデルが提案されており、それぞれ学習効率には違いがあります。ANNモデルを構築する際には、学習効率も十分に考慮する必要があると言えます。

Copyright(c) 2015 Com Design Co., Ltd. All Rights Reserved.