リモセンにしてもシミュレーションにしても

たとえば、教師付き分類というのがあるわけだが、ある区画があり、そこの森林について、たとえば、85%が針葉樹、12%が広葉樹、残りが裸地、であるとわかっているとする。

そのサイトについて、リモセンで計測し、計測結果が、きちんと85%と12%と3%とでるように、様々なパラメータを調整し、分類をしっかりとできるようにする。

ここからが問題で、本来であれば、そのように教師付き分類についてパラメタライゼーションを行った上で、さらに新たな、たとえば、75%が針葉樹で、、とわかったサイトについて、これまでパラメタライゼーションしておいた計算方法を当てはめて、さて、実際には、未知の区画をどれだけきちんと推定できたかな、というのを計算して、評価するのが筋であろう。

でも、実際の論文では、たとえば、上記のようなわかっている区画（これをcalibration areaとでも呼ぶのかな）を10個使い、それらについて、一生懸命教師付き分類を調整し（そう、calibrationではなく、tuningなのだとおもう）、けっか、正確な分類を72%再現できました、というところで終わるものがたくさんあるような気がする。そういうときに「では、実際のアプリケーションであるように、未知の区画を解析して、その結果というのはどれだけ正しいのですか？」と聞いたら、？？？という顔をされたことがあって、はて、、これってかなりまずいのでは、と思ったりするわけだ。

物質循環モデルも同様で、データにあったあわないを一生懸命やるけれど、きちんと、calibration dataとevaluation data、calibration periodとevaluation periodにデータを分けて、評価している論文というのは実はかなり少ないのではないか？

Lamers et al. Ecological Modelling, 2007は、ちゃんとやっているので、覚え書きです。

実際に、モデルを使って、教師付き分類を使って、何を観測するの？ってときに、実測できていない群集構造を推定したい、将来のN2O放出を推定したい、のであれば、ほんとうの意味でのcalibrationって、やっていることが違っているのでは？？？

ってなことを考えながら、reviewをえいや！でおくっちゃった。

Vanity of vanities

Kei Koba in CER, Kyoto University, Japan

リモセンにしてもシミュレーションにしても