AIの精度評価

検査をAIで置き換えると際、必ず聞かれるのが「精度」です。

MENOU-TEを導入したら精度はどうなるのか?」というのはFAQ中のMost FAQと言ってもいいかもしれません。その答えはもちろん、検査対象だけでなく、撮像状態(写真の質)、アノテーションの質(きちんと学習させられるか?)、AIモデルや画像処理の巧拙にもよるので一概には言えない…ということになってしまいます。しかし、「精度」とは何かについてもう少し理解すれば、色々な不安は減るかもしれません。

コンフュージョン・マトリクス (混合行列)とは何か?

AIに限らず、正否判定を行う場合の「精度」にはコンフュージョン・マトリクスは避けて通れません。 例のPCR検査でも話題に上がっていますね。
判定結果(+) 判定結果(ー)
真の状態(+) 真陽性(TP) 偽陰性(FN)
真の状態(-) 偽陽性(FP) 真陰性(TN)

TP: True Positive とは、本当に陽性であったものが検査も正しく陽性を検出できたことを指し、
TN: True Negativeとは、本当に陰性であったものが検査も正しく陰性であったものを指します。
検査が「正しい」ケースというのはこの2つのケースです。

検査が間違うのは、
FN: False Negative 本当は陽性にも関わらず、陰性の結果が出てしまう
FP: False Positive 本当は陰性にも関わらず、陽性の結果が出てしまう
という2つのケースです。

FNによる検査漏れを気にして、厳しめの検査を行っているとFPが多く、「Overkill (オーバーキル)」状態となってしまいますよね。これはAIに限らず、色々な検査工程で行われています。

MENOUでは以下のように表示されます。
image

「精度」を評価するうえでの問題点

MENOUのようなAI検査を導入するうえで、いつも問題になるのは何だと思いますか?

それは、「現在の精度が分かっていない」ことです。

現行の工程における検査精度の現状を整理してみましょう。
① 検査のチェックがない場合
最終検査はもちろんのこと、ほとんどの検査は1度しか行われません。そうなると、実際の検査漏れ数については判断がつきません。PoCや初期検証時点での精度データしかないのが実情だったりします。
② 検査チェックがある場合
最終検査であっても、抜き打ちでのサンプリング検査が行われることも珍しくありません。そのようにして、最終検査を含めた品質管理体制をモニタリングすることは重要なことです。しかし、よっぽどシンプルな検査でないかぎり、チェック時の検査精度も曖昧なこともあります。微妙な目視検査などは検査員によってもバラツキがあるので、結果の食い違いも発生します。そのため、どの検査員が正しいのかを「定義」したり、複数の検査員の平均を正とするなどの「定義」が大切になります。前述した「真」の値というのも案外「真」ではないのかもしれません。

「いいね!」 2