これらのエラーは、ランダム変数と考えられ、平均λと標準偏差λを持つガウス分布を持つかもしれませんが、平方積分可能なpdf(確率密度関数)を持つ他の分布もうまくいくでしょう。, 私たちは、θを特定の時点での火星から太陽までの正確な距離などの基礎となる物理量と考えたいと思います。 我々の観測量yθは、我々がそれを測定するときに火星から太陽までの距離になり、我々の望遠鏡の誤った校正と大気干渉からの測定ノイズからいくつかのエラーが生じる。,
(スケールしない)
誤差分布の平均θは誤校正から来る永続的なバイアスに対応し、標準偏差θは測定ノイズの量に対応します。 誤差の分布の平均θを正確に知っていて、標準偏差θを推定したいとします。, 私たちは、計算のビットを通して見ることができます:
ここでEはvar(…)は分散です。 三行目の期待値Eの平均を四行目の期待値Eに置き換えることができます。ここで、εはe∞のそれぞれと同じ分布を持つ変数です。e∞は誤差e∞が同じ分布であり、したがってそれらの正方形はすべて同じ期待値を持っているからです。
このと想定していて分かるようになμいます。, つまり、私たちの計測器の永続的なバイアスは、未知のバイアスではなく、既知のバイアスです。 したがって、生のすべての観測からθを減算することによって、このバイアスを正しく修正することもできます。 つまり、誤差がすでに平均λ=0で分布していると仮定することもできます。 これを上記の方程式に差し込み、両側の平方根を取ると、次のようになります。
左側がおなじみのように見えるのに気づく!, 平方根の内側から期待値Eを削除した場合、それはまさに以前のRMSE形式の公式です。 中心極限定理は、nが大きくなるにつれて、量Φ(φ—y φ)2/n=φ(E Φ)2/nの分散はゼロに収束するはずであることを示しています。 実際、中心極限定理のより鋭い形式は、その分散が0に漸近的に1/nのように収束するはずであることを示しています。これは、Π(π—y π)2/nがe=Π2 しかし、RMSEは誤差の分布の標準偏差σの良い推定量です!,
RMSEの平方根の下でnによる除算についても説明する必要があります:ある種の”総誤差”ではなく、典型的な単一の観測に対する誤差の標準偏差σ Nで割ることにより、小さな観測値のコレクションから大きなコレクションに移動するときに、この誤差の尺度が一貫しています(観測値の数を増や 別の言い方をすると、RMSEは質問に答える良い方法です:”私たちのモデルが次の予測にどれくらい遠くにあると予想すべきですか?,”
私たちの議論を要約すると、RMSEは、観測されたデータが次のように分解できると仮定して、モデルの予測から典型的な観測値の標準偏差σを推定したい場合に使用するのに適した尺度です。
ここでのランダムノイズは、モデルがキャプチャしないもの(たとえば、観測値に影響を与える可能性のある未知の変数)である可能性があります。, ノイズが小さい場合、RMSEによって推定されるように、これは一般に、我々のモデルが観測データを予測するのに優れていることを意味し、RMSEが大きい場合、こ
データサイエンスにおけるRMSE:RMSEを使用することの微妙さ
データサイエンスにおいて、RMSEは二重の目的を持っています。
- トレーニングモデルのヒューリスティックとして機能する
- トレーニングモデルの有用性/精度を評価する
これは重要な問題を提起します。RMSEが”小さい”ことはどういう意味ですか?,
何よりもまず、”小さい”はユニットの選択と、私たちが望んでいる特定のアプリケーションに依存することに注意する必要があります。 100インチは建物の設計における大きな誤差ですが、100ナノメートルはそうではありません。 一方、100ナノメートルは、アイスキューブトレイの製造における小さな誤差であるが、おそらく集積回路の製造における大きな誤差である。
トレーニングモデルの場合、トレーニング中に気になるのは、各反復でエラーを減らすのに役立つヒューリスティックを持っていることだけなので、使用している単位は本当に重要ではありません。, エラーの絶対サイズではなく、あるステップから次のステップまでのエラーの相対的なサイズについてのみ気にします。
しかし、データサイエンスで訓練されたモデルを有用性/精度について評価する際には、単位を気にします。 ここでの微妙な点は、RMSEが十分に小さいかどうかを評価することは、与えられたアプリケーションに対してモデルがどれほど正確である必要があるか, それは人間の意図のようなものに依存するので、これのための数式は決してありません(”あなたはこのモデルで何をしようとしていますか?”)、リスク回避(”このモデルが悪い予測をした場合、どのくらいの害が引き起こされるでしょうか?”)などがある。
単位のほかに、別の考慮事項もあります:”小さい”は、使用されているモデルのタイプ、データポイントの数、および精度を評価する前にモデルが通過した, ですが容易な新規に作成してくださいぶん覚えておられると思いますが、問題のでなければなりません。
モデル内のパラメーターの数がデータポイントの数に対して大きい場合は、オーバーフィッティングのリスクがあります。 例えば、我々は予測する一実量をyとしての機能別実数量×当社からの観測(xᵢ,yᵢ)x₁<x₂<x₃…、一般の補間定理ばにある多項式f(x)の学位はn+1f(xᵢ)=yᵢ for i=1,…,n., つまり、モデルを次数n+1多項式として選択した場合、モデルのパラメータ(多項式の係数)を微調整することによって、RMSEを0まで下げることができます。 これは、y値が何であるかにかかわらず真です。 この場合、RMSEは基礎となるモデルの精度について何も教えてくれません:二つの実数量の間に何らかの関係があるかどうかにかかわらず、既存のデータポイントで測定されたRMSE=0を得るためにパラメータを微調整できることが保証されました。,
しかし、パラメータの数がデータポイントの数を超えている場合だけでなく、問題が発生する可能性があります。 たとえば、パラメータの量が極端に過剰でなくても、一般的な数学的原理とデータ上の穏やかな背景仮定は、モデルのパラメータを微調整することによって、RMSEを特定のしきい値以下にすることができる可能性が高いことを保証するかもしれません。 このような状況にある場合、RMSEがこのしきい値を下回っていると、モデルの予測力について何も意味がないかもしれません。,
統計学者のように考えたいのであれば、私たちが求めている質問は”訓練されたモデルのRMSEは小さいですか?”むしろ、”そのような観測セットに対する訓練されたモデルのRMSEが、ランダムな偶然によってこのように小さくなる確率はどれくらいですか?”
これらの種類の質問は少し複雑になります(実際には統計を行う必要があります)が、うまくいけば、”十分に小さいRMSE”の所定のしきい値がない理由