Basics Editor's Desk Reviews

Measurement uncertainties and accurate assessment in the laboratory – basics and implementation

Today Aris is once again writing as head of Cybenetics and refers (not only) to the measurements and evaluations of power supply units. But his comments can certainly be generalized, because the principle is usually the same everywhere. We still know Fritz Hunter’s explanations of the fan tests at the time and today there is an interesting addition and an important distinction between errors and uncertainty. But now it’s better to read Aris himself, because it’s quite complex reading material and therefore suitable weekend reading (the article was published in original on hwbusters.com):

What is a measurement?

Our lab performs measurements on a wide variety of products throughout the day, from GPUs and CPUs to power supplies and fans. But before we delve deeper into today’s topic, let’s clarify some basic questions. A measurement is a recorded property of an object. For example, the efficiency of a power supply under certain conditions is a measurement, as is the voltage of the 12V rail, which is measured with a multimeter. To carry out a measurement, you need a measuring instrument, such as a multimeter or a thermometer. A measurement always consists of two parts: a numerical value and the corresponding unit. For example, a temperature of 28 degrees Celsius can be measured or a power of 120 watts.

What is measurement uncertainty and how can it be expressed?

With every measurement, there is a certain amount of uncertainty regarding the result. How can I know that a particular laboratory will deliver precise measurements? Can I be sure that the thermometer I am using will give accurate readings? Even in state-of-the-art laboratories, such as those used by NASA, there is always some uncertainty as to whether a measurement result is 100% accurate. This uncertainty is called measurement uncertainty. Since every measurement is subject to a certain amount of uncertainty, this uncertainty must be quantified. Two values can describe the uncertainty:

  • Interval: The range in which the actual value lies with a high probability.
  • Confidence level: The probability with which the true value lies within the specified interval.

An example to illustrate this:

Assume a power supply has an efficiency of 90% at 50% load with a measurement uncertainty of ±0.1% and a confidence level of 95%. This is indicated as follows:

90 % ±0.1 % with a confidence level of 95 %.

This means that we can assume with 95% probability that the actual efficiency is between 89.9% and 90.1%.

Types of measurement uncertainty

There are two methods for determining measurement uncertainty:

  • Type A: Based on statistical analysis.
  • Type B: Based on additional available information, such as calibration certificates or manufacturer specifications.

 

What is the difference between error and uncertainty?

These two terms are fundamentally different, so it is useful to explain them in more detail.

  • Error refers to the deviation between a measured value and the actual, true value. This deviation can be caused by measurement errors or technical limitations. Errors can be divided into two categories:
    • Systematic errors, which are constant and predictable, for example due to incorrect calibration of a measuring device.
    • Random errors, which are unpredictable and inconsistent, for example due to noise or environmental influences.
  • Uncertainty, on the other hand, describes the degree of doubt about a measurement result, i.e. how certain or uncertain we are about the value determined.

To summarize: Uncertainty indicates the range in which the true value probably lies, while error describes the actual difference between the measured and true value.

Errors can be corrected by calibrating measuring devices and optimizing measurement procedures. However, if the source of the error is unknown, for example when using an uncalibrated device, it is not possible to determine how far the measurement result is from the true value. Without this information, the measurement uncertainty cannot be calculated correctly. Therefore, it is necessary in every laboratory to use calibrated measuring devices to provide reliable uncertainty information.

Accuracy vs. uncertainty

Accuracy describes how close a measured value is to the true or generally accepted value. Uncertainty, on the other hand, indicates the variability of a measurement result, i.e. how much it could deviate from reality. While accuracy describes the correctness of a measurement, uncertainty refers to its reliability and confidence interval.

Multiple measurements for more precise results?

The well-known saying “Measure twice, cut once” describes the principle of carrying out a measurement several times in order to avoid errors. The same applies to scientific and technical measurements. In practice, three to five measurements are often taken to ensure that they are within a consistent range. If one value deviates significantly from the others, it can be identified as erroneous and excluded. For multiple measurements, two statistical tools are used:

  • Arithmetic mean: this is the average of all measured values, calculated by the sum of the values divided by their number. Example: The arithmetic mean of 2, 4 and 6 is (2 4 6) / 3 = 4. The more measured values there are, the more precise the mean is, although the benefit of additional measurements decreases over time.
  • Standard deviation: This indicates the extent to which the individual measured values scatter around the average.

Deviation of the measurement results

It can be frustrating when repeated measurements of an identical object give different results. However, these deviations are useful for quantifying the measurement uncertainty. A large variation indicates a high uncertainty, while a low variation indicates a more accurate measurement. A simple comparison between the highest and lowest value is often not sufficient. Instead, the standard deviation (SD) is used to evaluate the spread. A low SD means that the values are close to the average value, while a high SD indicates large fluctuations.

A rule of thumb is that about 68% of all measured values fall within one standard deviation of the mean, while 95% fall within two standard deviations. The exact standard deviation requires a very large amount of data, which is rarely available in practice. Instead, the estimated standard deviation (s) is used, which is calculated with a limited number of measured values.

Distribution pattern

Measured values are not always evenly distributed. In many cases, they follow a normal or Gaussian distribution, where most values are close to the mean and only a few are very different. If, on the other hand, the values are evenly distributed between the highest and lowest values, this is referred to as a uniform or rectangular distribution. There are other types of distribution, but a detailed look at these is beyond the scope of this article.

Kommentar

Lade neue Kommentare

RedF

Urgestein

5,354 Kommentare 3,178 Likes

Wenn man täglich mit sowas arbeitet, vergisst man schnell das es kein allgemein wissen ist.

Gut so etwas mal aufzugreifen. : )

Antwort 6 Likes

LurkingInShadows

Urgestein

1,467 Kommentare 630 Likes

Das ignorieren einzelner Werte beinhaltet aber auch ein Risiko. In Italien ist deswegen schon ein Damm eingestürzt und hat ein Dorf begraben/weggespült.
Da waren iirc 5 Messpunkte und nur einer richtig, also tief genug, im Boden...

Edit: Standardabweichung mit Bsp. erklärt

Edit2: National Geographic Doku

Antwort 1 Like

H
HerrFornit

Mitglied

90 Kommentare 41 Likes

Seh wichtig ist der Hinweis auf die Verteilung der Messwerte, die man oft nicht (genau) kennt.

Besonder wichtig ist, dass die Verteilung der Fehler oft unbekannt ist. Eine Angabe eines Fehlerintervalls um einen Messwert dann also nur die Spannbreite des wahren Wertes und nicht die Verteilungsdichte um den Messwert angibt.

Antwort 3 Likes

e
eastcoast_pete

Urgestein

2,406 Kommentare 1,576 Likes

Eines der Probleme ist auch, daß viele Leute es einfach nicht verstehen, daß bei einer Angabe von Labor Messwerten ohne jede Information zu S.D. oder S.E.M bzw auch ohne Konfidenzintervalle eigentlich schon die Alarmglocken klingeln sollten. Stattdessen wird das dann auch noch als Zeichen angesehen, daß der Wert ganz sicher genau so ist.

Antwort 6 Likes

Igor Wallossek

1

11,996 Kommentare 23,626 Likes

Ist ja aus'm Labor :D

Wenn ich Wärmeleitpaste messe, dann nutze ich für jede einzelne Schichtstärke jeweils einen Schwellwert von 0.25 K (min), der bestimmt, ab welcher Änderung der thermischen Impedanz oder Temperatur ein Signal überhaupt als relevant betrachtet wird, um kleinere Fluktuationen oder Rauschen zu ignorieren und nur signifikante thermische Übergänge zu erfassen. Mit einer Window Size von 100 lege ich fest, über wie viele aufeinanderfolgende Datenpunkte eine Mittelung oder Glättung erfolgt, um Messrauschen zu reduzieren und eine stabilere Auswertung der thermischen Impedanz zu ermöglichen.

Und ich warte stets erste einmal 2 Sekunden beim Erreichen der Median-Temperatur von 60°C, bevor die bewertete Messung startet. Das stellt sicher, dass sich das System thermisch stabilisiert hat, bevor relevante Daten erfasst werden. Insbesondere bei der Messung von Wärmeleitpasten, die eine gewisse Zeit zur gleichmäßigen Verteilung oder Anpassung benötigen, kann eine angemessene Wait Time entscheidend für die Reproduzierbarkeit der Ergebnisse sein.

Antwort 5 Likes

ApolloX

Urgestein

1,763 Kommentare 1,011 Likes

Ja, find ich nen guten kurzen Artikel. An einer Stelle würd ich leicht widersprechen, oder zumindest zur Vorsicht mahnen: Aris schreibt, dass wir in vielen Fällen Normalverteilung haben, wo dann diese Daumenregln der 68% / 99,X% innerhalb 1, 2 oder 3 Standardabwichungen liegen.
Ich würd sagen, wir idealisieren und in vielen Fällen die Welt und nehmen Normalverteilung an.

Bei Körpermesswerten (Beinlänge, Kopfumfang usw.) gilt das. Bei technischen Parametern (CPU Temp in TS, max. erreichbarer VRAM Takt) nehmen wir das nur an und häufig passt es als Näherung. Ein gutes Beispiel, wo keine Normalverteilung vorliegt sind Blickdaten, Fixationsdauern auf das Navigationsdisplay im Auto - hier liegt die Verteilungskurve sehr nahe der Null links der Kurve, aber rechts haben wir einige ganz wilde Ausreisser (rechtsschiefe Verteilung).

Aris und Igor haben da sicher keine schlechte Erfahrung mit technischen Tests, aber oft sind die Datenbasen auch nur recht gering bei irgendwelchen Messungen. Wenn man z.B. Datenbanken für Körpergrößen erstellt, wird schon mal eine fünfstellige Zahl an Personen gemessen.

Antwort 5 Likes

Igor Wallossek

1

11,996 Kommentare 23,626 Likes

Um die Bulk-Wärmeleitfähigkeit von Pampe zu ermitteln, werden insgesamt einzelne 1.700 Datenpunkte ausgewertet, beim Aufbläh-Test sind es schon 4.000 bis 24.000 und bei meiner Leistungsaufnahmemessung sind es dann 60.000. Daten sind willig :D

Bei den Benchmarks nutze ich für den Leistungsindex normalisierte Werte für jedes einzelne Spiel. Die FPS-Zahlen aller Spiele zu kumulieren und für ein arithmetisches Mittel nutzen ist einfach, aber falsch. Ich nutze stattdessen GeoMean und wirklich den aufwendigen Wert der Einzel-Normalisierung als Datenbasis für den Gesamt-Index. Letzterer ist sogar noch realitätsbezogener als das statistisch schon akzeptable GeoMean. Manchmal verschieben sich die Positionen dann um einen Platz, aber nie mehr. Und das auch nur selten.

Antwort 4 Likes

e
eastcoast_pete

Urgestein

2,406 Kommentare 1,576 Likes

Die "Normalverteilung" von Messwerten (Gausssche Glockenkurve) ist, wie Du auch beschreibst, in der Technik wie in der Natur eher eine idealisierte Ausnahme als die Regel.

Vorschlag: die von Dir beschriebene allgemeine Vorgehensweise zur Auswertung von Daten als Anhang durch einen Link zu "Weitere Informationen" oder "Materials and Methods" zu jedem Test/Artikel, in dem das zur Anwendung kam, hinzufügen; da sich hier am Prinzip nicht viel ändern sollte, würde sich der Schreibaufwand dafür in engen Grenzen halten. So kann jeder, der es wissen will, nachlesen, wie die Daten nicht nur ermittelt, sondern auch ausgewertet wurden.
Gerade methodologische Sorgfalt und Details trennen die Influenzer Spreu IMHO klar vom Weizen (zB Deine und Aris' Artikel).

Antwort 1 Like

e
eastcoast_pete

Urgestein

2,406 Kommentare 1,576 Likes

Wobei man in technischen Messreihen auch wissen will, wie reproduzierbar die Werte für einzelne Messpunkte sind bzw waren. Dazu kommt, daß es zB bei Messungen von PSUs leider technisch und finanziell schlecht möglich ist, mehrere Exemplare von jeder einzelnen PSU durchzumessen, um mögliche Variationen Abweichungen innerhalb eines Modells zu minimieren. Ein Test dazu (Streuung innerhalb der gleichen PSU) wär allerdings in der Tat sehr interessant!

Hier müssen wir uns meistens leider darauf verlassen, daß die gemessenen Daten für ein Probeexemplar tatsächlich representativ für ein PSU Modell ist.

Bei medizinischen Daten wie der statistischen Verteilung von Körpergrößen oder auch Blutdruckwerten muss man, wie Du auch schreibst, sehr viele individuelle Daten benutzen, um etwaiges Sample Bias zu minimieren, und um die echte Verteilung in der Bevölkerung insgesamt zumindest annähend widerspiegeln zu können. Wobei gerade in der Medizin sehr verlässliche Daten lebenswichtig sind oder sein können.

Antwort 2 Likes

Martin Gut

Urgestein

8,830 Kommentare 4,335 Likes

Habt ihr schon einmal einen Geologischen Bericht gelesen. Da wird erst beschreiben, wie und wo der Boden sondiert wurde. Dann steht, in welcher Tiefe man welche Schichten Bodenmaterial gefunden hat (Humus, Lehm, Kies, Fels). Dann wird beschrieben, welche statischen Werte solches Bodenmaterial ungefähr hat. Bei jedem Wert (Bodendruckfestigkeit, Dichte, Gleitwinkel, innere Festigkeit) ist ein grober Bereich angegeben, in dem die Werte ungefähr liegen könnten. Also zum Beispiel 2 bis 5 N/cm2 Druckfestigkeit. Dazwischen wird aber immer wieder betont, dass das nur in diesem Bereich so sondiert wurde, dass die Werte nicht stimmen müssen und dass das nichts darüber aussagt, wie der Boden an anderen Orten aufgebaut ist. Bei so viel schwammigen Formulierungen wird einem ganz schlecht.

Für eine Berechnung kann man sich dann irgend welche Werte aus dem Bericht aussuchen. Lieber man nimmt die schlechteren, dann ist man eher auf der sicheren Seite.

Wenn es beim Bau dann anders aussieht als nach der Sondierung angenommen, dann gibt es meist Mehrkosten.

Antwort 1 Like

ApolloX

Urgestein

1,763 Kommentare 1,011 Likes

Zugegeben, ich würde "ahnungslos" jetzt beim Netzteil auch wenig Streuung vermuten - Aris würd mich da vermutlich auf den Mund hauen.
Bei CPU/GPU wissen wir aber bereits, dass es die Chiplotterie gibt und zudem es auch diese Pressesamples gibt. Gut, Igor ist da eher weniger verdächtig, weil er diese ja meist nicht bekommt, aber dennoch haben irgendwelche Teste solche, gerne die Jubel-Youtuber. Und deren hurraschreienden Einzeltests von Zeugs, welches vorher vorselektiert wurde, ist natürlich dann oft deutlich zu positiv.

Antwort 1 Like

LurkingInShadows

Urgestein

1,467 Kommentare 630 Likes

Und weniger schwammig würden diese Kosten auf den Geologen fallen. So ähnlich wie Katzen in der Mikrowelle.

Antwort Gefällt mir

Martin Gut

Urgestein

8,830 Kommentare 4,335 Likes

Ja. Es ist ja schon richtig, nur das zu schreiben, was man sicher weiss. Das ist nun mal die wissenschaftliche Methode. Bei der Geologie ist das leider oft recht wenig.

Antwort Gefällt mir

LurkingInShadows

Urgestein

1,467 Kommentare 630 Likes

Und selbst das ist nur eine Momentaufnahme, siehe Setzungrisse nach 40 Jahren....

Antwort Gefällt mir

e
eastcoast_pete

Urgestein

2,406 Kommentare 1,576 Likes

Im Amerikanischen Englisch heißt das so schön "CMA" - cover my ass, bzw CYA - cover your ass. Wobei in den USA ja noch viel schneller zu rechtlichen Schritten gegriffen wird.

Antwort Gefällt mir

Igor Wallossek

1

11,996 Kommentare 23,626 Likes

Genau deshalb mache ich auch keine langwierigen Alterungstests. Da reichen schon minimale Nuancen bei der Mischung, um eine gehörige Drift zu erzeugen. Man kann das wirklich nur mehr oder weniger unverbindlich abschätzen, wobei ich den Weg der Ausschlussmethode wähle. Ich schreibe also nicht, dass z.B. eine Paste lange haltbar ist, sondern suche nach Merkmalen, dass dem vielleicht nicht so sein könnte. Man kann relativ sicher anhand bestimmter Eigenschaften darauf schließen, dass etwas nicht halten wird. Doch ich kann den Pasten, die sich diesbezüglich unauffällig verhalten, keinen Persilschein ausstellen. Deshalb werde ich mich über den Begriff einer Schätzung nie hinausbewegen. Das wäre unehrlich.

Antwort Gefällt mir

M
Mudsee

Mitglied

67 Kommentare 32 Likes

Nun beim Bau mit den bodensonden ist es auch so ne Sache...z.b. auf einem Grundstück von 1000 m² wieviel macht man da so? denn die kosten ja geld und wenn es z.b. 10 Stück sind und im raster verteilt bleibt viel offenes Gelände übrig denn ein wasserlauf kann nur 30cm breit sein. Denn zu treffen ist da schon ein wenig schwierig. Daher ist das nur eine Sondierung um z.b planen zu können wie tief müssen z.b Stützen in den Boden rein usw. Das Große aha kommt dann erst beim Bauaushub.
Und wenn die aber sagen der Boden ist naja man sollte wenn gebaut ist es besser gründen sollte man auf sie hören...hier gibt es eine Ecke mit Buckelpiste und straßenabsenkung von 20 cm +

Aber ja jedes Messgerät hat eine Toleranz. Waagen, Refaktometer, Massband usw.
Und das hast auch bei jeden anderen Produkt wie Kleber usw.
Und ja in vielen Berreichen wird der "nennwert" nur angezeigt bzw geschrieben. Weil es Einfacher für die meisten Leute ist es zu verstehen.

Es ist aber schön so was mal wieder zu lesen und das vermittelt wird wie so Messergebnisse zustande kommen. Und was so am ende an Arbeit dahinter steht, das dann im Text die 12V schiene hat 12,03V dasteht.
Vielen Dank dafür.

Antwort 1 Like

Klicke zum Ausklappem
_
_roman_

Veteran

180 Kommentare 57 Likes

Standardabweichung wie nett

Antwort Gefällt mir

R
RazielNoir

Urgestein

603 Kommentare 287 Likes

Noch schöner wird die ganze Sache, wenn man sich die Frage stellen (muss): Beeinflusst der Messvorgang an sich bereits den eigentlichen "wahren" Wert. Stichwort Superposition bzw. das immerwieder zitierte Beispiel von Schrödingers Katze.
In dem Bereich, wo hier gemessen wird, spielt das sicher keine Rolle, im der Teilchenphysik allerdings schon.

Danke für den Beitrag, war interessant zu lesen.

Antwort 1 Like

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Dr. Aristeidis Bitziopoulos

Chief Test Engineer at Cybenetics LTD

Ph.D. in Wireless Sensor Networks
Bachelor in Computer Science and Electronics
Telecommunications Engineer Degree

Werbung

Werbung