GPUs Graphics Latest news

Graphics card problems at EVGA despite firmware update – marketing vs. technical common sense

Disclaimer: The following article is machine translated from the original German, and has not been edited or checked for errors. Thank you for understanding!

Real measured values in the memory module

Interestingly, Micron was completely silent on the NVIDIA-exclusive GDDR6(X) for now, as even the “Device Thermal Information” included with the GDDR6 documentation annoyingly still ends at GDDR5. On inquiries among colleagues e.g. from the R&D departments it was unanimously said that the maximum temperature Ttot before the beginning of a possible destruction of the chip should be at 120 °C and Tjunction is probably specified at 105 °C for the GDDR6 or even at 110 °C for the GDDR6X as maximum value. But first let’s have a look at the thermal scheme of such a GDDR6X module, because I can’t spare you a little bit of theory at this point. Interesting at first is PT, i.e. maximum “power” Ptot, which is supplied as electric energy and also almost completely given off again as heat (see red arrow).

That should be around 2.5 to 3 watts per module, which doesn’t sound like much at first, but due to the small structure width and heat density (density) it is quite a house number, especially if the board underneath is already quite hot. Because even though the memory module may look quite large as a package: the chip itself is rather tiny. You just need a lot of space for all the ports and besides, you’d like to stay backwards compatible:

Source: Micron

At the same point TJ, i.e. Tjunction now comes into play. Maximum chip temperature and maximum power dissipation are therefore directly related here. This is also exactly the value that e.g. AMD also outputs as memory temperature in the sensor loop. I asked AMD at that time and found out that it is not an average value of all modules, but the absolute peak value, i.e. Tjunction of the hottest module of a card. Important are also the values PB marked with the other two red arrows, so as Pboardthe power dissipated through the board and PC, which stands for the dissipated heat Pcase through the top of the case (package).

In addition, there are all occurring thermal resistances of the individual layers and the combination of related layers as a directional value upwards and through the board downwards, as well as the temperatures of the environment (air) TA or Tair at the top and bottom, whereby both can also deviate if cooling is carried out on one side. I already wrote that you can only indirectly consult the temperatures measured NEXT to such a memory module on the board when it comes to the temperatures INSIDE. The temperatures of the GDDR6X memory can be read out directly and NVIDIA’s firmware even presents the cleanly calculated hotspot value on a silver plate. All this is much more accurate than a randomly placed outside measuring resistor and, above all, even happens in real time!

Voltage regulator temperatures

Now of course I want to get lost in technical details, which would probably bore most people anyway, but we have to dive a little bit for a better understanding. But don’t worry, it remains understandable enough. So let’s get straight to the all-important voltage transformers! The so-called DCR (Direct Current Resistance) is the basis for calculating temperatures and currents. But how does the controller find out exactly which currents flow in which control loop and which temperatures prevail? Monitoring can be different, because there are – who is surprised – different methods for it. There you often read something about the so-called Smart Power Stages (SPS) and the so-called MOSFET DCR. And right now it’s getting interesting again!

The picture below shows the typical layout with the intelligent SPS, which provide for each individual control loop with IMON the value for the current and with TMON the exact temperature value, which is so urgently needed for exact monitoring. How the SPS determine this value? The drain currents of the MOSFETS are measured in real time and these values are also extremely accurate (in the example above 5 μA/A signal), the temperatures are handled by digital thermal sensors inside.

So we see here that a measurement outside on the board with simple measuring resistors can never be done in real time and certainly not accurate enough.

So what’s the point of ICX?

From a marketing point of view, the question is obvious, because you don’t want to give up your cherished unique selling propositions (which really used to be unique), even if it doesn’t make any sense from a technical point of view. Because since Turing, NVIDIA also allows an asymmetrical fan control subject to different factors, which is also based on the values determined in real time for the GPU (including Tjunction), the memory and the voltage converters. This cannot be technically solved any better with a proprietary solution based on board measuring points. On the contrary, you will mait significantly worse in the meantime.

If then a (presumably) faulty board layout causes a MCU to be destroyed (overvoltage?) and already outputs the most absurd values in the drift range, then such a superfluous solution simply has no place on such an expensive board. It’s like an appendix. No one needs him and yet he only flies out when he causes problems. Reason enough for EVGA to bury this relic. There are now enough sensor values that you could display in the EVGA software and do justice to the RGB kiddie universe. From a technical point of view, nobody really needs all that anymore.

And in the end, it’s like a car: what’s not in it in the first place can’t break down!

 

Kommentar

Lade neue Kommentare

P
Phelan

Veteran

197 Kommentare 173 Likes

Ja eigentlich unverständlich. Zumal wir ja hier nicht von 200€ OEM Karten reden wo jeder Cent wichtig ist..

Marketing versteht blos 2 Sachen.

1. Wenns die Leute nicht kaufen
2. Wenn ihn die QS hohe Reklamationsquoten um die Ohren haut.

Also von anderen Herstellern kaufen oder
Die Karten ganz normal benutzen und bei hochdrehenden lüfter nicht "retten" oder Rücksicht darauf nehmen sondern normal weiter Spielen.
Die defekte Karte dann reklamieren.

Eigentlich sind die Amoklaufenden Lüfter ansich eine Rekla-Grund.

Antwort Gefällt mir

konkretor

Veteran

306 Kommentare 314 Likes

Hut ab für denjenigen der so ne Kostbarkeit wie aktuell ne Graka um den halben Globus verschickt. Nicht ganz ohne Risiko.

Igor aufpassen nicht das sie dir noch mit einem Arbeitsvertrag drohen bei deinen Lösungen.

Wenn ich Brasilien höre muss ich immer an die Tante denken die dort ne Plantage hatte. Kam immer mit dem Bananen Flieger, da günstiger wie mit dem normalen Flugzeug.

Antwort Gefällt mir

Martin Gut

Urgestein

7,850 Kommentare 3,627 Likes

Es ist leider oft so, dass die ersten die eine fortschrittliche Lösung erarbeiten dann auf dem erreichten Stand stehen bleiben. Eine halbwegs brauchbare Lösung wird mit allen Mitteln beibehalten solange es möglich ist.

Andere die später einsteigen erarbeiten eine bessere Lösung nach den aktuellen technischen Möglichkeiten und überholen so die Pioniere von vorher.

So wundert man sich beispielsweise dass momentan die grössten Solaranlagen in China, Afrika und sogar in arabischen Ländern die genug Erdöl hätten gebaut werden. Bei uns in Europa wird dagegen praktisch nichts mehr gebaut.

Antwort 3 Likes

e
eastcoast_pete

Urgestein

1,558 Kommentare 885 Likes

Wenn EVGAs Marketing Leute in Sachen thermales Management eine echte Differenzierung zur Konkurrenz suchen, könnten sie es z.B. versuchen, ihre Karten mit hochwertigen Fuji Poly Pads und anderen höherwertigen Kühllösungen auszustatten. Andere Hersteller machen das wohl zur Zeit nicht, und zumindest einige potentielle Käufer fänden sowas daher interessant - ich zum Beispiel. Arg viel teurer als die Sensoren, die sie am besten weglassen würden, wird das auch nicht sein.

Antwort Gefällt mir

D
Deridex

Urgestein

2,218 Kommentare 851 Likes

Wenn ich richtig das richtig gesehen habe und n Igor seine Bilder korrekt sind, werden hier an einem Spannungsteiler mit einem Temperaturabhängigen Widerstand analoge Spannungswerte erzeugt, welche die Temperatur wiedergeben. Und das auf einer Karte auf der >300W Leistung geschalten werden. Wenn das wirklich so ist, wundern mich die Spitzen bei den Messwerten recht wenig. Allerdings ist das nach wie vor eine Vermutung, die nur auf den Bildern vom Igor basiert.

Antwort Gefällt mir

wild

Mitglied

25 Kommentare 3 Likes

vielen dank für die klare analyse. weiter so!

(y)

Antwort 1 Like

z
zeutan

Mitglied

32 Kommentare 3 Likes

Ja, das ist tatsächlich so: die Einheiten sind andere, die Mathematik bleibt.
Schön zusammen gefasst unter:

Antwort Gefällt mir

ssj3rd

Veteran

220 Kommentare 155 Likes

Welche 3090 Custom gilt den zur Zeit als die leiseste? Die TUF?
Werde wohl doch von meiner FE wechseln die ab 60 Grad teilweise völlig außer Rand und Band gerät, die Lautstärke ist dann ohrenbetäubend von den Lüftern…

Evga ist für mich nach vielen Artikeln hier absolut tot und Geschichte.

Antwort Gefällt mir

p
pedi

Veteran

268 Kommentare 73 Likes

ist kein wunder, dass dich EVGA aus dem verteiler geschmissen hat, so wie du in letzter zeit gegen EVGA feuerst.
alle anderen hersteller sind perfekt und natürlich fehlerfrei, ist ja logisch.
nein, ich habe keine EVGA karte, sondern eine 60,-€ Nvidia GeForce GT 710.

Antwort Gefällt mir

Igor Wallossek

1

10,301 Kommentare 19,091 Likes

Andere bekommen auch Kritik, siehe MSI und die Pads. Im Übrigen besteht das auf Gegenseitigkeit, da ich seinerzeit Bedingungen wie Netzteiltests mit Schönfinden als Voraussetzung für ein Sampling abgelehnt habe. Das nur mal am Rande. So etwas hat noch nie ein anderer Hersteller versucht. 😁

Antwort 6 Likes

v
vonXanten

Urgestein

803 Kommentare 335 Likes

Das ganze Verhalten von EVGA spricht für sich, da ist das fernhalten kritischer Stimmen nur die konsequente Fortführung der Strategie...
Problem bei EVGA scheint meiner Meinung nach zu sein, dass alles was sie nicht selber sagen nicht sein kann. Die Kritik von Igor war sachlich und fachlich sehr gut, damit muss man ebenso emotionslos umgehen (können) und es als Chance nutzen.

Das mit der Vorabtausch Garantie ist ein weiterer Punkt. Da kann mir keiner erzählen, dass dies Vollkommen toll und gut ist (~doppelter Preis des Onlineshops als Kaution). Da kann ich es verstehen es öffentlich zu machen, es wurde ja schon genug ausgewalzt.

Bei EVGA scheint im Moment einiges schief zu laufen, vorallem wenn man Premium bedienen will aber nur Holzklasse abliefert.

Und sachlich und (fast) emotionslos zu bleiben ist heutzutage extrem selten, die meisten fühlen sich dann erst recht persönlich angegriffen und versuchen ihre Meinung als den Heiligen Gral zu verkaufen...

Hoffe Igor macht weiter so, ist einfach erfrischend so schön trocken sachlich und nicht schöngefärbt.

Antwort Gefällt mir

FUSION5

Veteran

138 Kommentare 42 Likes

Danke Igor! Wie immer top!

Solche Infos hätte ich gerne letztes Jahr in den Reviews gefunden, dann wäre meine Kaufentscheidung anders ausgefallen.

Die nächste Karte wird jedenfalls keine EVGA.

Antwort Gefällt mir

FUSION5

Veteran

138 Kommentare 42 Likes

Ich glaube auf Seite 3 hat sich noch ein kleiner Fehler eingeschlichen:

Antwort Gefällt mir

B
Ben Dover

Mitglied

13 Kommentare 10 Likes

I'm amazed at how well the machine translation to English works, especially when (as appears to be the case here) you avoid figurative phrases in the German original. Clear in ==> clear out :) . Remarkable.

And BTW thanks for such a good article on the EVGA tech. One reason I preferred them was for their monitoring; now I know that they simply haven't kept up.

Antwort 2 Likes

B
Besterino

Urgestein

6,817 Kommentare 3,395 Likes

deepl.com is an amazing translation service german/english and vice versa. Use it even for work (pro version though).

Antwort 1 Like

ipat66

Urgestein

1,372 Kommentare 1,373 Likes

EVGA nennt Ursache für defekte GeForce RTX 3090

Mängel beim Löten der MOSFETs

Antwort 1 Like

konkretor

Veteran

306 Kommentare 314 Likes

@Igor Wallossek

Also ich habe jetzt alle deine Artikel dazu gelesen und bin da deiner Meinung, wieso hauen die jetzt so etwas raus?

Antwort Gefällt mir

B
Besterino

Urgestein

6,817 Kommentare 3,395 Likes

gibt zwei Möglichkeiten: EVGA‘s Meldung stimmt oder nicht. „Vereinzelte Produktionsfehler“ sieht schon besser aus als grundsätzliche Designfehler. Genau werden wir das wohl nie erfahren, ein Indiz für mich wird die nächste Generation sein, falls da dann das zusätzliche Sensorengelumpe nicht mehr da ist oder merklich anders umgesetzt wurde. :D

Antwort 3 Likes

v
vonXanten

Urgestein

803 Kommentare 335 Likes

Das hört sich an wie "was nicht sein kann, darf auch nicht sein!" Grenzt an Ketzerei das andere sich erdreisten eine Fehleranalyse zu machen.
Und ein Rauschen was sich provozieren lässt und nicht nur an und ab auftritt?

wie @Besterino schon sagt, spätestens mit der nächsten Gen wird sich zeigen ob da etwas geändert wurde.

Antwort Gefällt mir

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Editor-in-chief and name-giver of igor'sLAB as the content successor of Tom's Hardware Germany, whose license was returned in June 2019 in order to better meet the qualitative demands of web content and challenges of new media such as YouTube with its own channel.

Computer nerd since 1983, audio freak since 1979 and pretty much open to anything with a plug or battery for over 50 years.

Follow Igor:
YouTube Facebook Instagram Twitter

Werbung

Werbung