NVidia Kalt erwischt: Führen SMT-Probleme und kalte Lötstellen zu den Ausfällen bei Nvidias GeForce RTX 2080 Ti FE?

Igor Wallossek

Format©
Mitarbeiter
Mitglied seit
Jun 1, 2018
Beiträge
10.198
Bewertungspunkte
18.814
Punkte
114
Alter
59
Standort
Labor
Nachdem anfangs zunächst die Speichermodule im Fokus des Interesses standen (auch in meinem), um die mysteriösen Ausfälle insbesondere der Nvidia GeForce RTX 2080 Ti Founders Edition zu erklären, verdichten sich nunmehr Informationen, die auf die wahrscheinlichere Ursache der Probleme hindeuten. So haben wir bereits sehr ausführlich im Forum diskutiert, wo es unter anderem auch um mögliche Lötprobleme ging. Ein sehr interessanter Forenpost brachte mich am Schluss dazu, noch einmal gezielter bei einigen Herstellern bzw. Platinenfertigern nachzuhaken und meinen Quellen auf die Nerven zu gehen. ...


>>> Originalartikel lesen <<<
 
Zuletzt bearbeitet :
Zunächst mal großes Lob an Igor für seine gründlichen Nachforschungen bzw. Recherchen.

Dann war meine Vermutung in dem Forum von dem anderen Artikel vielleicht doch richtig, dass es wieder ein Problem mit den Lötstellen sein könnte. So ganz genau habe ich das damals nicht verfolgt, aber bei der 8000er Serie gab es auch ein Problem mit den Lötstellen. Manche Karten konnten damals angeblich gerettet werden, indem sie im Backofen einmal kräftig erhitzt wurden.

Was ich mich jetzt nur frage ist: Ist das jetzt das gleiche Problem wie damals?
 
was man grundsätzlich verstehen muß - die Solder Balls sind vor dem verlöten auf die PCB nicht zu 100% luftdicht - weshalb Chips unter Schutzatmospähre gelagert werden.

Wenn dann beim Verarbeitungsprozess kein richtiger hermetischer Abschluß zu stande kommt - dann kann weiterhin Luft und Luftfeuchtigkeit in den Chip eindringen, was durch Temperaturänderungen begünstigt wird - und zu Korrosion innerhalb des Chips führen kann - das erklärt auch das langsame absterben. Chips werden ja nicht in Epoxyd gegossen weil es schick aussieht, sondern um diese vor äußeren Einflüssen zu schützen, da die Dinger recht empfindlich sind.

Also grundsätzlich - ich sage ausdrücklich nicht, das es hier der Fall war - da ich mir die BGAs nicht im Detail anschauen konnte.
 
Bleifreies Lot ist eh etwas problematischer in der Handhabung. Im Reflow-Automaten müssen die Temperaturen wirklich exakt eingehalten werden und das Lot muss in der Zusammensetzung perfekt sein. Normalerweise wird beides penibel in gewissen Intervallen überprüft. Ich kenne Firmen, die lagern die benötigten Vorräte an Komponenten und Platinen für einen oder mehrere Tage entweder im gleichen Raum (Puffer) oder zumindest bei identischen Temperaturen. Mal einfach eben so etwas aus dem kühleren oder heißeren Lager zu holen, bringt u.U. schon Temperaturabweichungen, die man so nicht haben möchte.

Dezor:
Damals ist man gerade auf bleifreies Lot umgestiegen und hatte den Prozess ganz offensichtlich nicht im Griff. Es kommt aber fast aufs Gleiche raus.
 
Müsste so etwas in einer ordentlichen Qualitätssicherung nicht auffallen?
 
dafür brauchst Du eine recht aufwändige Röntgenkontrolle in Verbindung mit einer AOI (Automatische Optische Inspektion) - sowas wird nicht für alle Produkte gemacht - sondern nur für Stichproben.

Und man muß unterscheiden - alles was Kleinstbauteile, also SMT betrifft - da ist in den Reflow- / Bestückungsprozess normalerweise schon eine AOI eingebaut - schon weil sich so viel ausschuß heute keiner mehr leisten will - aber was die Bestückung mit Chips angeht - das kann ja keiner sehen.
Beispielbild:
index.jpg
- egal ob das jetzt ein eMMC ist - die ganzen kleinen Kügelchen werden mit der Platine verbunden - der Abstand zwischen Chip und platine ist dann am Ende ca. 0,25 mm - das kannst Du nur mit einem Röntgengerät durch den Chip durch prüfen... Und wenn Dir jetzt klar ist, das so ein Ball nur 0,5 mm groß ist - dann hast Du eine Idee wie schwierig es ist, eine solche Röntgenaufnahme wirklich zuverlässig auszuwerten.
 
Zuletzt bearbeitet :
Aber wenn sie Dauerbelastungstests machen, dann fällt doch so ein Fehler spätestens nach ein paar Tagen auf oder?
Jeder Autoreifen oder Fußball wird stundenlang getestet.
 
das ist doch genau der Punkt - natürlich haben die vor release ne handvoll karten praktisch zu tode gestresst - aber in der Massenfertigung kannst Du nicht alle Karten bis ans Limit treiben...

Wenn jetzt die Vorserienmuster das Verhalten nicht gezeigt haben und in den ersten Chargen erschwerend einer geschlampt hätte - dann ist es fast unmöglich den Unterschied zwischen regulärer Ausschußquote und einer schlechten ersten Charge - in der statt der üblichen 2 dann 10-20% Sterben über eine Stichprobe sicher zu verifizieren - schon gar nicht wenn Dir ein dick angekündigter Launch terminlich im Nacken hängt...

Das soll ganz sicher nichts entschuldigen - aber ich möchte einfach mal versuchen klar zu machen, mit welchen Anforderungen die Branche da kämpft...
 
das ist doch genau der Punkt ...

Das soll ganz sicher nichts entschuldigen - aber ich möchte einfach mal versuchen klar zu machen, mit welchen Anforderungen die Branche da kämpft...

Hinzu kommt ja auch noch, daß NV keine eigene Fertigung hat sondern fertigen läßt. Je länger die Kette ist, um so länger dauert es die ganze Sache auf zu dröseln, wenn es irgendwo klemmt. Und TSMC hat ja noch andere Verpflichtungen, sind ja nicht NV-exclusive.

Für mich einer der Gründe warum ich bei Netzteilen ganz zu stark Seasonic tendiere. Die designen nicht nur ihre eigenen NTs, sondern fertigen sie auch. Ähnliches gilt für SSDs und Samsung - einer der Gründe warum sie son ne starke Position erreichen konnten.
 
Angangs gab es gerüchte, dass verschiedene TU102 aus Taiwan und andere aus Korea kommen würden. Wäre interessant mal zu prüfen von wo die Defekten kommen.
 
Das dürfte beides ASE sein und am Ende ist es für den Reflow-Prozess eigentlich auch egal, da es offensichtlich nur Foxconn betrifft. Denke ich zumindest. :)
 
Bin noch skeptisch.
Ich weiß jetzt aber nicht sicher in welcher Form NVidia die Chips ausliefert an die Partner,... löten die selber?
 
Chip -> Packaging -> Factory -> Reflow

Foxconn ist Nvidias OEM, genau dort werden die Packages ja auch auf die Referenzplatinen geschrubbt.
 
Aber wenn sie Dauerbelastungstests machen, dann fällt doch so ein Fehler spätestens nach ein paar Tagen auf oder?
Jeder Autoreifen oder Fußball wird stundenlang getestet.


du bist aber herrlich naiv...
Ich glaube nicht das du 500€ für nen Fußball ausgeben würdest, nur weil der "Stundenlang" getestet wurde.
Auch Autoreifen werden lediglich geröngt, das ist nix stundenlang. Die Preise die dadurch entstehen könnte keiner bezahlen.
Da wird allenfalls Stichprobenmäßig alle paar 1000 Reifen einer rausgepickt und näher begutachtet und auch das sicherlich nicht stundenlang :p
 
Bin noch skeptisch.
Ich weiß jetzt aber nicht sicher in welcher Form NVidia die Chips ausliefert an die Partner,... löten die selber?

Die Partner bekommen normal nur den Chipsatz und lassen die Platinen anhand der Referenzvorlage fertigen, einige machen aber auch ihr eigenes Layout bzw. verändern die Referenz. Das ein Hersteller mit fertigen Platinen beliefert wird ist heutzutage wohl eher die Ausnahmen, denke ich zumindest.
 
Ist der Fehler jetzt zwischen die und substrat (wie bei 8600, wo daher das ganze reballing nix gebracht hat, auf dauer), oder zwischen substrat und grafikkarten pcb? Weil ersteres würde ja alle betreffen?
Das bild sieht mir eher wie ersteres aus
Ok, steht ja im artikel
 
Zuletzt bearbeitet :
Hab jetzt mal die quelle angeschaut. Der "Span" ist ja nur zwischen Substrat und diesem Rahmen, der bei der Ti um den Die ist (zum Schutz?). Das hat jetzt nicht wirklich was mit lötproblemen zu tun?
Das bild ist ja kein cut, sondern die seitenansicht auf das endprodukt
 
Ich habe den Text nach Rücksprache mit Herstellern schon längst angepasst, das war nur wenige Minuten nach der (zuerst unbeabsichtigten) Veröffentlichung und der Artikel noch im Entwurfdmodus geöffnet. Deshalb auch keiner der obligatorischen Update-Hinweise. Ich hatte dummerweise statt Speichern auf Veröffentlichen geklickt und dann auch den Cache nicht gelöscht. :D

Es sind hier zwei Dinge, denn die unsaubere Arbeit (bei der EVGA-Karte im Foto) kommt wohl eher aus der Package-Factory, das SMT-Issue passiert hingegen im Werk bei der Platinenfertigung.
 
Ok. Quasi alle platinen im referenzdesign kommen aber vom gleichen fertiger, oder?
 
Heißt das also, dass zb MSI, Asus und co nicht bei Foxconn diese Lötungen vornehmen?
 
Oben Unten