banner
Heim / Nachricht / Daten
Nachricht

Daten

Apr 10, 2023Apr 10, 2023

Scientific Reports Band 13, Artikelnummer: 7517 (2023) Diesen Artikel zitieren

402 Zugriffe

1 Altmetrisch

Details zu den Metriken

Die vollständige Automatisierung der Materialherstellung mit hoher Produktivität ist in manchen Materialverarbeitungsbetrieben ein zentrales Problem. Beim Floating Zone (FZ)-Kristallwachstum, einem Herstellungsprozess für Halbleiterwafer wie Silizium, steuert ein Bediener die Eingabeparameter adaptiv entsprechend dem Zustand des Kristallwachstumsprozesses. Da die Betriebsdynamik des FZ-Kristallwachstums kompliziert ist, ist die Automatisierung oft schwierig und der Prozess wird normalerweise manuell gesteuert. Hier demonstrieren wir die automatisierte Steuerung des FZ-Kristallwachstums durch Verstärkungslernen unter Verwendung der Dynamik, die durch Gaußsche Mischungsmodellierung (GMM) aus einer kleinen Anzahl von Trajektorien vorhergesagt wird. Unsere vorgeschlagene Methode zur Konstruktion des Kontrollmodells ist vollständig datengesteuert. Mithilfe eines Emulatorprogramms für das FZ-Kristallwachstum zeigen wir, dass das von unserem vorgeschlagenen Modell erstellte Steuerungsmodell der idealen Wachstumsbahn genauer folgen kann als durch menschliches Handeln erstellte Demonstrationsbahnen. Darüber hinaus zeigen wir, dass die Richtlinienoptimierung in der Nähe der Demonstrationspfade eine genaue Steuerung nach dem idealen Pfad ermöglicht.

Der Einsatz der Informatik hat es uns ermöglicht, effiziente Optimierungen, Automatisierungen und Fortschritte in der Materialverarbeitung zu realisieren1,2,3,4,5,6,7,8,9. Die Gestaltung von Bedingungen und Umgebungen für die Materialverarbeitung wurde mithilfe von Ersatzmodellen, die von neuronalen Netzen oder anderen Algorithmen des maschinellen Lernens erstellt wurden, effizient optimiert1,2,6,10,11,12,13. Durch die Bayes'sche Optimierung kann die Anzahl der Versuche zur Erlangung günstiger Bedingungen für die Materialverarbeitung erfolgreich reduziert werden14,15,16,17. Andererseits erfordert die Verarbeitung einiger Materialien eine manuelle Steuerung anhand der während des Betriebs gewonnenen Informationen und ist schwer zu automatisieren. Beispielsweise steuert ein Bediener beim Floating-Zone-Kristallwachstum (FZ), das zur Herstellung von Siliziumwafern und verschiedenen Arten von kristallinen Materialien wie Halbleitern, Oxiden, Metallen und intermetallischen Verbindungen verwendet wird, die Eingabeparameter adaptiv, um bevorzugte Bedingungen aufrechtzuerhalten Einkristallwachstum durch Überwachung des Status der Schmelze in der Kammer18,19,20,21,22,23,24,25,26,27,28. In der vorliegenden Studie wollten wir aus einer kleinen Anzahl von Betriebstrajektorien ein Steuerungsmodell für den automatisierten Betrieb des FZ-Kristallwachstums erstellen.

Die FZ-Kristallzüchtung wurde entwickelt, um hochreine Silizium-Einkristalle herzustellen, ohne dass die geschmolzene Zone mit Fremdmaterialien in Berührung kommt. Trotz ihres Vorteils bei der Züchtung hochreiner Kristalle ist die Vergrößerung des Kristalldurchmessers im Vergleich zu anderen Kristallzüchtungstechniken wie der Czochralski-Methode schwierig. Relativ kleine Siliziumwafer werden durch FZ-Kristallwachstum mittels HF-Erwärmung hergestellt. Abbildung 1 zeigt eine schematische Darstellung des FZ-Kristallwachstums. Bei dieser Methode wird ein Teil eines polykristallinen Stabes erhitzt, um eine FZ-Schmelze zu erzeugen, und der obere (Einspeisungs-)Stab und der untere (Keim-)Stab werden nach unten bewegt, um die FZ-Schmelze durch Oberflächenspannung aufrechtzuerhalten; Schließlich wächst der Kristall auf dem Keimstab. Ein Bediener steuert die Eingabeparameter wie Heizleistung und Geschwindigkeit des Förderstabs so, dass sich die FZ-Schmelze nicht trennt oder abtropft. Darüber hinaus muss der Bediener eine bestimmte Form formen, bei der der Kristalldurchmesser zunächst verringert wird (sogenanntes „Necking“) und dann der Durchmesser des Kristalls vergrößert wird, um einen Einkristall zu erhalten. Da die Dynamik des Schmelzzustands in Abhängigkeit von den Eingabeparametern nichtlinear und kompliziert ist, ist es schwierig, den FZ-Kristallwachstumsprozess zu simulieren, wie dies bei anderen Kristallwachstumsmethoden29,30,31,32,33 der Fall war. Daher ist es notwendig, die Dynamik des FZ-Kristallwachstums anhand der Betriebstrajektorien vorherzusagen. Aufgrund der Schwierigkeit, zahlreiche Operationstrajektorien für das FZ-Kristallwachstum zu erfassen, haben wir kürzlich eine Anpassung des Gaußschen Mischungsmodells (GMM) vorgeschlagen, um die Dynamik des FZ-Kristallwachstums vorherzusagen, und gezeigt, dass GMM die Operationstrajektorien aus nur fünf verwendeten Trajektorien präzise vorhersagen kann für die Ausbildung34. In der vorliegenden Studie haben wir ein Kontrollmodell durch verstärktes Lernen unter Verwendung der proximalen Richtlinienoptimierung (PPO) und der von GMM vorhergesagten Dynamik erstellt.

Schematische Darstellung des Kristallwachstums in der Schwebezone. Durch die Heizleistung P entsteht eine Schwebezonenschmelze mit der Höhe h. Eine Zufuhr mit dem Durchmesser d0 und ein Kristall werden mit der Geschwindigkeit v bzw. u0 nach unten bewegt. Dadurch entsteht ein Kristall mit dem Durchmesser d.

Zur Steuerung des FZ-Kristallwachstums mit einer kleinen Anzahl von Demonstrationstrajektorien haben wir Verstärkungslernen durch PPO mit der von GMM vorhergesagten Dynamik angewendet. Hier beschreiben wir, wie ein Kontrollmodell für das FZ-Kristallwachstum erstellt wird, das GMM und PPO basierend auf der Literatur kombiniert. Der Zustand der Schwebezonenschmelze zum Zeitpunkt (t + 1), der sich vermutlich aus der Höhe (h) und dem Durchmesser des gewachsenen Kristalls (d) zusammensetzt und als st+1 = (ht+1, dt) beschrieben wird +1), wird durch den Zustand der Schmelze zum Zeitpunkt t (st) und Eingabeparameter, zu denen beispielsweise die Leistung (P) und die Bewegungsgeschwindigkeit des Vorschubs (v) gehören, bestimmt und beschrieben als bei = ( Pt, vt).

f steht für die wahre Dynamik des FZ-Kristallwachstums. Sobald das GMM aus den Demonstrationstrajektorien konstruiert ist, kann der Zustand der Schmelze zum Zeitpunkt (t + 1) anhand des Zustands der Schmelze und der Eingabeparameter zum Zeitpunkt t vorhergesagt werden:

Der Zirkumflex (^) stellt dar, dass der Wert vorhergesagt wird, und \({\varvec{f}}_{{{\varvec{GMM}}}}\) steht für ein von GMM trainiertes Dynamikmodell. Die Einzelheiten des GMM-Trainings sind in Ref. beschrieben. 34. In PPO funktioniert die parametrisierte Richtlinienfunktion \(\pi_{{{\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{a}}_{{\ varvec{t}}} {|}{\varvec{s}}_{{\varvec{t}}} } \right)\) mit Parametervektor \({\varvec{\theta}}_{{\varvec {p}}}\), das Eingabewerte at aus dem aktuellen Zustand xt als Wahrscheinlichkeitsverteilung generiert, wird iterativ unter Verwendung eines abgeschnittenen Ersatzziels \(L^{CLIP} \left( {{\varvec{\theta}} optimiert. _{{\varvec{p}}} } \right)\) anstelle eines Richtliniengradienten35,36,37.

\(\in\) ist ein Hyperparameter, der einen abgeschnittenen Bereich bestimmt. \(A\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right)\) ist der Die Vorteilsfunktion wird wie folgt beschrieben:

wobei \(Q\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right)\) ist die Zustands-Aktionswertfunktion und \(V\left( {{\varvec{s}}_{{\varvec{t}}} } \right)\) ist die Zustandswertfunktion. Hier stellen wir ungefähr \(Q\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right) dar \) wie folgt:

wobei \(R_{t} \left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right) \) und γ sind die Belohnungsfunktion bzw. der Abzinsungsfaktor. Die Advantage-Funktion stellt dar, ob die Aktion, bei der der Eingabewert \({\varvec{a}}_{{\varvec{t}}}\) unter dem als \({\varvec{s}} beschriebenen Schmelzzustand festgelegt wird. _{{\varvec{t}}}\) ist vorzuziehen. Wenn die Aktion vorzuziehen ist, nimmt die Vorteilsfunktion einen positiven Wert an und die Richtlinie wird aktualisiert, um das Wahrscheinlichkeitsverhältnis \(r_{t} \left( {{\varvec{\theta}}_{{\varvec{p}) zu erhöhen. }} } \right)\) durch Maximieren des Ersatzziels. Andererseits nimmt die Vorteilsfunktion einen negativen Wert an und die Richtlinie wird aktualisiert, um das Wahrscheinlichkeitsverhältnis zu verringern, wenn die Aktion nicht wünschenswert ist. Unter den Bedingungen, dass die Richtlinie und Dynamik gegeben sind, werden Zustandssequenzen als Wahrscheinlichkeitsverteilung generiert und eine Zustandswertfunktion kann berechnet werden:

wobei T die Länge der Trajektorien ist und der Erwartungswert über die Wahrscheinlichkeitsverteilung der Zustandssequenzen berechnet wird. Bei PPO wird die Zustandswertfunktion aus den Trainingsdaten vorhergesagt, ohne dass eine Richtlinie zugewiesen werden muss. Somit ist die vorhergesagte Zustandswertfunktion parametrisiert mit \({\varvec{\theta}}_{{\varvec{v}}}\) \(\left( {\hat{V}_{{{\varvec{ \theta}}_{{\varvec{v}}} }} \left( {{\varvec{s}}_{{\varvec{t}}} } \right)} \right)\) wird mit optimiert der Quadratfehlerverlust \(L^{VF} \left( {{\varvec{\theta}}_{{\varvec{v}}} } \right)\);

Sobald die Zustandswertfunktion vorhergesagt ist, wird die Aktionswertfunktion \(\left( {\hat{Q}\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec {a}}_{{\varvec{t}}} } \right)} \right)\) und die Vorteilsfunktion \(\left( {\hat{A}_{t} } \right)\) sind auch durch Gl. vorhergesagt. (6) bzw. (5). Zusätzlich zum abgeschnittenen Ersatzziel und dem Fehler der Zustandswertfunktion wird ein Entropiebonus hinzugefügt, um eine ausreichende Erkundung sicherzustellen, und das folgende Ziel wird für jede Iteration in PPO38 maximiert:

wobei c1 und c2 Gewichte sind. Das Maximieren von \(L^{CLIP} \left( {{\varvec{\theta}}_{{\varvec{p}}} } \right)\) bedeutet den Erwerb der optimierten Richtlinie \(\pi_{{\varvec {\theta}}_{{\varvec{p}}} }} \left( {{\varvec{a}}_{{\varvec{t}}} {|}{\varvec{s}}_{ {\varvec{t}}} } \right)\), wie in Gl. (3) und (4). Die Minimierung von \(L^{VF} \left( {{\varvec{\theta}}_{{\varvec{v}}} } \right)\) bedeutet, dass die Zustandswertfunktion vorhergesagt wird, ohne eine Richtlinie als anzunehmen beschrieben in Gl. (8). Maximierung von \(S\left[ {\pi_{{{\varvec{\theta}}_{{\varvec{p}}} }} } \right]\left( {{\varvec{s}}_{{ \varvec{t}}} } \right)\) ist eine Entropie der Politik, die ein Regularisierungsbegriff für das Training ist. In PPO wird \({\varvec{\theta}}_{{\varvec{p}}} ,\user2{ \theta }_{{\varvec{v}}}\) in jeder Iteration gleichzeitig optimiert. Obwohl LCLIP von \({\varvec{\theta}}_{{\varvec{v}}}\) über \(A\left( {{\varvec{s}}_{{\varvec{t}} } ,{\varvec{a}}_{{\varvec{t}}} } \right)\) und LVF hängt von \({\varvec{\theta}}_{{\varvec{p}}}\ ) über \(V_{\pi } \left( {{\varvec{s}}_{{\varvec{t}}} } \right)\), im iterativen Optimierungsprozess, \({\varvec{\ theta}}_{{\varvec{v}}}\) in LCLIP und \({\varvec{\theta}}_{{\varvec{p}}}\) in LVF werden als konstante Werte betrachtet und nicht optimiert , und die Werte des vorherigen Schritts werden angewendet.

Um die Richtlinie zu optimieren, ist es notwendig, die Dynamik zur Berechnung der Zustandswertfunktion durch Gl. (7). In unserem Algorithmus wurde die GMM-Dynamik zur Berechnung der Zustandswertfunktion verwendet. Somit ist der Algorithmus vollständig datengesteuert und ohne jegliche Simulationen, was sich von anderen Methoden wie dem „Sim-to-Real“-Ansatz39,40 unterscheidet. Allerdings kann die GMM-Dynamik die tatsächliche Dynamik nur in der Nähe der Trainingstrajektorien zuverlässig vorhersagen. Daher haben wir eine Methode zur Optimierung der Richtlinie in der Nähe der Trainingstrajektorien vorgeschlagen, bei der die GMM-Dynamik die tatsächliche Dynamik zuverlässig vorhersagt und eine Richtlinie erhält, die auf das tatsächliche FZ-Kristallwachstum übertragen werden kann. Um den Richtlinienraum in der Nähe der Trainingsverläufe zu durchsuchen, führten wir zunächst ein Vortraining durch, um die Richtlinie näher an die Trainingsverläufe heranzuführen. Zweitens haben wir den Fehler aus den gemittelten Aktionssequenzen zusätzlich zum Fehler aus der idealen Trajektorie im Durchmesser \(\left( {d_{t}^{ideal} } \right)\) in die Belohnungsfunktion eingeführt. Die in unserem vorgeschlagenen Algorithmus verwendete Belohnungsfunktion lautet wie folgt:

\(\overline{{{\varvec{a}}_{{\varvec{t}}}^{\user2{*}} }}\) und \(\lambda\) bezeichnen die gemittelten Aktionssequenzen von Trainingstrajektorien und ein Gewicht.

Um die automatisierte Steuerung des FZ-Kristallwachstums durch den Algorithmus unter Verwendung von PPO mit GMM-Dynamik zu validieren, haben wir Datensätze für das Training vorbereitet (\(D = \left\{ {\left( {{\varvec{s}}_{{\varvec{ t}}}^{\user2{*}} ,{\varvec{a}}_{{\varvec{t}}}^{\user2{*}} } \right)_{1} ,\left( {{\varvec{s}}_{{\varvec{t}}}^{\user2{*}} ,{\varvec{a}}_{{\varvec{t}}}^{\user2{* }} } \right)_{2} , \ldots ,\left( {{\varvec{s}}_{{\varvec{t}}}^{\user2{*}} ,{\varvec{a} }_{{\varvec{t}}}^{\user2{*}} } \right)_{N} } \right\}\), wobei N die Anzahl der Trainingsdatensätze ist) mithilfe eines Emulatorprogramms für das FZ-Kristallwachstum mit einem gegebenen Dynamiksatz34. Wir haben 12 Datensätze vorbereitet, um eine ideale Kristallform (\left( {d_{t}^{ideal} } \right)\) zu erstellen, wie in Abb. 2a unter Berücksichtigung des Einschnürungsprozesses für das Einkristallwachstum dargestellt. Abbildung 2b–d zeigt die vorbereiteten Datensätze, mit denen die ideale Form erstellt werden soll. Die Flugbahnen unterschieden sich voneinander und folgten nicht perfekt der Idealform, da sie manuell erstellt wurden.

(a) Eine ideale Trajektorie für den Durchmesser des Kristalls, (b) Trajektorien des Durchmessers für das Training und (c, d) Betriebstrajektorien der Kraft und Bewegungsgeschwindigkeit des Vorschubs.

Vor dem Verstärkungslernen haben wir ein datengesteuertes Vorhersagemodell für das FZ-Kristallwachstum durch GMM erstellt, wie wir zuvor berichtet haben . Die Anzahl der Gaußschen Mischungen, die ein Hyperparameter von GMM sind, wurde auf 50 festgelegt. Da die Vorhersage der Dynamik durch GMM nur in der Nähe der Trainingstrajektorien zuverlässig ist, ist die Genauigkeit der Vorhersage deutlich schlechter, wenn die Trajektorien stark davon abweichen die ideale Flugbahn, wie im Abschnitt „Ergebnisse und Diskussion“ besprochen, insbesondere mit der detaillierten Darstellung von Abb. 4. Wenn wir mit der Optimierung mit der zufälligen Standardrichtlinie beginnen, werden die von GMM generierten Zustandssequenzen weit von den tatsächlichen Zustandssequenzen entfernt sein und nicht die in Abb. 2a gezeigte ideale Flugbahn erreichen. Daher haben wir vor der Optimierung der Richtlinie durch PPO ein Vortraining anhand der Trainingsverläufe durchgeführt. Im Vortraining wurde die Richtlinie so trainiert, dass sie näher an die gemittelten Aktionssequenzen der Trainingstrajektorien herankommt. Die folgende Verlustfunktion wird im Vortraining minimiert:

wobei σ und \(\hat{\user2{\mu }}_{{{\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{s}}_ {{\varvec{t}}} } \right)\) stellen den Varianzparameter und die vorhergesagten Durchschnittswerte der Eingabewerte unter dem Zustand \({\varvec{s}}_{{\varvec{t}}}^ dar {\user2{*}}\) in einer Trainingstrajektorie. \(\hat{\user2{\mu }}_{{{\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{s}}_{{\ varvec{t}}} } \right)\) und \(\hat{V}_{{{\varvec{\theta}}_{{\varvec{v}}} }} \left( {{\varvec {s}}_{{\varvec{t}}} } \right)\) werden durch neuronale Netze modelliert. Die Anzahl, die Knotennummer und die Aktivierungsfunktion der verborgenen Schichten sind 2, 64 bzw. Tangens hyperbolicus (tanh). Als Aktivierungsfunktion der Ausgabeschicht des Richtliniennetzwerks wird eine Sigmoidfunktion verwendet, und die Ausgabeschicht der Netzwerke der Zustandswertfunktion hat keine Aktivierungsfunktion. Mit Ausnahme der Ausgabeschichten haben beide Netzwerke dieselben Gewichtungswerte. Das Training der neuronalen Netze wurde nach der Adam-Methode mit einer Lernrate von 1 × 10–5 und einer Stapelgröße von 12841 durchgeführt. Die probabilistische Richtlinie wurde durch \(\hat{\user2{\mu }}_{{ {\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{s}}_{{\varvec{t}}} } \right)\) und Varianzparameter .

Der detaillierte Algorithmus zum Vortraining der Richtlinie und der Zustandswertfunktion ist in Algorithmus 1 dargestellt. Nach dem Vortraining der Richtlinie wurde die Richtlinie durch PPO optimiert und gleichzeitig das in Gleichung gezeigte Ziel maximiert. (8). Die für das Vortraining und das Training durch PPO verwendeten Hyperparameter sind in Tabelle 1 zusammengefasst. Unser Programm zu PPO für die FZ-Kristallwachstumsbahn ist auf GitHub42 hochgeladen.

Abbildung 3 zeigt die Ergebnisse der automatisierten Steuerung durch die trainierte Richtlinie mit unserem vorgeschlagenen Algorithmus. Beachten Sie, dass das Training der Richtlinie anhand der von GMM nur anhand der Trainingsverläufe vorhergesagten Dynamik durchgeführt wurde. Die erhaltene Flugbahn folgt hinsichtlich des Durchmessers gut der idealen Flugbahn. Tabelle 2 fasst den mittleren quadratischen Fehler (MSE) der idealen Flugbahn im Durchmesser d für die Steuerung durch PPO und durch Menschen (Trainingsflugbahnen) zusammen. Die Abweichung von der idealen Flugbahn ist bei der Kontrolle durch PPO geringer als bei der menschlichen Kontrolle. Wir haben aus mehreren Trainingstrajektorien erfolgreich einen Steueralgorithmus für das FZ-Kristallwachstum mit einer definierten Idealform konstruiert.

Trajektorie des Durchmessers, der durch das mit unserem vorgeschlagenen Algorithmus trainierte Kontrollmodell erzeugt wird.

Eine Vorschulung der Police vor dem PPO ist von entscheidender Bedeutung. Ohne Vorschulung schreitet das Erlernen der Politik überhaupt nicht voran. Abbildung 4 zeigt die Entwicklung des gemittelten absoluten Fehlers von der idealen Flugbahn im Durchmesser d während des Trainings, beginnend nach dem Vortraining und mit zufällig festgelegten Anfangswerten. Durch das Vortraining wurde die Richtlinie gut trainiert und der Fehler nahm mit zunehmender Iteration ab und erreichte eine Sättigung. Andererseits nahm der Fehler von der idealen Flugbahn mit zunehmender Iteration ohne Vortraining nie ab. Darüber hinaus war der Fehler der GMM-Dynamik von der wahren Dynamik entlang der generierten Flugbahn ohne Vortraining durchweg höher als nach dem Vortraining. Diese Ergebnisse deuten darauf hin, dass der Richtlinienraum nach dem Vortraining angemessen mit GMM-Dynamik und hoher Genauigkeit durchsucht wurde.

(a) Mittlerer absoluter Fehler (MAE) von der idealen Flugbahn und (b) MAE der GMM-Dynamik entlang der generierten Flugbahn während des Trainings mit und ohne Vortraining.

Das Design der Belohnungsfunktion, bei dem zusätzlich zum Fehler der idealen Flugbahn auch der Fehler aus den gemittelten Aktionssequenzen hinzugefügt wird, ist für die Richtlinienoptimierung ebenfalls wichtig. Ohne den zweiten Term in Gl. (11) ist die Abweichung von der idealen Flugbahn größer als unsere in Gleichung gezeigte vorgeschlagene Belohnung. (11), insbesondere um t = 400 und t > 600 (Abb. 5a). In diesen Zeiträumen beträgt der Fehler der GMM-Dynamik für die durch die Belohnung erzeugte Flugbahn ohne den zweiten Term in Gl. (11) ist höher als die für die durch unsere Belohnungsfunktion erzeugte Flugbahn (Abb. 5b). Diese Ergebnisse zeigen, dass das Hinzufügen des zweiten Termes in Gl. (11) erreicht erfolgreich eine Optimierung der Richtlinie mit der GMM-Dynamik mit hoher Genauigkeit durch die richtige Einstellung der Belohnungsfunktion.

(a) Absolute Fehler der idealen Flugbahn und (b) absolute Fehler der GMM-Dynamik entlang der Flugbahn, die mit und ohne den zweiten Term in Gleichung erzeugt wird. (11) in der Belohnungsfunktion.

Die aktuelle Demonstration zeigt, dass mit unserer vorgeschlagenen Methode eine automatisierte Steuerung des FZ-Kristallwachstums anhand einer kleinen Anzahl von Demonstrationstrajektorien möglich ist. Da unsere Methoden die Richtlinie auf der Grundlage der von GMM vorhergesagten Dynamik bestimmen, ist es erforderlich, die generierte Flugbahn während der Richtlinienoptimierung näher an die Demonstrationsflugbahn heranzuführen. Durch das Vortraining der Richtlinie und die richtige Gestaltung der Belohnungsfunktion wird eine Optimierung der Richtlinie durch die GMM-Dynamik innerhalb zuverlässiger Vorhersagemargen erfolgreich erreicht. Unsere vorgeschlagene Methode kann auf andere Materialprozesse angewendet werden, die eine adaptive Steuerung entsprechend dem Prozessstatus erfordern. Obwohl die vorliegende Demonstration auf Daten basierte, die von einem Emulatorprogramm erhalten wurden, wird unsere vorgeschlagene Methodik mit dem tatsächlichen FZ-Kristallwachstum funktionieren.

Wir haben ein Kontrollmodell für das FZ-Kristallwachstum durch Verstärkungslernen unter Verwendung von PPO mit durch GMM vorhergesagter Dynamik erstellt. Unsere vorgeschlagene Methode ist vollständig datengesteuert und kann das Kontrollmodell aus nur einer kleinen Anzahl von Demonstrationstrajektorien erstellen. Wir haben unsere Methode durch ein virtuelles Experiment mit dem Emulatorprogramm für das FZ-Kristallwachstum verifiziert. Als Ergebnis zeigte sich, dass das Steuerungsmodell bei der Verfolgung einer idealen Flugbahn im Schmelzdurchmesser genauer arbeitet als die durch menschliche Bedienung erstellten Demonstrationsflugbahnen. Da unsere Methoden die Richtlinie auf der Grundlage der von GMM vorhergesagten Dynamik bestimmen, ist es erforderlich, die generierte Flugbahn während der Richtlinienoptimierung näher an die Demonstrationsflugbahn heranzuführen. Durch das Vortraining der Richtlinie in der Nähe von Trainingstrajektorien und die richtige Gestaltung der Belohnungsfunktion konnte eine Optimierung der Richtlinie durch die GMM-Dynamik innerhalb zuverlässiger Vorhersagemargen erfolgreich erreicht werden. Unsere vorgeschlagene Methode wird zur Automatisierung der Materialverarbeitung führen, bei der ein adaptiver Betrieb erforderlich ist, und dazu beitragen, eine hohe Produktivität in der Materialherstellung zu erreichen. Es wird erwartet, dass der eigentliche FZ-Kristallwachstumsprozess anhand einer kleinen Anzahl von Demonstrationsbahnen, die von Menschen durchgeführt werden, automatisiert werden kann.

Die Daten, die die Ergebnisse dieser Studie stützen, sind auf begründete Anfrage beim entsprechenden Autor, SH, erhältlich.

Tsunooka, Y. et al. Hochgeschwindigkeitsvorhersage der numerischen Strömungssimulation beim Kristallwachstum. CrystEngComm 20, 47 (2018).

Artikel Google Scholar

Dropka, N. & Holena, M. Optimierung der magnetisch angetriebenen gerichteten Erstarrung von Silizium mithilfe künstlicher neuronaler Netze und Gaußscher Prozessmodelle. J. Cryst. Wachstum 471, 53–61 (2017).

Artikel ADS CAS Google Scholar

Wang, L. et al. Optimale Kontrolle des SiC-Kristallwachstums im RF-TSSG-System durch Verstärkungslernen. Kristalle (Basel) 10, 791 (2020).

Artikel CAS Google Scholar

Takehara, Y., Sekimoto, A., Okano, Y., Ujihara, T. & Dost, S. Bayesianische Optimierung für eine hohe und gleichmäßige Kristallwachstumsrate im Top-Seed-Lösungswachstumsprozess von Siliziumkarbid unter angelegter Magnetik Feld- und Saatfolge. J. Cryst. Wachstum 532, 125437 (2020).

Artikel CAS Google Scholar

Wang, C., Tan, XP, Tor, SB & Lim, CS Maschinelles Lernen in der additiven Fertigung: Stand der Technik und Perspektiven. Zusatz. Hersteller 36, 101538 (2020).

Google Scholar

Yu, W. et al. Geometrischer Entwurf eines Kristallwachstumssystems, gesteuert durch einen Algorithmus für maschinelles Lernen. CrystEngComm 23, 2695–2702 (2021).

Artikel CAS Google Scholar

Kawata, A., Murayama, K., Sumitani, S. & Harada, S. Entwurf eines automatischen Erkennungsalgorithmus für Versetzungskontraste in Doppelbrechungsbildern von SiC-Wafern. Jpn. J. Appl. Physik. 60, SBBD06 (2021).

Artikel Google Scholar

Harada, S., Tsujimori, K. & Matsushita, Y. Automatische Erkennung von Basalebenenversetzungen in einem 150-mm-SiC-Epitaxiewafer durch Photolumineszenzbildgebung und Template-Matching-Algorithmus. J. Electron. Mater. 52, 1243–1248 (2022).

Google Scholar

Tsujimori, K., Hirotani, J. & Harada, S. Anwendung der Bayes'schen Superauflösung auf spektroskopische Daten zur präzisen Charakterisierung der spektralen Peakform. J. Electron. Mater. 51, 712–717 (2022).

Artikel ADS CAS Google Scholar

Dropka, N., Holena, M., Ecklebe, S., Frank-Rotsch, C. & Winkler, J. Schnelle Vorhersage des VGF-Kristallwachstumsprozesses durch dynamische neuronale Netze. J. Cryst. Wachstum 521, 9–14 (2019).

Artikel ADS CAS Google Scholar

Dang, Y. et al. Adaptive Prozesssteuerung für das Kristallwachstum unter Verwendung von maschinellem Lernen für Hochgeschwindigkeitsvorhersagen: Anwendung auf das Wachstum von SiC-Lösungen. CrystEngComm 23, 1982–1990 (2021).

Artikel CAS Google Scholar

Isono, M. et al. Optimierung der Strömungsverteilung durch topologische Beschreibung und maschinelles Lernen beim Lösungswachstum von SiC. Adv. Theorie Simul. 5, 202200302 (2022).

Artikel Google Scholar

Honda, T. et al. Virtuelle Experimente durch Deep Learning an greifbaren Materialien. Komm. Mater. 2, 1–8 (2021).

Artikel Google Scholar

Shimizu, R., Kobayashi, S., Watanabe, Y., Ando, ​​Y. & Hitosugi, T. Autonome Materialsynthese durch maschinelles Lernen und Robotik. APL Mater. 8, 111110 (2020).

Artikel ADS CAS Google Scholar

Miyagawa, S., Gotoh, K., Kutsukake, K., Kurokawa, Y. & Usami, N. Anwendung der Bayes'schen Optimierung für eine verbesserte Passivierungsleistung in TiOx/SiOy/c-Si-Heterostrukturen durch Wasserstoffplasmabehandlung. Appl. Physik. Express 14, 025503 (2021).

Artikel ADS CAS Google Scholar

Osada, K. et al. Adaptive Bayes'sche Optimierung für das epitaktische Wachstum von Si-Dünnfilmen unter verschiedenen Randbedingungen. Mater. Heute Komm. 25, 101538 (2020).

Artikel CAS Google Scholar

Wakabayashi, YK et al. Durch maschinelles Lernen unterstütztes Dünnschichtwachstum: Bayesianische Optimierung in der Molekularstrahlepitaxie von SrRuO3-Dünnschichten. APL Mater. 7, 101114 (2019).

Artikel ADS Google Scholar

Campbell, TA, Schweizer, M., Dold, P., Cröll, A. & Benz, KW Floatzonenwachstum und Charakterisierung von Ge1−xSix (x ⩽10 Atom-%)-Einkristallen. J. Cryst. Wachstum 226, 231–239 (2001).

Artikel ADS CAS Google Scholar

Calverley, A. & Lever, RF Das Schmelzen von Refraktärmetallen in der Schwebezone durch Elektronenbeschuss. J. Sci. Instrument. 34, 142 (1957).

Artikel ADS CAS Google Scholar

Inui, H., Oh, MH, Nakamura, A. & Yamaguchi, M. Zugverformung von polysynthetisch verzwillingten (PST) Kristallen von TiAl bei Raumtemperatur. Acta Metall. Mater. 40, 3095–3104 (1992).

Artikel CAS Google Scholar

Hirano, T. & Mawari, T. Unidirektionale Erstarrung von Ni3Al durch eine Floating-Zone-Methode. Acta Metall. Mater. 41, 1783–1789 (1993).

Artikel CAS Google Scholar

Balbashov, AM & Egorov, SK Vorrichtung zum Züchten von Einkristallen aus Oxidverbindungen durch Schwebezonenschmelzen mit Strahlungserwärmung. J. Cryst. Wachstum 52, 498–504 (1981).

Artikel ADS CAS Google Scholar

Koohpayeh, SM, Fort, D. & Abell, JS Die optische Floating-Zone-Technik: Ein Überblick über experimentelle Verfahren unter besonderer Berücksichtigung von Oxiden. Prog. Kristall. Wachstumscharakter. Mater. 54, 121–137 (2008).

Artikel CAS Google Scholar

Harada, S. et al. Übergang von inkohärenter zu kohärenter Wärmeleitung in natürlichen Titanoxid-Volumenübergittern. Scr. Mater. 208, 114326 (2022).

Artikel CAS Google Scholar

Christensen, AN Das Kristallwachstum der Übergangsmetallverbindungen TiC, TiN und ZrN durch eine Floating-Zone-Technik. J. Cryst. Wachstum 33, 99–104 (1976).

Artikel ADS CAS Google Scholar

Nørlund Christensen, A. Kristallwachstum und Charakterisierung der Übergangsmetallsilizide MoSi2 und WSi2. J. Cryst. Wachstum 129, 266–268 (1993).

Artikel ADS Google Scholar

Harada, S. et al. Verfeinerung der Kristallstruktur von ReSi1.75 mit einer geordneten Anordnung von Silizium-Leerstellen. Philos. Mag. 91, 3108–3127 (2011).

Artikel ADS CAS Google Scholar

Harada, S. et al. Direkte Beobachtung von Leerstellen und lokalen thermischen Schwingungen in thermoelektrischem Rheniumsilizid. Appl. Physik. Express 5, 035203 (2012).

Artikel ADS Google Scholar

Muiznieks, A., Virbulis, J., Lüdge, A., Riemann, H. & Werner, N. Floating Zone Growth of Silicon. im Handbook of Crystal Growth: Bulk Crystal Growth: Second Edition vol. 2 241–279 (Elsevier, 2015).

Derby, JJ & Brown, RA Thermokapillaranalyse des Czochralski- und flüssigkeitsverkapselten Czochralski-Kristallwachstums: I. Simulation. J. Cryst. Wachstum 74, 605–624 (1986).

Artikel ADS CAS Google Scholar

Meziere, J. et al. Modellierung und Simulation von SiC-CVD im horizontalen Heißwandreaktorkonzept. J. Cryst. Wachstum 267, 436–451 (2004).

Artikel ADS CAS Google Scholar

Karpov, SJu., Makarov, Yu. N. & Ramm, MS Simulation des Sublimationswachstums von SiC-Einkristallen. Physica Status Solidi (b) 202, 201–220 (2001).

3.0.CO;2-T" data-track-action="article reference" href="https://doi.org/10.1002%2F1521-3951%28199707%29202%3A1%3C201%3A%3AAID-PSSB201%3E3.0.CO%3B2-T" aria-label="Article reference 32" data-doi="10.1002/1521-3951(199707)202:13.0.CO;2-T">Artikel ADS Google Scholar

Dang, Y. et al. Numerische Untersuchung der Verdampfung gelöster Stoffe beim Kristallwachstum aus Lösung: Eine Fallstudie zum SiC-Wachstum mit der TSSG-Methode. J. Cryst. Wachstum 579, 126448 (2022).

Artikel CAS Google Scholar

Omae, R., Sumitani, S., Tosa, Y. & Harada, S. Vorhersage der Betriebsdynamik beim Kristallwachstum in der Schwebezone mithilfe des Gaußschen Mischungsmodells. Wissenschaft. Technol. Adv. Mater. Methoden 2, 294–301 (2022).

Google Scholar

Schulman, J., Wolski, F., Dhariwal, P., Radford, A. & Openai, OK Proximale Richtlinienoptimierungsalgorithmen. https://doi.org/10.48550/archiv.1707.06347 (2017).

Schulman, J., Levine, S., Abbeel, P., Jordan, M. & Moritz, P. Optimierung der Trust-Regionspolitik. Proz. Mach. Lernen. Empf. 37, 1889–1897 (2015).

Google Scholar

Sutton, RS, McAllester, D., Singh, S. & Mansour, Y. Richtliniengradientenmethoden für verstärktes Lernen mit Funktionsnäherung. Adv. Neuronale Inf. Verfahren. Syst. 12, 447 (1999).

Google Scholar

Mnih, V. et al. Asynchrone Methoden für Deep Reinforcement Learning. 33. Internationale Konferenz zum maschinellen Lernen, ICML 2016 4, 2850–2869 (2016).

Christiano, P. et al. Transfer von der Simulation in die reale Welt durch Erlernen eines tiefgreifenden inversen Dynamikmodells. https://doi.org/10.48550/arxiv.1610.03518 (2016).

Peng, XB, Andrychowicz, M., Zaremba, W. & Abbeel, P. Sim-to-Real-Übertragung der Robotersteuerung mit Dynamik-Randomisierung. Proz. IEEE Int. Konf. Roboter. Autom. https://doi.org/10.1109/ICRA.2018.8460528 (2017).

Artikel Google Scholar

Kingma, DP & Ba, JL Adam: Eine Methode zur stochastischen Optimierung. 3. Internationale Konferenz über lernende Repräsentationen, ICLR 2015 – Conference Track Proceedings (2014) doi:https://doi.org/10.48550/arxiv.1412.6980.

https://github.com/AnamorResearch/fz_rl

Referenzen herunterladen

Dieses Papier wurde von JSPS KAKENHI Grant Number JP21H01681 unterstützt. Die Autoren danken Herrn Okuno und seinen Kollegen von Sanko Co. Ltd. für die fruchtbaren Diskussionen über die Anwendung tatsächlicher FZ-Kristallwachstumsöfen.

Anamorphosis Networks, 50 Higashionmaeda-Cho, Nishishichijo, Shimogyo-Ku, Kyoto, 600-8898, Japan

Yusuke Tosa, Ryo Omae, Ryohei Matsumoto und Shogo Sumitani

Zentrum für integrierte Forschung zukünftiger Elektronik (CIRFE), Institut für Materialien und Systeme für Nachhaltigkeit (IMaSS), Universität Nagoya, Furo-Cho, Chikusa-Ku, Nagoya, 464-8601, Japan

Shunta Harada

Abteilung für Werkstoffverfahrenstechnik, Universität Nagoya, Furo-Cho, Chikusa-Ku, Nagoya, 464-8603, Japan

Shunta Harada

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

SH und SS konzipierten die Grundidee und die Anwendung auf den Materialprozess. YT erstellte unter Anleitung von SS mit Unterstützung von RO und in kontinuierlicher Diskussion mit allen Autoren Algorithmen und Programme für die Analyse. Das Manuskript wurde von SH und YT in Absprache mit allen anderen Autoren verfasst.

Korrespondenz mit Shunta Harada.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Tosa, Y., Omae, R., Matsumoto, R. et al. Datengesteuerter automatisierter Steueralgorithmus für das Wachstum von Floating-Zone-Kristallen, abgeleitet durch Verstärkungslernen. Sci Rep 13, 7517 (2023). https://doi.org/10.1038/s41598-023-34732-5

Zitat herunterladen

Eingegangen: 07. März 2023

Angenommen: 06. Mai 2023

Veröffentlicht: 09. Mai 2023

DOI: https://doi.org/10.1038/s41598-023-34732-5

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.