Categories: AI

by Sally Bo Hatter

Share

by Sally Bo Hatter

Von den Grundlagen bis zum kreativen Tuning: erfahren Sie, wie kleine Änderungen einen großen Unterschied machen.

Stellen Sie sich vor, Sie könnten die Antworten Ihrer KI mit ein paar kleinen Änderungen von roboterhaft in bemerkenswert natürlich verwandeln. In der Welt der LLMs geht es bei der Beherrschung der Einstellungen hinter der Maschine nicht nur um Anpassung, sondern auch darum, die Kontrolle über Ihre Ausgabe zu übernehmen, um sie perfekt an Ihre Bedürfnisse anzupassen.

Kleiner mathematischer Umweg

Bevor wir in die Einstellungen eintauchen, lassen Sie uns einen kleinen Umweg machen. Wir werden zwar nicht auf die Architektur oder die Mathematik des Geistes hinter der Maschine eingehen, aber es wird nützlich sein, ein kleines Konzept einzuführen, nämlich die Softmax-Funktion.

Im Allgemeinen ist das Ergebnis eines auf einem Transformator basierenden LLM ein eindimensionaler Vektor, auch wenn die internen Darstellungen mehrdimensional sein können. Im Falle eines generativen Text-LLMs enthält dieser Vektor eine Zahl für jedes Token im „Wörterbuch“ des LLMs.

Aber welche Informationen können wir aus diesen Werten gewinnen? Hier kommt die Softmax-Funktion ins Spiel.

Diese Funktion hebt die relativen Unterschiede zwischen den Werten hervor und gibt einen normalisierten Vektor zurück, in dem jeder Wert Teil einer Wahrscheinlichkeitsverteilung ist, die von 0 bis 1 reicht.

Durch die Anwendung von Softmax wird jeder der Werte in eine Wahrscheinlichkeit umgewandelt, die im Fall von textgenerativen LLMs der Wahrscheinlichkeit entspricht, dass dieses Token produziert wird.

Die wichtigsten Punkte von Softmax:

  • Konvertiert rohe Punktzahlen in Wahrscheinlichkeiten
  • Normalisiert die Ausgaben auf einen Bereich von 0-1
  • Höhepunkte

Von hier aus können wir das Reich der Einstellungen an sich betreten.

Einstellungen

Temperatur

Die Temperatur ist ein Wert, der auf den Softmax angewendet wird, um sein Verhalten zu ändern.

Auswirkungen der Temperatur:

  • Hohe Temperatur: Erhöht die Entropie, flacht die Verteilung ab, fördert kreative Reaktionen.
  • Niedrige Temperatur: Reduziert die Entropie, schärft den Fokus auf die wahrscheinlichsten Ergebnisse.

Eine Änderung der Temperatur verändert die Entropie („Peakness“) und, in einem informellen Sinne, die Kurtosis („Tailedness“), indem sie als „Abschwächer“ wirkt.

Höhere Temperaturen führen zu einer höheren Entropie, wodurch die Wahrscheinlichkeitsverteilung „abgeflacht“ wird und außergewöhnliche Werte häufiger vorkommen. Umgekehrt senken niedrigere Temperaturen die Entropie und konzentrieren die Wahrscheinlichkeitsverteilung auf die wahrscheinlichsten Ergebnisse.

Tipp

Senken Sie die Temperatur für präzise Q&A-Szenarien und erhöhen Sie sie für kreative Aufgaben.

Top P:

Top-Wahrscheinlichkeit: Eine Stichprobentechnik, die nach der Softmax angewendet wird. Es werden Token ausgewählt, die kumulativ den höchsten Prozentsatz der Ergebnisse ausmachen. Wenn Sie diesen Wert senken, beschränkt sich das Modell auf eine kleinere Stichprobe von Token, was zu einer geringeren Variabilität der gegebenen Antworten führt.

Wichtige Punkte:

  • Schränkt die Auswahl der Spielsteine durch kumulative Wahrscheinlichkeit ein.
  • Niedrigere Werte schränken die Variabilität ein; ideal, wenn Sie eine konzentrierte Ausgabe benötigen.

Notiz

Da sowohl Top P als auch Temperatur die Zufälligkeit steuern, reicht es oft aus, nur einen Wert zu ändern. Wenn Sie sich entscheiden, beide zu ändern, sollten Sie dies mit Bedacht tun, da sich ihre Auswirkungen überschneiden können.

Oben K

Dieser Wert ist ein enger Verwandter des Top P, wobei er die Top-Werte nach einer bestimmten Zahl und nicht nach der kumulativen Wahrscheinlichkeit sortiert.

Beispiel

Bei K=10 werden nur die 10 Token mit dem höchsten Wert bei der Auswahl des nächsten Tokens berücksichtigt.

Maximale Länge

Maximale Anzahl von Token, die der LLM erzeugen kann.

Stopp-Sequenzen

Eine Zeichenkette oder eine Liste von Zeichenketten, die einen Haltepunkt für den LLM angibt. Wenn einer dieser Werte generiert wird, wird die Generierung gestoppt. Dies kann äußerst nützlich sein, um die Generierung von XML oder anderen strukturierten Daten an einem bestimmten Punkt zu stoppen.

Tipp

Sie können } verwenden, um die JSON-Generierung an bestimmten Stellen zu stoppen oder <\end tag> für XML.

Häufigkeit Strafe

Eine Strafe, die auf ein Token angewandt wird, und zwar im Verhältnis zu der Anzahl, wie oft es zuvor in der Antwort und in der Eingabeaufforderung aufgetaucht ist, um so die wiederholte Verwendung derselben Wörter zu reduzieren.

Tipp

Eine Erhöhung der Strafen könnte eine lustige Art sein, neue Wörter zu entdecken.

Strafe für Anwesenheit

Eine Strafe, die auf ein Token angewendet wird, wenn es bereits generiert wurde. Im Gegensatz zur proportionalen Häufigkeitsstrafe ist diese Strafe gleich, ob das Token einmal oder n-mal erscheint.

Aufwand für die Argumentation

Dieser Wert wird in einigen neueren Chain-of-Thought-Modellen verwendet und ermöglicht die Kontrolle darüber, wie viel „Aufwand“ ein LLM in seinen COT-Schlußfolgerungsschritten betreibt.

Dieser Wert ermöglicht einen einfachen Kompromiss zwischen Kosten & Geschwindigkeit und Ergebnisqualität.

Beispiel

OpenAI erlaubt in der Regel niedrige, mittlere und hohe Einstellungen für ihre Argumentationsmodelle, wobei die hohe Einstellung mehr Argumentationsschritte vor der endgültigen Antwort vorsieht, was die Genauigkeit, aber auch die Ausgabe und die Kosten erhöht.

Sed

Dieser Wert ist der Seed für probabilistische Zufallsalgorithmen und ermöglicht eine reproduzierbare Erzeugung, wenn er gesetzt ist.

Kontext Länge

Die Anzahl der Token, die ein Modell bei der Erstellung einer Antwort auf einmal berücksichtigen kann. Wenn der Eingabetext diesen Wert überschreitet, muss der LLM Teile davon abschneiden, was eine häufige Ursache für die bekannten Gedächtnislücken bei längeren Gesprächen mit LLMs ist.

Die maximale Kontextlänge ist für ein bestimmtes Modell oder eine bestimmte Architektur festgelegt und kann nicht erhöht werden.

Tipp

Geringere Gesamtkontextlänge für schnellere Ergebnisse bei kleinen lokalen Modellen, wenn keine komplexen Antworten benötigt werden.

Fazit

In diesem Blogbeitrag haben wir uns auf die gängigsten Einstellungen konzentriert, die in verschiedenen APIs verfügbar sind. Diese Liste ist jedoch nicht erschöpfend. Es gibt eine ganze Reihe von weniger gebräuchlichen Einstellungen für bestimmte Modelle: Von Sampling-Methoden wie Mirostat und Tail-Free Sampling bis hin zu verschiedenen Arten von Wiederholungsstrafen, spezifischen CPU- und GPU-Einstellungen für lokale Modelle und vieles mehr…
Lernen Sie weiter.

Share