Seit der Veröffentlichung des Artikels „Attention Is All You Need“ im Jahr 2017 ist die Transformer-Architektur der Eckpfeiler des Bereichs Natural Language Processing (NLP). Sein Design ist seit Jahren weitgehend unverändert geblieben, wobei das Jahr 2022 mit der Einführung von Rotary Position Encoding (RoPE) eine große Entwicklung auf diesem Gebiet markiert.
Rotierte Positionseinbettung ist die fortschrittlichste NLP-Positionseinbettungstechnologie. Die meisten gängigen großen Sprachmodelle wie Llama, Llama2, PaLM und CodeGen verwenden es bereits. In diesem Artikel gehen wir näher darauf ein, was Rotationspositionskodierungen sind und wie sie die Vorteile absoluter und relativer Positionseinbettungen geschickt miteinander verbinden.
Um die Bedeutung von RoPE zu verstehen, schauen wir uns zunächst an, warum die Positionskodierung entscheidend ist. Transformatormodelle berücksichtigen aufgrund ihres inhärenten Designs nicht die Reihenfolge der Eingabetokens.
Zum Beispiel gelten Ausdrücke wie „Der Hund jagt das Schwein“ und „Das Schwein jagt die Hunde“, obwohl sie unterschiedliche Bedeutungen haben, als nicht unterscheidbar, da sie als ungeordneter Satz von Token betrachtet werden. Um Sequenzinformationen und ihre Bedeutung aufrechtzuerhalten, ist eine Darstellung erforderlich, um Positionsinformationen in das Modell zu integrieren.
Um die Positionen in einem Satz zu kodieren, wird ein weiteres Werkzeug benötigt, das Vektoren mit den gleichen Abmessungen verwendet, wobei jeder Vektor eine Position im Satz darstellt. Geben Sie beispielsweise einen bestimmten Vektor für das zweite Wort in einem Satz an. Daher hat jede Satzposition ihren eindeutigen Vektor. Die Eingabe in die Transformer-Schicht wird dann durch Kombinieren der Worteinbettungen mit den Einbettungen ihrer entsprechenden Positionen gebildet.
Es gibt zwei Hauptmethoden, um diese Einbettungen zu generieren:
Obwohl die absolute Positionseinbettung weit verbreitet ist, ist sie nicht ohne Nachteile:
Die relative Position konzentriert sich nicht auf die absolute Position von Noten im Satz, sondern auf den Abstand zwischen Notenpaaren. Bei dieser Methode werden Positionsvektoren nicht direkt zu den Wortvektoren hinzugefügt. Stattdessen wird der Aufmerksamkeitsmechanismus geändert, um relative Positionsinformationen einzubeziehen.
T5 (Text-to-Text Transfer Transformer) ist ein berühmtes Modell, das die relative Positionseinbettung nutzt. T5 führt eine subtile Art der Handhabung von Positionsinformationen ein:
Obwohl sie theoretisch attraktiv sind, sind relative Positionskodierungen äußerst problematisch
Aufgrund dieser technischen Komplexität wurde die Positionscodierung nicht weit verbreitet, insbesondere in größeren Sprachmodellen.
RoPE stellt eine neue Art der Kodierung von Standortinformationen dar. Sowohl die absolute Methode als auch die relative Methode in herkömmlichen Methoden haben ihre Grenzen. Die absolute Positionskodierung weist jeder Position einen eindeutigen Vektor zu. Dies ist einfach, lässt sich aber nicht gut skalieren und kann relative Positionen nicht effektiv erfassen. Die relative Positionskodierung konzentriert sich auf den Abstand zwischen Markern, verbessert das Verständnis des Modells für Markerbeziehungen, macht die Modellarchitektur jedoch komplizierter .
RoPE vereint geschickt die Vorteile beider. Kodieren Sie Standortinformationen so, dass das Modell die absolute Position der Markierungen und ihre relative Entfernung verstehen kann. Dies wird durch einen Rotationsmechanismus erreicht, bei dem jede Position in der Sequenz durch eine Drehung im Einbettungsraum dargestellt wird. Die Eleganz von RoPE liegt in seiner Einfachheit und Effizienz, die es dem Modell ermöglicht, die Nuancen der Sprachsyntax und -semantik besser zu erfassen.
Die Rotationsmatrix wird aus den trigonometrischen Eigenschaften von Sinus und Cosinus abgeleitet, die wir in der High School gelernt haben. Die Verwendung einer 2D-Matrix sollte ausreichen, um die Theorie der Rotationsmatrix wie unten gezeigt zu erhalten!
Wir sehen, dass die Rotationsmatrix die Größe (oder Länge) des ursprünglichen Vektors beibehält, wie durch „r“ im Bild oben gezeigt, das einzige, was sich ändert, ist der Winkel mit der x-Achse.
RoPE stellt ein neuartiges Konzept vor. Anstatt Positionsvektoren hinzuzufügen, werden die Wortvektoren gedreht. Der Drehwinkel (θ) ist proportional zur Position des Wortes im Satz. Der Vektor an der ersten Position wird um θ gedreht, der Vektor an der zweiten Position wird um 2θ gedreht und so weiter. Dieser Ansatz hat mehrere Vorteile:
Die technische Umsetzung von RoPE beinhaltet eine Rotationsmatrix. Im 2D-Fall enthalten die Gleichungen in der Arbeit eine Rotationsmatrix, die den Vektor um Mθ Grad dreht, wobei M die absolute Position im Satz ist. Diese Rotation wird auf den Abfragevektor und den Schlüsselvektor im Selbstaufmerksamkeitsmechanismus des Transformers angewendet.
Für höhere Dimensionen werden die Vektoren in 2D-Blöcke aufgeteilt und jedes Paar wird unabhängig gedreht. Dies kann man sich als eine im Raum rotierende n-Dimension vorstellen. Es hört sich so an, als wäre die Implementierung dieser Methode kompliziert, aber das ist nicht der Fall. Sie kann in Bibliotheken wie PyTorch mit nur etwa zehn Codezeilen effizient implementiert werden.
import torch import torch.nn as nn class RotaryPositionalEmbedding(nn.Module): def __init__(self, d_model, max_seq_len): super(RotaryPositionalEmbedding, self).__init__() # Create a rotation matrix. self.rotation_matrix = torch.zeros(d_model, d_model, device=torch.device("cuda")) for i in range(d_model): for j in range(d_model): self.rotation_matrix[i, j] = torch.cos(i * j * 0.01) # Create a positional embedding matrix. self.positional_embedding = torch.zeros(max_seq_len, d_model, device=torch.device("cuda")) for i in range(max_seq_len): for j in range(d_model): self.positional_embedding[i, j] = torch.cos(i * j * 0.01) def forward(self, x): """Args:x: A tensor of shape (batch_size, seq_len, d_model). Returns:A tensor of shape (batch_size, seq_len, d_model).""" # Add the positional embedding to the input tensor. x += self.positional_embedding # Apply the rotation matrix to the input tensor. x = torch.matmul(x, self.rotation_matrix) return x
为了旋转是通过简单的向量运算而不是矩阵乘法来执行。距离较近的单词更有可能具有较高的点积,而距离较远的单词则具有较低的点积,这反映了它们在给定上下文中的相对相关性。
使用 RoPE 对 RoBERTa 和 Performer 等模型进行的实验表明,与正弦嵌入相比,它的训练时间更快。并且该方法在各种架构和训练设置中都很稳健。
最主要的是RoPE是可以外推的,也就是说可以直接处理任意长的问题。在最早的llamacpp项目中就有人通过线性插值RoPE扩张,在推理的时候直接通过线性插值将LLAMA的context由2k拓展到4k,并且性能没有下降,所以这也可以证明RoPE的有效性。
代码如下:
import transformers old_init = transformers.models.llama.modeling_llama.LlamaRotaryEmbedding.__init__ def ntk_scaled_init(self, dim, max_position_embeddings=2048, base=10000, device=None): #The method is just these three linesmax_position_embeddings = 16384a = 8 #Alpha valuebase = base * a ** (dim / (dim-2)) #Base change formula old_init(self, dim, max_position_embeddings, base, device) transformers.models.llama.modeling_llama.LlamaRotaryEmbedding.__init__ = ntk_scaled_init
旋转位置嵌入代表了 Transformer 架构的范式转变,提供了一种更稳健、直观和可扩展的位置信息编码方式。
RoPE不仅解决了LLM context过长之后引起的上下文无法关联问题,并且还提高了训练和推理的速度。这一进步不仅增强了当前的语言模型,还为 NLP 的未来创新奠定了基础。随着我们不断解开语言和人工智能的复杂性,像 RoPE 这样的方法将有助于构建更先进、更准确、更类人的语言处理系统。
Das obige ist der detaillierte Inhalt vonDetaillierte Erläuterung der Rotationspositionskodierung RoPE, die häufig in großen Sprachmodellen verwendet wird: Warum ist sie besser als die absolute oder relative Positionskodierung?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!