IsROBERTa

Das erste isländische Großtransformator-Sprachmodell

Technologien

PythonPytorchONNXWandBPoetryNumPyPandasFlaskTokenizerLLMDockerOpen API

Cloud-Technologien

AzureAzure FunctionsAzure storageGitHubGitHub actions

Branche

Open Source

Beschreibung

Im Zeitalter der künstlichen Intelligenz präsentieren wir stolz 'IsROBERTa' — unser bahnbrechendes Projekt als das erste isländische Großtransformator-Sprachmodell. Entwickelt im Jahr 2020, wurde IsROBERTa dafür entworfen, isländischen Text zu verstehen und zu generieren und die Grenzen der Sprachverarbeitung in der KI für Isländisch zu erweitern.

Herausforderungen

Ein großes Transformator-Sprachmodell zu erstellen, insbesondere für eine so einzigartige und komplexe Sprache wie Isländisch, ist keine Kleinigkeit. Das Feld der großen Sprachmodelle war im Jahr 2020 noch in den Kinderschuhen. Einige Herausforderungen, denen wir gegenüberstanden, waren:

Datenknappheit
Sprachliche Komplexität
Rechenressourcen
Fehlen von etablierten Bibliotheken

Über das Modell

IsROBERTa wurde auf dem OSCAR-Korpus mit einer Masked Language Model (MLM) Downstream-Aufgabe trainiert und kann folgende Hyperparameter vorweisen:

Trainingsbatchgröße pro Gerät: 48
Anzahl der Epochen: 1
Vokabelgröße: 52,000
Maximale Positionseinbettungen: 514
Anzahl der Aufmerksamkeitsköpfe: 12
Anzahl der versteckten Schichten: 6
Vokabelgröße des Typs: 1
Lernrate: 0.00005

Ein detailliertes Einblick in das Modell finden Sie in unserem GitHub Repository.

Ihr Modell

Wir glauben, dass der Weg zu KI-Lösungen am besten gemeinsam beschritten wird. Wenn Sie sich für eine Zusammenarbeit mit uns entscheiden, wählen Sie nicht nur einen Dienstleister, sondern einen Partner, der sich dafür einsetzt, Ihre Geschäftsprozesse zu transformieren, Kundenerlebnisse zu verbessern und neue Wachstumsmöglichkeiten zu erschließen.