Bielik – Nowy, polski model LLM

SpeakLeash właśnie opublikował polski model LLM o nazwie Bielik-7B-v0.1. Model ma 7 miliardów parametrów i powstał jako efekt współpracy pomiędzy projektem a centrum komputerowym ACK Cyfronet AGH.

Model został wytrenowany w całości przez teksty języku polskim i był szkolony za pomocą polskiej infrastruktury obliczeniowej, w tym superkomputera Helios. Dane szkoleniowe zostały starannie wyselekcjonowane, aby dostarczyć jak najlepszą jakość tekstów. Model bazowy jest już dostępny do komercyjnego użytku, a drugi, dostrojony model jest dostępny na licencji niekomercyjnej CC BY NC 4.0. Jest to jednak rozwiązanie chwilowe, które niedługo ma być zmienione.

Bielik został oparty na architekturze starszego brata – modelu Mistral-7B-v0.1. Nowy model został wyszkolony przez niemal 1 TB danych. Jest rozwijany w modelu open-science, a więc jako otwarte rozpowszechnianie osiągnięć naukowych. Bielika można przetestować korzystając z wersji demo.

Źródło: Materiały prasowe

O autorze