Grupa Speakleash udostępniła właśnie wytrenowany na polskich tekstach model językowy Bielik. Piszę o tym z dumą, bo od początku kibicuję Spichlerzowi i trzymam kciuki, aby udało im się stworzyć technologię na światowym poziomie.
Speakleash (Spichlerz) ruszył dwa lata temu z zadaniem zebrania największego w historii zbioru tekstów po polsku. Wolontariusze celowali w 1TB danych. Tak gigantyczny zbiór miał być podstawą do tworzenia nowych algorytmów i usług w specyfice języka polskiego. Jak wiadomo GPT, Claude, Gemini, Mixtral nie są trenowane dla naszego języka.
Po dwóch latach udało się i ekipa przystąpiła do drugiego kroku, wytrenowania pierwszego wielkiego modelu językowego, który stałby się konkurencją dla światowych gigantów. I znowu się udało. Właśnie został zaprezentowany Bielik. Pierwszy czysto polski olbrzymi model językowy.
Dzisiaj każdy może sam sprawdzić, jak Bielik działa. A działa całkiem nieźle, choć potrzebuje jeszcze dotrenowania, bo jest wciąż pisklakiem, który wczoraj wyleciał z gniazda. Świetnie analizuje gramatykę, streszcza po polsku i odpowiada na ogólne pytania. Prawdopodobnie dobrze sprawdzi się w architekturze RAG dla polskich baz wiedzy. Jeszcze trochę halucynuje, ale cały czas karmiony jest przez troskliwe stado informatyków.
Link do wypróbowania Bielika można znaleźć tutaj: https://huggingface.co/spaces/speakleash/Bielik-7B-Instruct-v0.1
Link do projektu Spichlerz: https://speakleash.org/