Grupa Speakleash udostępniła właśnie wytrenowany na polskich tekstach model językowy Bielik. Piszę o tym z dumą, bo od początku kibicuję Spichlerzowi i trzymam kciuki, aby udało im się stworzyć technologię na światowym poziomie.

Speakleash (Spichlerz) ruszył dwa lata temu z zadaniem zebrania największego w historii zbioru tekstów po polsku. Wolontariusze celowali w 1TB danych. Tak gigantyczny zbiór miał być podstawą do tworzenia nowych algorytmów i usług w specyfice języka polskiego. Jak wiadomo GPT, Claude, Gemini, Mixtral nie są trenowane dla naszego języka.

Po dwóch latach udało się i ekipa przystąpiła do drugiego kroku, wytrenowania pierwszego wielkiego modelu językowego, który stałby się konkurencją dla światowych gigantów. I znowu się udało. Właśnie został zaprezentowany Bielik. Pierwszy czysto polski olbrzymi model językowy.

Dzisiaj każdy może sam sprawdzić, jak Bielik działa. A działa całkiem nieźle, choć potrzebuje jeszcze dotrenowania, bo jest wciąż pisklakiem, który wczoraj wyleciał z gniazda. Świetnie analizuje gramatykę, streszcza po polsku i odpowiada na ogólne pytania. Prawdopodobnie dobrze sprawdzi się w architekturze RAG dla polskich baz wiedzy. Jeszcze trochę halucynuje, ale cały czas karmiony jest przez troskliwe stado informatyków.

Link do wypróbowania Bielika można znaleźć tutaj: https://huggingface.co/spaces/speakleash/Bielik-7B-Instruct-v0.1

Link do projektu Spichlerz: https://speakleash.org/

 

Zapisz się na nasz newsletter

Zapisz się na nasz newsletter

Twój e-mail został zapisany

Share This