home.social

#rugpt3 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #rugpt3, aggregated by home.social.

  1. ruGPT3XL идёт в качалку / поднимаем контекст до 8k

    Это продолжение предыдущей публикации про реставрацию ruGPT3XL. Для тех кто не читал, кратенько, я конвертировал древний Megatron-LM чекпоинт в HuggingFace-формат, залил веса на HF, накатил поддержку GGUF в llama.cpp и подумал, что всё. Но нет. По ходу тестов, проведённых разными людьми удалось выявить ряд недоработок, которые я по мере обнаружения правил, ну а после того, как удалось получить стабильную и рабочую версию мне захотелось решить одну старую проблему, которая меня в ruGPT3 моделях очень беспокоила, это проблема маленького контекста в смешные 2k токенов. Решил поднять контекст до 8k.

    habr.com/ru/articles/1018428/

    #rugpt3 #обучение #контекстное_окно

  2. Реставрация ruGPT-3 XL или как я вернул к жизни забытую русскую языковую модель

    Несколько дней к ряду я занимался реставрацией легаси модели ai-forever/rugpt3xl , это классическая языковая модель от SberDevices на 1.3B параметров, крошка по современным меркам, на которой сберовцы обкатывали свои научные наработки аж в далёком 2021м году. Подробнее о ней можно почитать в статье “A family of pretrained transformer language models for Russian” на Google Scholar. Да, она foundation, то есть умеет только продолжать текст, не может выполнять инструкции или работать в режиме чата. Но обучена она на корпусе русского языка и этот самый русский генерит очень бодро. У неё есть две примечательные особенности: её обучали с нуля, архитектура представляет собой глубокую модификацию GPT-2.

    habr.com/ru/articles/1016148/

    #rugpt3 #реставрация #нейросеть #gguf #safetensors #python #ollama #huggingface #модель #llm

  3. #RuGPT3
    RuGPT3: Русская модель ruGPT-3 XL

    Модель ruGPT-3 XL содержит 1,3 млрд параметров и умеет продолжать тексты на русском и немного на английском языках, программный код. Для этого пользователю необходимо сформулировать «затравку» — фразу, которую модель допишет. Так, для модели ruGRPT/RU2XL вызов функции «Новый текст» выглядит как :

    ruGRPC — это open source операционная система, разработанная в компании IBM (США), входящая в кластер кластера XUL (смотри здесь).

    Основное ядро системы находится на серверах IBM (смотрите здесь), а программное обеспечение реализовано в серверных ОС Linux, на базе HTML-сервера Mozilla Firefox от компании Mozillijа. Операционная система Linux версии 3.2, с плагином СУБД, одним из самых популярных проектов.

    Программное обеспечение ruGPS выполнено на языке программирования Python и обладает расширенной поддержкой GPS. Ресурс содержит общий обзор и пошаговые инструкции по подключению к сервису, основные режимы работы сервиса, точки маршрута, программы для навигации, программы голосового управления, список ошибок и jar-архивы

    Кроме этого на сервисе возможен просмотр и загрузка маршрутов, смена контрольных точек и расчет времени в пути, просмотр «карты» общего и нескольких навигационных карт, «доски объявлений» (Reader), «книги отзывов и предложений» (PilotBox). Для этого можно воспользоваться специальным модулем google maps и режимом «недоступный для людей» в Web-интерфейсе.

    RUGPTS — это результат сотрудничества специалистов разных областей из IBM и Google в рамках проекта Google Nexus.org. Разработчики сервиса - группа специалистов из IBM, которые работали с самой популярной в мире, и старейшей системой навигации - автомобилем Google - и инженеры Google.
    p.s. может быть стоить реализовать на этой основе сервис городского ориентирования для всех жителей и гостей города, а не только для тех у кого есть автомобиль, а для автомобилистов в частности.