Microsoft работает над созданием малых языковых моделей

Компания Microsoft работает над созданием малых языковых моделей и считает, что они могут быть не менее эффективными, чем большие языковые модели. Так, компания представила языковую модель Phi 1, которая обладает 1.3 млрд параметров, при этом сравнительные тесты модели продемонстрировали более высокие показатели точности, превзойдя производительность GPT 3.5, у которой 175 млрд параметров. Модель Phi 1 построена на архитектуре Transformer, она обучалась в течение 4 дней на специально отобранных данных. Разработчики считают, что её эффективной работы удалось добиться благодаря тому, что для обучения применялся высококачественный набор данных. В работе с моделью использовались 8 графических процессоров Nvidia A100, и процесс обучения занял четыре дня. Модель создана на основе открытого исходного кода и показывает стремление Microsoft способствовать развитию искусственного интеллекта.