Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Исследователи из Anthropic разработали прорывную технологию «транскодер между уровнями» (CLT), которая функционирует как МРТ для крупных языковых моделей, отображая, как они обрабатывают информацию внутренне. В ходе тестирования на модели Claude 3.5 Haiku исследователи обнаружили, что модель осуществляет планирование на более дальних участках для выполнения конкретных задач – например, выбирает рифмующие слова до того, как сконструирует предложения стихотворения – и обрабатывает многоязычные концепции в общей нейронной области до преобразования выходов в определенные языки.
Команда также подтвердила, что крупные языковые модели могут создавать цепочки рассуждений, чтобы угодить пользователям с неверными подсказками или обосновать ответы, которые они получили мгновенно. CLT идентифицирует интерпретируемые наборы признаков, а не отдельные нейроны, что позволяет исследователям отслеживать весь процесс рассуждения через слои сети.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...