Набор данных · Бенчмарк 2026

Бенчмарк переводов LLM: польский → вьетнамский (2026)

Сравнение качества машинного перевода (GPT 5.4, Claude 4.6 Sonnet, Google Translate, DeepL) для пары польский → вьетнамский. Исследование проведено 100 AT.

Польский → Вьетнамский · 4 systems · 2 judges

Методология

Каждая из 4 систем перевода перевела 4 исходных текста с польского на вьетнамский. Переводы оценивали 2 судьи (GPT 5.4 XHigh и Claude 4.6 Sonnet) по трем критериям: точность, беглость и стиль, по шкале 1–10. Таблица показывает средние оценки.

Результаты: Польский → Вьетнамский

Средние оценки (шкала 1–10), выставленные 2 судьями 4 системам перевода на польско‑вьетнамских текстах.

Система перевода GPT 5.4 (Судья) Claude 4.6 (Судья) Итоговое среднее
GPT 5.4 (XHigh)
8.90 9.17 9.04
Claude 4.6 Sonnet
9.30 8.92 9.11
Google Translate ref
7.40 7.75 7.58
DeepL ref
8.10 7.83 7.97

Ключевые выводы

  1. 1

    Модели ИИ (Claude 4.6 Sonnet — 9.11, GPT 5.4 — 9.04) значительно превосходят традиционные движки перевода.

  2. 2

    Google Translate (7.58) показывает самый низкий результат на паре PL→VI, особенно по стилю и естественности.

  3. 3

    DeepL (7.97) занимает промежуточное место — лучше Google, но заметно уступает моделям ИИ.

  4. 4

    Разрыв между лучшим ИИ и лучшим классическим движком превышает 1.1 балла — существенная разница в качестве.