Бенчмарк переводов LLM: польский → вьетнамский (2026)
Сравнение качества машинного перевода (GPT 5.4, Claude 4.6 Sonnet, Google Translate, DeepL) для пары польский → вьетнамский. Исследование проведено 100 AT.
Методология
Каждая из 4 систем перевода перевела 4 исходных текста с польского на вьетнамский. Переводы оценивали 2 судьи (GPT 5.4 XHigh и Claude 4.6 Sonnet) по трем критериям: точность, беглость и стиль, по шкале 1–10. Таблица показывает средние оценки.
Результаты: Польский → Вьетнамский
Средние оценки (шкала 1–10), выставленные 2 судьями 4 системам перевода на польско‑вьетнамских текстах.
| Система перевода | GPT 5.4 (Судья) | Claude 4.6 (Судья) | Итоговое среднее |
|---|---|---|---|
| GPT 5.4 (XHigh) | 8.90 | 9.17 | 9.04 |
| Claude 4.6 Sonnet | 9.30 | 8.92 | 9.11 |
| Google Translate ref | 7.40 | 7.75 | 7.58 |
| DeepL ref | 8.10 | 7.83 | 7.97 |
Ключевые выводы
- 1
Модели ИИ (Claude 4.6 Sonnet — 9.11, GPT 5.4 — 9.04) значительно превосходят традиционные движки перевода.
- 2
Google Translate (7.58) показывает самый низкий результат на паре PL→VI, особенно по стилю и естественности.
- 3
DeepL (7.97) занимает промежуточное место — лучше Google, но заметно уступает моделям ИИ.
- 4
Разрыв между лучшим ИИ и лучшим классическим движком превышает 1.1 балла — существенная разница в качестве.