Datawhale AI 夏令营（第二期） Task 1 学习笔记

魔法窝瓜大约 2 分钟我做datawhale

Task 1: 跑通baseline，体验NLP模型解决问题的流程，基本了解赛题要求，理解赛题场景

机器翻译（Machine Translation，简称MT）是自然语言处理领域的一个重要分支，其目标是将一种语言的文本自动转换为另一种语言的文本。

自 20 世纪 50 年代起，机器翻译逐渐发展完善，经历了从基于规则的方法、统计方法到深度学习方法的演变过程。当前，机器翻译正朝着更加智能化和个性化方向发展。

在特定领域或行业中，由于机器翻译难以保证术语的一致性，导致翻译效果还不够理想。而通过术语词典进行纠正，则可以避免了混淆或歧义，最大限度提高翻译质量。因此，本赛事需要我们基于提供的训练数据样本，进行多语言机器翻译模型的构建与训练，并基于测试集以及术语词典，提供最终的翻译结果。

运行代码 2^[2]，发现其得分（0.5356）较代码 1^[3]（0.3406）有了一定提升。

注意到，代码 2 修改了 N 和 N_EPOCHS，训练数据变为了数据集的前 2000 个样本，训练次数增加到了 50 轮。可以发现随着训练数据和训练次数的增加，模型的效果也会变好

吗？

如下图所示，当训练数据增加到前 6000 个样本，训练 60 轮，发现损失值在 4.3 左右“久居不下”，似乎模型此时处于过拟合状态，再增加 epoch 也可能收效甚微。值得一提的是，这次训练得分突破了 1.0 大关，获得了 1.6165 分。😋