网络文本数据的清洗策略

image.png

随着大规模预训练模型的发展,网络文本数据成为重要的训练资源。然而,网络数据通常包含大量噪声和低质量内容,直接使用可能影响模型性能。因此,数据清洗成为必要的步骤。

本文总结了C4、MassiveText和RefinedWeb三篇论文中关于网络文本数据清洗的策略。

阅读更多