(1)语料清洗
云语料可以通过购买、交换或者开源获取,下载至本地资源库中,转存为需要的文件格式,如TMX格式、EXCEL格式等。为提高语料纯度,可以按需进行语料清洗工作。
语料清洗包括(以TMX格式语料为例):
1)找出并处理未翻译句段;
2)原文与译文相同句段;
3)原文相同,译文不同句段;
4)原文不同,译文相同句段;
5)去除重复句段;
“未翻译句段”指筛选TMX文件中译文空白的句对。
“原文与译文相同句段”指筛选TMX文件中原文与译文(左右两列)完全相同的句对,用户可按需要有选择地进行删除。
“原文相同,译文不同句段”指筛选TMX文件中一句多译,原文相同、译文不同的句段。
“原文不同,译文相同句段”指筛选TMX文件中原文不同、译文相同的句段。
“去除重复句段”是去除TMX文件中内容完全重复的句对,只保留一条句对。
(2)Tmxmall语料清洗与对齐
注册并登录Tmxmall账号,即可开始使用语料清洗与对齐功能。
1)文档导入
文档对齐可选择“单文档对齐”或“双文档对齐”。
双文档对齐:原文与译文在两个文件中对齐。
单文档对齐:原文与译文以上下/左右对照形式在单个文件中对齐。
单击“单文档对齐”或“双文档对齐”;分别单击蓝色文件夹图标,导入待对齐的文件。(www.xing528.com)
2)段落调整
文档导入成功后,用户可通过合并、拆分、上移、下移、调换、插入和删除等操作手动调整文档,使左右两列段落语义对应,并将段落调整至总行数一致。
具体操作方法如下。
选中:包括选中单元格(单击需选中的单元格)、选中整行(单击该行行首的序号)、多选单元格/行(按住Shift或Ctrl并单击单元格/行首序号)。
编辑:双击单元格进入编辑状态,可编辑修改单元格文本内容。
回退:撤销上一步操作。
前进:恢复上一步操作。
合并:选中某单元格(行),按住Shift(或Ctrl)并选中其余需要合并的单元格(行),单击“合并”。
拆分:双击单元格进入编辑状态,鼠标单击需要拆分的位置,单击“拆分”。
上移:选中(可多选)单元格(行),单击“上移”。
下移:选中(可多选)单元格(行),单击“上移”。
调换:选中(可多选)单元格(行),单击“调换”。
插入:选中某单元格(行),单击“插入”。
删除:选中(可多选)要删除的单元格(行),单击“删除”。
图6.14 YiCAT语料对齐段落调整界面截图
段落调整完成后,单击“对齐”按钮,系统将自动将段落拆分成句对。拆分完成后,用户只需通篇检查拆分是否正确,并通过合并、拆分、上移、下移、调换、插入和删除等操作对拆分错误的句对进行微调整,将句对调整至总行数一致即可。
3)导出文件
将两列句对的总行数调整一致后,可反复核查语料的原文及译文,确保双语语料质量。在质量检查完成后,单击“导出”,即可导出对齐文件。用户可自行选择语言方向和导出的格式,输入文件名并按需选择是否同步到语料云管家记忆库以便后续使用。单击“导出”后,浏览器会自动弹出文件下载窗口,用户即可将清洗和对齐后的双语语料下载至本地。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。