首页 理论教育 Tmxmall语料库清洗与对齐实践

Tmxmall语料库清洗与对齐实践

时间:2023-07-01 理论教育 版权反馈
【摘要】:语料清洗云语料可以通过购买、交换或者开源获取,下载至本地资源库中,转存为需要的文件格式,如TMX格式、EXCEL格式等。为提高语料纯度,可以按需进行语料清洗工作。Tmxmall语料清洗与对齐注册并登录Tmxmall账号,即可开始使用语料清洗与对齐功能。图6.14YiCAT语料对齐段落调整界面截图段落调整完成后,单击“对齐”按钮,系统将自动将段落拆分成句对。单击“导出”后,浏览器会自动弹出文件下载窗口,用户即可将清洗和对齐后的双语语料下载至本地。

Tmxmall语料库清洗与对齐实践

(1)语料清洗

云语料可以通过购买、交换或者开源获取,下载至本地资源库中,转存为需要的文件格式,如TMX格式、EXCEL格式等。为提高语料纯度,可以按需进行语料清洗工作。

语料清洗包括(以TMX格式语料为例):

1)找出并处理未翻译句段;

2)原文与译文相同句段;

3)原文相同,译文不同句段;

4)原文不同,译文相同句段;

5)去除重复句段;

“未翻译句段”指筛选TMX文件中译文空白的句对。

“原文与译文相同句段”指筛选TMX文件中原文与译文(左右两列)完全相同的句对,用户可按需要有选择地进行删除。

“原文相同,译文不同句段”指筛选TMX文件中一句多译,原文相同、译文不同的句段。

“原文不同,译文相同句段”指筛选TMX文件中原文不同、译文相同的句段。

“去除重复句段”是去除TMX文件中内容完全重复的句对,只保留一条句对。

(2)Tmxmall语料清洗与对齐

注册并登录Tmxmall账号,即可开始使用语料清洗与对齐功能。

1)文档导入

文档对齐可选择“单文档对齐”或“双文档对齐”。

双文档对齐:原文与译文在两个文件中对齐。

单文档对齐:原文与译文以上下/左右对照形式在单个文件中对齐。

单击“单文档对齐”或“双文档对齐”;分别单击蓝色文件夹图标,导入待对齐的文件。(www.xing528.com)

2)段落调整

文档导入成功后,用户可通过合并、拆分、上移、下移、调换、插入和删除等操作手动调整文档,使左右两列段落语义对应,并将段落调整至总行数一致。

具体操作方法如下。

选中:包括选中单元格(单击需选中的单元格)、选中整行(单击该行行首的序号)、多选单元格/行(按住Shift或Ctrl并单击单元格/行首序号)。

编辑:双击单元格进入编辑状态,可编辑修改单元格文本内容。

回退:撤销上一步操作。

前进:恢复上一步操作。

合并:选中某单元格(行),按住Shift(或Ctrl)并选中其余需要合并的单元格(行),单击“合并”。

拆分:双击单元格进入编辑状态,鼠标单击需要拆分的位置,单击“拆分”。

上移:选中(可多选)单元格(行),单击“上移”。

下移:选中(可多选)单元格(行),单击“上移”。

调换:选中(可多选)单元格(行),单击“调换”。

插入:选中某单元格(行),单击“插入”。

删除:选中(可多选)要删除的单元格(行),单击“删除”。

图6.14 YiCAT语料对齐段落调整界面截图

段落调整完成后,单击“对齐”按钮,系统将自动将段落拆分成句对。拆分完成后,用户只需通篇检查拆分是否正确,并通过合并、拆分、上移、下移、调换、插入和删除等操作对拆分错误的句对进行微调整,将句对调整至总行数一致即可。

3)导出文件

将两列句对的总行数调整一致后,可反复核查语料的原文及译文,确保双语语料质量。在质量检查完成后,单击“导出”,即可导出对齐文件。用户可自行选择语言方向和导出的格式,输入文件名并按需选择是否同步到语料云管家记忆库以便后续使用。单击“导出”后,浏览器会自动弹出文件下载窗口,用户即可将清洗和对齐后的双语语料下载至本地。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈