如何将翻译语料库放入不同的文件中

2024-03-29 04:50:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我想处理日语和汉语之间的一行翻译语料库

JST|U JC|U ENVI-ABS-06A0281759-par1-sen1|||C&D管理施設の高度化 ||| C&D管理设施的高度化JST|U JC|U ENVI-ABS-06A0281759-par1-sen2|||メーンのポートランドはRiversideリサイクリング施設(RRF)を所有しているが,建設及び解体(C&D)ごみの埋立地に立地している。 ||| 缅因州的波特兰拥有Riverside循环使用设施(RRF),但其却位置选定于建设及解体(C&D)垃圾的填埋地。JST|U JC|U ENVI-ABS-06A0281759-par1-sen3|||この施設はかさばる廃棄物,住民の出す葉やC&Dごみを受け入れているが,その最近の作業状況を紹介した。 ||| 该设施接受体积大的废弃物、居民投弃的叶子或C&D垃圾,本文介绍了该设施最近的作业情况。

中文和日文以前缀JST_JC_ENVI-abstXXXXXXXX字符串开头,以|||分隔

因此,我的问题是如何删除所有相同的前缀“JST_JC_ENVI-abstXXXXXXXX”字符串,并通过行将中文输出为chinese.txt,通过行将日语输出为japanese.txt

多谢各位


Tags: 字符串txtabs垃圾语料库jc设施envi
1条回答
网友
1楼 · 发布于 2024-03-29 04:50:27

首先,处理线条并用空格分隔

# -*- coding: utf-8 -*-

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

infile=open('dev.txt','r')
outfile1 =open('dev-mid.txt','w')
lines = infile.read()
i = lines.split()
for e in i:
    outfile1.write(e+'\n')

然后,使用WORD删除dev-mid.txt中的空格和相同前缀字符串

最后,

    import os


    infile=open('dev-mid.txt','r')
    outfile1 =open('dev-in.txt','w')
    outfile2 =open('dev-out.txt','w')

    i=1

    for line in infile.readlines():
        if i%2==1:
    ##        print(line)
            outfile1.write(line)
            i+=1
        else:
            i+=1
    ##        print(line)
            outfile2.write(line)
    infile.close()
    outfile1.close()
    outfile2.close()

处理偶数行和奇数行。 dev-in.txt是日语,dev-out.txt是中文:-D

相关问题 更多 >