将txt文件中的字符串提取到CSV中

2024-05-17 19:19:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从一个有几千个序列的.txt文件中提取字符串,并用这些字符串编写一个CSV。我已经从原始的.txt文件中删除了所有不相关的信息,这是我现在拥有的文档的格式:

DEFINITION  Homo sapiens haplogroup HV5 mitochondrion, complete genome.
ACCESSION   DQ377992
/haplogroup="HV5"
/pop_variant="Ashkenazi Jew"
/note="ethnicity:Ashkenazi Jew; origin_locality:Belarus:Homel' Volast', Vyetka; origin_coordinates:52.51 N 31.17 E"
DEFINITION  Homo sapiens haplotype U5b1c mitochondrion, complete genome.
ACCESSION   DQ661681
/haplotype="U5b1c"
/note="Native American (Cherokee)"

我试图提取登录号、单倍型或单倍型组、种族、位置(起源地)、坐标(起源地坐标)以及任何可能放在csv /note=中的附加信息。我面临的一个问题是,不是每个序列都有所有的信息,也不是所有的字符串都有自己的引号。你知道吗

如何提取入位号、引号之间的字符串,并确保将正确的字符串提取到正确的序列中?还有,我将如何处理那些只被分号分隔的字符串?你知道吗

编辑:另一个问题不涉及丢失的信息或CSV中的对齐,这是我最关心的问题。你知道吗


Tags: 文件csv字符串txt信息genome序列note
1条回答
网友
1楼 · 发布于 2024-05-17 19:19:01

您可以创建一个类,将所有可能的参数作为属性。 然后遍历所有行,在需要时创建一个新对象(即,当行以“Definition”开头)并填充该对象的属性值。之后,您可以引用该对象并在csv中写入其atributes值。你知道吗

相关问题 更多 >