#help建议在文本中使用标头重新组织大型数据集

嗨开发社区,

我有以下结构中的100多个文件(称为FASTA – 对于那些花时间查看遗传数据的人来说非常熟悉):

原始文件1:

> Gene1_id1
GATCGATCCGA
ATGCAGTCCAG

> Gene2_id1
ATGCATGCAGC
ACTAGGCCACG
CCGTAGCGGAC

> Gene1_id2
TAGCTAGCAGT
TAGCTAGCCGA

这些~100个文件中的每一个都含有约20,000个这些基因。问题是我的文件是这样组织的 Gene1 ID混合在一起 Gene2 标识。

对于我的分析,我需要我所有的 Gene1 ID在一个地方组织。理想情况下,我最终会得到一个文件 GeneX,像这样:

期望的决赛 Gene1 文件:

> Gene1_id1
GATCGATCCGA
ATGCAGTCCAG

> Gene1_id2
TAGCTAGCAGT
TAGCTAGCCGA

基因之间和基因内个体之间的序列长度不同,因此我需要标题行下方和下一个标题行上方的所有行与标题相关联。

我目前的解决方案是获取每个文件,然后根据每行的标题创建一个新文件。所以第一个文件创建了三个新文件:一个用于 >Gene1_id1,一个 >Gene2_id1和一个 Gene1_id2。从那里开始,我计划重新组织以满足我的需求。

上述方法的问题在于它创建了大约800,000个类似命名的文件,这些文件正在杀死我的计算机。肯定有更好的办法。

关于如何进行的任何建议?谢谢

-Hannah

资讯来源:由0x资讯编译自DEV,原文:https://dev.to/hannahkfrank/how-to-re-organize-hundreds-of-thousands-of-files-554g ,版权归作者所有,未经许可,不得转载
你可能还喜欢