#help建议在文本中使用标头重新组织大型数据集
嗨开发社区,
我有以下结构中的100多个文件(称为FASTA – 对于那些花时间查看遗传数据的人来说非常熟悉):
原始文件1:
> Gene1_id1
GATCGATCCGA
ATGCAGTCCAG> Gene2_id1
ATGCATGCAGC
ACTAGGCCACG
CCGTAGCGGAC> Gene1_id2
TAGCTAGCAGT
TAGCTAGCCGA
这些~100个文件中的每一个都含有约20,000个这些基因。问题是我的文件是这样组织的 Gene1
ID混合在一起 Gene2
标识。
对于我的分析,我需要我所有的 Gene1
ID在一个地方组织。理想情况下,我最终会得到一个文件 GeneX
,像这样:
期望的决赛 Gene1
文件:
> Gene1_id1
GATCGATCCGA
ATGCAGTCCAG> Gene1_id2
TAGCTAGCAGT
TAGCTAGCCGA
基因之间和基因内个体之间的序列长度不同,因此我需要标题行下方和下一个标题行上方的所有行与标题相关联。
我目前的解决方案是获取每个文件,然后根据每行的标题创建一个新文件。所以第一个文件创建了三个新文件:一个用于 >Gene1_id1
,一个 >Gene2_id1
和一个 Gene1_id2
。从那里开始,我计划重新组织以满足我的需求。
上述方法的问题在于它创建了大约800,000个类似命名的文件,这些文件正在杀死我的计算机。肯定有更好的办法。
关于如何进行的任何建议?谢谢
-Hannah