#help建议在文本中使用标头重新组织大型数据集

发表于 2019年8 月14日星期三上午 9:55:04

嗨开发社区，

我有以下结构中的100多个文件（称为FASTA – 对于那些花时间查看遗传数据的人来说非常熟悉）：

原始文件1：

> Gene1_id1
GATCGATCCGA
ATGCAGTCCAG

> Gene2_id1
ATGCATGCAGC
ACTAGGCCACG
CCGTAGCGGAC

> Gene1_id2
TAGCTAGCAGT
TAGCTAGCCGA

这些~100个文件中的每一个都含有约20,000个这些基因。问题是我的文件是这样组织的 Gene1 ID混合在一起 Gene2 标识。

对于我的分析，我需要我所有的 Gene1 ID在一个地方组织。理想情况下，我最终会得到一个文件 GeneX，像这样：

期望的决赛 Gene1 文件：

> Gene1_id1
GATCGATCCGA
ATGCAGTCCAG

> Gene1_id2
TAGCTAGCAGT
TAGCTAGCCGA

基因之间和基因内个体之间的序列长度不同，因此我需要标题行下方和下一个标题行上方的所有行与标题相关联。

我目前的解决方案是获取每个文件，然后根据每行的标题创建一个新文件。所以第一个文件创建了三个新文件：一个用于 >Gene1_id1，一个 >Gene2_id1和一个 Gene1_id2。从那里开始，我计划重新组织以满足我的需求。

上述方法的问题在于它创建了大约800,000个类似命名的文件，这些文件正在杀死我的计算机。肯定有更好的办法。

关于如何进行的任何建议？谢谢

-Hannah

资讯来源：由0x资讯编译自DEV，原文：https://dev.to/hannahkfrank/how-to-re-organize-hundreds-of-thousands-of-files-554g ，版权归作者所有，未经许可，不得转载