Quelle quantité de mémoire serait nécessaire pour stocker l’ADN humain?

Je cherche la quantité de mémoire en octets (Mo, Go, To, peu importe) nécessaire pour stocker un seul ADN humain. J’ai lu quelques articles sur Wikipedia à propos de l’ADN, des chromosomes, des paires de bases, des gènes, et j’ai une idée approximative, mais avant de divulguer quoi que ce soit, j’aimerais voir comment les autres pourraient aborder cette question.

La question alternative serait de savoir combien d’atomes sont présents dans l’ADN humain, mais cela serait hors sujet pour ce site.

Je comprends que ce sera une approximation, donc je cherche une valeur minimale qui pourrait stocker l’ADN de n’importe quel humain.

Si vous faites confiance à de telles choses, voici ce que prétend Wikipedia ( http://en.wikipedia.org/wiki/Human_genome#Information_content ):

Les 2,9 milliards de paires de bases du génome humain haploïde correspondent à un maximum d’environ 725 Mo de données, puisque chaque paire de bases peut être codée par 2 bits. Étant donné que les génomes individuels varient de moins de 1% les uns des autres, ils peuvent être compressés sans perte à environ 4 mégaoctets.

Vous ne stockez pas tout l’ADN dans un seul stream … le plus souvent, il est stocké par chromosome

Un gros chromosome prend environ 300 MB un petit environ 50 MB


Modifier:

Je pense que la première raison pour laquelle il n’est pas enregistré en 2 bits par paire de base est que cela gênerait le travail avec les données. La plupart des gens ne sauraient pas comment le convertir. Et même lorsqu’un programme de conversion serait donné, beaucoup de personnes dans les grandes entresockets ou les instituts de recherche ne sont pas autorisées à / ont besoin de demander ou de ne pas savoir comment installer des programmes …

1 Go de stockage ne coûte rien .. même le téléchargement de 3 Go ne prend que 4 minutes avec 100 MBit et la plupart des entresockets ont une connexion plus rapide.

Un autre point est que les données ne sont pas aussi simples que vous le dites toujours.

Par exemple, la méthode de séquençage inventée par Craig_Venter a été un grand pas en avant mais a également ses sites en panne. Il ne pouvait pas séparer les longues chaînes de la même paire de base, de sorte qu’il n’est pas toujours clair à 100% s’il y a 8 A ou 9 A. Les choses dont vous deviez vous occuper plus tard.

Un autre exemple est la méthylation de l’ ADN . Une telle information que vous ne pouvez pas stocker dans une représentation à 2 bits.

Fondamentalement, chaque paire de base prend 2 bits (vous pouvez utiliser 00, 01, 10, 11 pour T, G, C et A). Comme il y a environ 2,9 milliards de paires de bases dans le génome humain, (2 * 2,9 milliards) bits ~ = 691 mégaoctets.

Je ne suis pas un expert, cependant, la page Human Genome sur Wikipedia indique ce qui suit:

Raw MB:

  • Mâle (XY): 770MB
  • Femme (XX): 756MB

Je ne sais pas d’où vient leur variance, mais je suis sûr que vous pouvez le comprendre.

Oui, la RAM minimale requirejse pour l’ADN humain entier est d’environ 770 MB. Cependant, la représentation à 2 bits est pratique. Il est difficile de faire des recherches ou de faire des calculs. Par conséquent, certains mathématiciens ont conçu un moyen plus efficace de stocker ces séquences de bases … et de les utiliser dans des algorithmes de recherche et de comparaison, tels que GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html). Cette application fonctionne sur mon PC en ce moment, alors je peux vous dire qu’elle contient pratiquement l’ADN stocké à environ 1 563 Mo.

Le génome humain contient 2,9 milliards de paires de bases. Donc, si vous représentiez chaque paire de base sous forme d’octet, cela prendrait 2,9 milliards d’octets ou 2,9 Go. Vous pourriez probablement trouver une manière plus créative de stocker des paires de bases, car chaque paire de base ne nécessite que 2 bits. Vous pouvez donc probablement stocker 4 paires de bases par octet, ce qui réduit le total de moins d’un Go.

Il y a 4 bases nucléotidiques qui constituent notre ADN. Il s’agit de A, C, G, T, donc pour chaque base de l’ADN occupe 2 bits. Il y a environ 2,9 milliards de bases, soit environ 700 mégaoctets. La chose étrange est que cela remplirait un cd de données normal! coïncidence?!?

Je l’ai juste fait aussi. la séquence brute est d’environ 700 MB. si l’on utilise une séquence de stockage fixe ou un algorithme de stockage à séquence fixe – et que les modifications sont de 1%, j’ai calculé environ 120 Mo avec un stockage par séquence de temps-séquencé-perchromosome. c’est tout pour le stockage.

La plupart des réponses, à l’exception des utilisateurs slayton, rauchen et Paul Amstrong, sont complètement fausses si elles ne concernent que le stockage individuel sans techniques de compression.

Le génome humain avec 3Gb de nucléotides correspond à 3 Gb d’octets et non à environ 750 Mo. Selon NCBI, le génome “hpaloïde” construit a actuellement une taille de 3436687 kb ou 3,436687 Gb. Vérifiez ici pour vous-même.

Haploïde = copie unique d’un chromosome. Diploïde = deux versions d’haploïdes. Les humains ont 22 chromosomes uniques x 2 = 44. Le 23ème chromosome masculin est X, Y et fait 46 au total. Femelles 23ème chrom. est X, X et donc 46 au total.

Pour les hommes, il s’agirait de 23 + 1 chromosomes dans le stockage de données sur un disque dur et de 23 chromosomes chez les femmes, ce qui expliquerait les petites différences mentionnées de temps en temps dans les réponses. Le chrom X chez les hommes est égal à X chrom. des femelles.

Ainsi, le chargement du génome (23 + 1) en mémoire se fait par parties via BLAST en utilisant des bases de données construites à partir de fichiers fasta. Indépendamment des versions zippées ou non, les nucléotides sont difficilement compressibles. Au début, l’une des astuces utilisées consistait à remplacer les répétitions en tandem (GACGACGAC avec un codage plus court, par exemple “3GAC”: 9 octets à 4 octets). La raison était d’économiser de l’espace disque dur (zone des plateaux HDDD de 500 à 2 Go avec 7 200 tr / min et connecteurs SCSI). Pour la recherche de séquence, cela a également été fait avec la requête.

Si le stockage de “nucléotides codés” serait de 2 bits par lettre, vous obtenez un octet:

A = 00
C = 01
G = 10
T = 11

De cette façon, vous profitez pleinement des positions 1, 2, 3, 4, 5, 6, 7 et 8 pour 1 octet de codage. Par exemple la combinaison 00.01.10.11 correspondant à “ACTG”. Cela seul est responsable de la réduction de 4 fois la taille du fichier, comme nous le voyons dans d’autres réponses. Ainsi, 3.4Gb sera réduit à 0.85917175 Gb … ~ 860MB incluant un programme de conversion alors requirejs (23kb-4mb).

Mais … en biologie, vous voulez pouvoir lire quelque chose, donc la compression compressée est plus que suffisante. Dézippé, vous pouvez toujours le lire. Si ce remplissage d’octet était utilisé, il devient plus difficile de lire les données. C’est pourquoi les fichiers fasta sont en réalité des fichiers en texte brut.

Une base – T, C, A, G (dans le système de nombres de base 4: 0, 1, 2, 3) – est codée sous la forme de deux bits (pas un), donc une paire de bases est codée par quatre bits .

Il n’y a que 2 types de paires de bases, la cytosine ne peut se lier qu’à la guanine, et l’adénine ne peut se lier qu’à la thymine. Ainsi, chaque paire de bases peut être considérée comme un seul bit. Cela signifie qu’un bout entier d’ADN humain ~ 3 milliards de “bits” serait juste autour d’environ 350 mégaoctets.