Lire des fichiers volumineux en Java

J’ai besoin des conseils de quelqu’un qui connaît très bien Java et des problèmes de mémoire. J’ai un gros fichier (quelque chose comme 1,5 Go) et je dois couper ce fichier dans de nombreux fichiers (100 petits fichiers par exemple) plus petits.

Je sais généralement comment le faire (en utilisant un BufferedReader ), mais j’aimerais savoir si vous avez des conseils concernant la mémoire ou des conseils pour le faire plus rapidement.

Mon fichier contient du texte, il n’est pas binary et j’ai environ 20 caractères par ligne.

Premièrement, si votre fichier contient des données binarys, alors utiliser BufferedReader serait une grosse erreur (car vous convertiriez les données en Ssortingng, ce qui est inutile et pourrait facilement corrompre les données); vous devriez utiliser un BufferedInputStream place. S’il s’agit de données textuelles et que vous devez les diviser le long des sauts de ligne, l’utilisation de BufferedReader est correcte (en supposant que le fichier contient des lignes d’une longueur raisonnable).

En ce qui concerne la mémoire, il ne devrait y avoir aucun problème si vous utilisez un tampon de taille décente (j’utiliserais au moins 1 Mo pour vous assurer que le HD effectue principalement des lectures et des écritures séquentielles).

Si la vitesse s’avère être un problème, vous pouvez consulter les paquets java.nio – ils sont censés être plus rapides que java.io ,

Pour économiser de la mémoire, ne stockez / dupliquez pas inutilement les données en mémoire (c.-à-d. Ne les affectez pas aux variables en dehors de la boucle). Il suffit de traiter la sortie immédiatement dès l’entrée.

Peu importe que vous utilisiez ou non BufferedReader . Cela ne coûtera pas beaucoup plus de mémoire, comme certains semblent le suggérer implicitement. Au maximum, il ne touchera que quelques% de la performance. La même chose s’applique à l’utilisation de NIO. Cela n’améliorera que l’évolutivité, pas l’utilisation de la mémoire. Cela ne deviendra intéressant que lorsque des centaines de threads seront exécutés sur le même fichier.

Faites simplement une boucle dans le fichier, écrivez chaque ligne immédiatement dans un autre fichier au fur et à mesure de votre lecture, comptez les lignes et si elle atteint 100, passez au fichier suivant, etc.

Exemple de coup d’envoi:

 Ssortingng encoding = "UTF-8"; int maxlines = 100; BufferedReader reader = null; BufferedWriter writer = null; try { reader = new BufferedReader(new InputStreamReader(new FileInputStream("/bigfile.txt"), encoding)); int count = 0; for (Ssortingng line; (line = reader.readLine()) != null;) { if (count++ % maxlines == 0) { close(writer); writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream("/smallfile" + (count / maxlines) + ".txt"), encoding)); } writer.write(line); writer.newLine(); } } finally { close(writer); close(reader); } 

Vous pouvez envisager d’utiliser des fichiers mappés en mémoire via FileChannel s.

Généralement beaucoup plus rapide pour les gros fichiers. Il y a des compromis de performance qui pourraient le ralentir, alors YMMV.

Réponse associée: Java NIO FileChannel versus FileOutputstream performance / Utilities

Ceci est un très bon article: http://java.sun.com/developer/technicalArticles/Programming/PerfTuning/

En résumé, pour de bonnes performances, vous devez:

  1. Évitez d’accéder au disque.
  2. Evitez d’accéder au système d’exploitation sous-jacent.
  3. Évitez les appels de méthode.
  4. Évitez de traiter les octets et les caractères individuellement.

Par exemple, pour réduire l’access au disque, vous pouvez utiliser un grand tampon. L’article décrit différentes approches.

Est-ce que cela doit être fait en Java? Est-ce que cela doit être indépendant de la plate-forme? Sinon, je vous suggère d’utiliser la commande ‘ split ‘ dans * nix. Si vous le voulez vraiment, vous pouvez exécuter cette commande via votre programme Java. Bien que je n’ai pas testé, j’imagine qu’il est plus rapide que l’implémentation de Java IO que vous pourriez trouver.

Vous pouvez utiliser java.nio qui est plus rapide que le stream d’entrée / sortie classique:

http://java.sun.com/javase/6/docs/technotes/guides/io/index.html

Oui. Je pense également que l’utilisation de read () avec des arguments comme read (Char [], int init, int end) est un meilleur moyen de lire un fichier aussi volumineux (ex: read (buffer, 0, buffer.length))

Et j’ai également rencontré le problème des valeurs manquantes d’utilisation de BufferedReader au lieu de BufferedInputStreamReader pour un stream d’entrée de données binarys. L’utilisation de BufferedInputStreamReader est donc bien meilleure dans ce cas.

N’utilisez pas de lecture sans arguments. C’est très lent. Il vaut mieux le lire pour le mettre en mémoire tampon et le déplacer rapidement dans un fichier.

Utilisez bufferedInputStream car il prend en charge la lecture binary.

Et c’est tout.

À moins que vous ne lisiez accidentellement tout le fichier d’entrée au lieu de le lire ligne par ligne, votre limitation principale sera la vitesse du disque. Vous pouvez essayer de commencer avec un fichier contenant 100 lignes et l’écrire sur 100 fichiers différents, une ligne par unité, et faire fonctionner le mécanisme de déclenchement sur le nombre de lignes écrites dans le fichier en cours. Ce programme sera facilement adaptable à votre situation.

 package all.is.well; import java.io.IOException; import java.io.RandomAccessFile; import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; import junit.framework.TestCase; /** * @author Naresh Bhabat * Following implementation helps to deal with extra large files in java. This program is tested for dealing with 2GB input file. There are some points where extra logic can be added in future. Pleasenote: if we want to deal with binary input file, then instead of reading line,we need to read bytes from read file object. It uses random access file,which is almost like streaming API. * **************************************** Notes regarding executor framework and its readings. Please note :ExecutorService executor = Executors.newFixedThreadPool(10); * for 10 threads:Total time required for reading and writing the text in * :seconds 349.317 * * For 100:Total time required for reading the text and writing : seconds 464.042 * * For 1000 : Total time required for reading and writing text :466.538 * For 10000 Total time required for reading and writing in seconds 479.701 * * */ public class DealWithHugeRecordsinFile extends TestCase { static final Ssortingng FILEPATH = "C:\\springbatch\\bigfile1.txt.txt"; static final Ssortingng FILEPATH_WRITE = "C:\\springbatch\\writinghere.txt"; static volatile RandomAccessFile fileToWrite; static volatile RandomAccessFile file; static volatile Ssortingng fileContentsIter; static volatile int position = 0; public static void main(Ssortingng[] args) throws IOException, InterruptedException { long currentTimeMillis = System.currentTimeMillis(); try { fileToWrite = new RandomAccessFile(FILEPATH_WRITE, "rw");//for random write,independent of thread obstacles file = new RandomAccessFile(FILEPATH, "r");//for random read,independent of thread obstacles seriouslyReadProcessAndWriteAsynch(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } Thread currentThread = Thread.currentThread(); System.out.println(currentThread.getName()); long currentTimeMillis2 = System.currentTimeMillis(); double time_seconds = (currentTimeMillis2 - currentTimeMillis) / 1000.0; System.out.println("Total time required for reading the text in seconds " + time_seconds); } /** * @throws IOException * Something asynchronously serious */ public static void seriouslyReadProcessAndWriteAsynch() throws IOException { ExecutorService executor = Executors.newFixedThreadPool(10);//pls see for explanation in comments section of the class while (true) { Ssortingng readLine = file.readLine(); if (readLine == null) { break; } Runnable genuineWorker = new Runnable() { @Override public void run() { // do hard processing here in this thread,i have consumed // some time and ignore some exception in write method. writeToFile(FILEPATH_WRITE, readLine); // System.out.println(" :" + // Thread.currentThread().getName()); } }; executor.execute(genuineWorker); } executor.shutdown(); while (!executor.isTerminated()) { } System.out.println("Finished all threads"); file.close(); fileToWrite.close(); } /** * @param filePath * @param data * @param position */ private static void writeToFile(Ssortingng filePath, Ssortingng data) { try { // fileToWrite.seek(position); data = "\n" + data; if (!data.contains("Randomization")) { return; } System.out.println("Let us do something time consuming to make this thread busy"+(position++) + " :" + data); System.out.println("Lets consume through this loop"); int i=1000; while(i>0){ i--; } fileToWrite.write(data.getBytes()); throw new Exception(); } catch (Exception exception) { System.out.println("exception was thrown but still we are able to proceeed further" + " \n This can be used for marking failure of the records"); //exception.printStackTrace(); } } }