[PHP] file compare

vrijdag 7 juli 2006 16:37

Acties:

Verwijderd

Topicstarter

Ik wil graag en php pagina maken die de verschillen tussen 2 bestanden wegschrijft in een derde bestand (om zo alleen de updates is het 3e bestand te zetten).
In command kun je zeer gemakkelijk doen met file compare (fc 1.txt 2.txt -> 3.txt).
Hoe doe ik dit met behulp van php (en dus niet door bijv. lijn1 van 1.txt te pakken en dan alle lijnen door te gaan van 2.txt om te kijken of hij er in voor komt (de tekstbestanden hebben namelijk 29 000 regels en dan moet het 29 000 x 29 000 = 841 000 000 stappen doen / regels vergelijken)).
Weet iemand hievoor een functie?

Dus niet iets in de trend:

PHP:

<?php
$open1 = file ("1.txt");
foreach ($open1 as $regel1){
    $open2 = file ("2.txt");
    $nieuwelijn = "ja";
    foreach ($open2 as $regel2){
        if ($regel1 == $regel2){
            $nieuwelijn = "nee";
        }
    }
    if ($nieuwelijn == "ja"){
        $fp = fopen("3.txt", "a+");
        fwrite ($fp, "$regel1
        ");
        fclose ($fp);
    }
}
?>

vrijdag 7 juli 2006 16:45

Acties:

plakbandrol

kun je niet de system() functie gebruiken om compare uit te voeren (aangenomen dat je linux gebruikt)

vrijdag 7 juli 2006 16:47

Acties:

AtleX

Tyrannosaurus Lex 🦖

PHP:

if (file_get_contents('1.txt') === file_get_contents('2.txt'))
  {
    echo 'He, wij zijn hetzelfde';
  }

Zoiets?

Sole survivor of the Chicxulub asteroid impact.

vrijdag 7 juli 2006 16:49

Acties:

NMe

Quia Ego Sic Dico.

Php

offtopic:
Wel eens van booleans gehoord?

$nieuwelijn zou een boolean moeten zijn.

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.

vrijdag 7 juli 2006 16:50

Acties:

Verwijderd

Wat dacht je van 2 hashes aanmaken van beiden bestanden en deze vergelijken? Om alleen te kijken of de bestanden gelijk zijn lijkt mij dat wel voldoende. De kans dat 2 bestanden dezelfde hash opleveren is redelijk klein. Als je bijna helemaal zeker wil zijn vergelijk je de hash (of md5 of sha1) van de bestanden en de bestandsgrootte. Hele grote kans dat als beide overeenkomen dat de bestanden hetzelfde zijn en het is misschien wat minder geheugen intensief. Daarbij werkt op zowel linux al windows systemen.

Als je dan de verschillen wil wegschrijven zou ik geen gebruik maken van file_get_contents of file, omdat hij dan beide bestanden in het geheugen gaat zetten. Je kunt dan beter gewoon de fopen gebruiken en dan fgets om elke keer uit elk bestand 1 regel te halen. Is minder geheugen intensief en waarschijnlijk ook sneller.

Of zoek even op google, er zijn gewoon filecompare classes en functies al gemaakt door mensen. Maar ik ben toch bang dat als je het cross platform wil houden, dat ze ergens wel een compare van de regels hebben gebruikt, dus als ze dat ook niet mogen doen omdat je niets in die trend wil, wordt het moeilijk denk ik.

[ Voor 61% gewijzigd door Verwijderd op 07-07-2006 17:07 ]

vrijdag 7 juli 2006 16:52

Acties:

frickY

Kijk eens naar PHP's functies voor programma uitvoer
Met oa. exec() kun je gebruik maken van 'fc' op de command.

vrijdag 7 juli 2006 17:21

Acties:

plakbandrol

volgens mij wil TS niet alleen weten of de files hetzelfde zijn, maar juist wat de verschillen zijn

vrijdag 7 juli 2006 17:30

Acties:

BasieP

plakbandrol schreef op vrijdag 07 juli 2006 @ 17:21:
volgens mij wil TS niet alleen weten of de files hetzelfde zijn, maar juist wat de verschillen zijn

als dat zo is kan hij waarschijnlijk nog steeds linux tools gebruiken, maar mocht hij het in php willen doen:

gewoon loopje doen die door allebij de files tegelijk heen loopt.
wat je doet is het volgende:

1 je leest van bijde files 1 regel
2 die vergleijk je, als ze gelijk zijn doe je dit gewoon nog een keer etc.
3 als ze niet gelijk zijn doe je het volgende:
4 de regel van bestand 2 is 'fout', 'extra' of iig 'anders'
5 lees een nieuwe regel van bestand 2
6 vergelijk die met de regel van de eerste
7 als ze ongelijk zijn ga je naar stap 4

stel dat dit je bestanden zijn:
file 1

hoi
ik ben 
BasieP
ofzo

file 1

hoi
ik ben 
Erica
Terpstra
ofzo

je output is dan:

Erica
Terpstra

[ Voor 14% gewijzigd door BasieP op 07-07-2006 17:32 ]

This message was sent on 100% recyclable electrons.

vrijdag 7 juli 2006 19:42

Acties:

Verwijderd

Topicstarter

Mijn bestanden bestaan uit 29 000 regels, en ik wil NIET bij elke regel uit tekst 1 ALLE regels nalopen uit tekst 2 om te kijken of er een dezelfde regel in tekst 2 voorkomt (ze zijn aangegeven met id's). (Ook elke regel nalopen uit tekst 2 om te kijken of het hetzelfde regelnummer heeft als tekst 1 en dan vergelijken duurt veel telang).
Maar hoe kan je nou juist zeggen "ga naar regel 15 000" zonder alle 14 999 regels die ervoor komen
over te slaan en dus niet uit te lezen??

vrijdag 7 juli 2006 19:49

Acties:

NMe

Quia Ego Sic Dico.

Php

Verwijderd schreef op vrijdag 07 juli 2006 @ 19:42:
Mijn bestanden bestaan uit 29 000 regels, en ik wil NIET bij elke regel uit tekst 1 ALLE regels nalopen uit tekst 2 om te kijken of er een dezelfde regel in tekst 2 voorkomt

Wat denk je dat fc intern doet?

(Al zal dat natuurlijk wat optimalisatieslagen hebben.)

Maar hoe kan je nou juist zeggen "ga naar regel 15 000" zonder alle 14 999 regels die ervoor komen
over te slaan en dus niet uit te lezen??

Niet. Je zal toch echt moeten lezen. Als je precies weet na hoeveel bytes de 15.000e regel begint kun je fseek gebruiken, maar anders zul je iets moeten doen als dit:

PHP:

1 2	for ($i = 0; $i < 14999; $i++) fgets($filePointer);

Overigens zie ik niet wat dat met het probleem in je topicstart te maken heeft?

[ Voor 4% gewijzigd door NMe op 07-07-2006 19:49 ]

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.

vrijdag 7 juli 2006 19:57

Acties:

plakbandrol

als hij het bestand per regel vergelijkt, en je neemt twee identieke bestanden waarbij je bij het ene bestand een witregel aan het begin zet, dan matched geen enkele regel meer, waardoor hij denkt dat het bestand 100% anders is..

lijkt me niet handig

vrijdag 7 juli 2006 20:12

Acties:

pimlie

Als je de gegevens per regel gaat bekijken, waarom dan niet zo:

PHP:

$f1 = file("bestand1.txt");
$f2 = file("bestand2.txt");

$a1 = array_diff($f1, $f2); // regels uit f1 die niet in f2 zitten
$a2 = array_diff($f2, $f1); // regels uit f2 die niet in f1 zitten

$a3 = array_merge($a1, $a2);

Geen idee of dit een beetje performed met grote array's maar wellicht een optie. Of moet je ook weten welke regelnummers verschillend zijn? (kan je natuurlijk ook wel weer achterkomen)

vrijdag 7 juli 2006 22:23

Acties:

BasieP

Verwijderd schreef op vrijdag 07 juli 2006 @ 19:42:
Mijn bestanden bestaan uit 29 000 regels, en ik wil NIET bij elke regel uit tekst 1 ALLE regels nalopen uit tekst 2 om te kijken of er een dezelfde regel in tekst 2 voorkomt (ze zijn aangegeven met id's). (Ook elke regel nalopen uit tekst 2 om te kijken of het hetzelfde regelnummer heeft als tekst 1 en dan vergelijken duurt veel telang).
Maar hoe kan je nou juist zeggen "ga naar regel 15 000" zonder alle 14 999 regels die ervoor komen
over te slaan en dus niet uit te lezen??

volgens mij snap je mijn oplossing niet. deze is sequentieel, en je loopt dus 1x door beide files heen, in 1 loop. dwz, je itereert zo vaak als je regels hebt in je grootste bestand

This message was sent on 100% recyclable electrons.

vrijdag 7 juli 2006 22:26

Acties:

Verwijderd

Kun je niet het levensthein algoritme gebruiken om dan een diff te doen van twee bestanden en zo de verschillen te extraheren?

vrijdag 7 juli 2006 22:35

Acties:

Raynman

plakbandrol schreef op vrijdag 07 juli 2006 @ 19:57:
als hij het bestand per regel vergelijkt, en je neemt twee identieke bestanden waarbij je bij het ene bestand een witregel aan het begin zet, dan matched geen enkele regel meer, waardoor hij denkt dat het bestand 100% anders is..

http://www.php.net/manual/en/function.trim.php

vrijdag 7 juli 2006 23:18

Acties:

plakbandrol

numlockrondje schreef op vrijdag 07 juli 2006 @ 22:35:
[...]

http://www.php.net/manual/en/function.trim.php

die witregel kan ook een willekeurige andere tekst zijn natuurlijk.. dan werkt trim niet

[ Voor 5% gewijzigd door plakbandrol op 07-07-2006 23:19 ]

maandag 10 juli 2006 13:37

Acties:

Verwijderd

Topicstarter

Beste pimlie,

Bedankt voor jouw reactie!!!! Het werkt perfect!!!!! En nog redelijk snel ook!!!!

$_/-\o_$

maandag 10 juli 2006 17:39

Acties:

MissingDog

Check PEAR eens voor de Text_Diff API, doet ook wat jij wilt volgens mij en is door heel veel mensen getest/geimplementeerd inmiddels...vast een bruikbaar speeltje.

maandag 10 juli 2006 18:46

Acties:

Grijze Vos

Verwijderd schreef op maandag 10 juli 2006 @ 13:37:
Beste pimlie,

Bedankt voor jouw reactie!!!! Het werkt perfect!!!!! En nog redelijk snel ook!!!! $_/-\o_$

Euhm nee.

De bestanden:

code:

1
2
3

1
2
3

en:

code:

1
2
3

3
2
1

Ziet array_diff als hetzelfde als ik me niet vergis.

Op zoek naar een nieuwe collega, .NET webdev, voornamelijk productontwikkeling. DM voor meer info

Onderwerpen