Troubleshoot: twee txt files met = inhoud en <> file size

Pagina: 1
Acties:

Onderwerpen

Vraag


Acties:
  • 0 Henk 'm!

  • Dryhte
  • Registratie: November 2007
  • Laatst online: 01-06 20:04
Mijn vraag
...

Ik produceer text files (TSV) als input voor een computerprogramma.
Normaal schrijf ik die weg op een windows server (lokaal) maar een gebruiker had deze op de SAP server weggeschreven (linux). De bestanden (of tenminste één bestand) van op de linux server wordt niet correct ingelezen door het verwerkende programma. Ze hebben nochtans dezelfde inhoud (minus 1 CR LF).

Wat ik opmerk is, dat de file size van het bestand dat origineel aangemaakt werd op de linux server veel groter is, terwijl ik geen verschil opmerk als ik het bestand door een hex editor haal of als ik non-printable characters weergeef in NP++.
filesize

Heeft iemand een idee hoe ik dit verder kan troubleshooten? Zou het aan encoding kunnen liggen? (NP++ toont bij deze bestanden geen encoding anders dan Windows (CR LF) ANSI)
top

bottom

Relevante software en hardware die ik gebruik
...

SAP, windows, linux, NP++

Wat ik al gevonden of geprobeerd heb
...

Notepad ++, hex editor

Beste antwoord (via Dryhte op 28-11-2018 11:36)


  • Donaldinho
  • Registratie: November 2002
  • Laatst online: 11:17
Apart, wat gebeurt er als je de files vergelijkt met bijvoorbeeld winmerge (ook portable)?

You almost can’t blame him or the other diet gurus for leaning in on the techno-bullshit market; it’s hard to fill up a 300 page diet book on “eat a bit less and find a type of exercise that doesn’t make you hate life.”

Alle reacties


Acties:
  • Beste antwoord
  • +1 Henk 'm!

  • Donaldinho
  • Registratie: November 2002
  • Laatst online: 11:17
Apart, wat gebeurt er als je de files vergelijkt met bijvoorbeeld winmerge (ook portable)?

You almost can’t blame him or the other diet gurus for leaning in on the techno-bullshit market; it’s hard to fill up a 300 page diet book on “eat a bit less and find a type of exercise that doesn’t make you hate life.”


Acties:
  • +1 Henk 'm!

  • Khallouki
  • Registratie: Oktober 2006
  • Laatst online: 31-05 22:00
Wat voor foutmelding geeft het verwerkende programma?

Acties:
  • +2 Henk 'm!

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
Er wordt geheid een twee-byte encoding als DBCS / UCS-2 / UTF-16 o.i.d. gebruikt i.p.v. een encoding als ASCII of UTF-8. Het bestand is ook precies 2 keer zo groot.
Dryhte schreef op woensdag 28 november 2018 @ 10:58:
Wat ik al gevonden of geprobeerd heb
...

[...] hex editor
Daarin moet je 't verschil (kunnen) zien. Zie je daar géén verschil in dan is er geen verschil (of je hebt een hele gare hex-editor). Dus kijk nog maar eens opnieuw.

[ Voor 82% gewijzigd door RobIII op 28-11-2018 11:15 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


Acties:
  • +1 Henk 'm!

  • desmond
  • Registratie: Januari 2004
  • Niet online
Wat levert ALT-D op in Notepad++? Geen diff zou bijzonder zijn met dubbele bestandsgrootte. Ik weet niet of encoding-verschillen als diff worden aangemerkt. Een Hex-editor zou dan de truc moeten doen.

Acties:
  • +1 Henk 'm!

  • Dryhte
  • Registratie: November 2007
  • Laatst online: 01-06 20:04
Winmerge:
Winmerge

Verschil is dus een UTF8 vs UTF16 én een andere EOL modus.

Bizar dat je dat niet ziet in Notepad++.

Iemand een idee of er een manier is om dit wel te laten zien in NP++?

Oh en de foutmelding meldt iets over duplicate entries, maar als het programma (waar ik geen controle over heb) die UTF16 [00] als een karakter beschouwt kan ik me daar wel iets bij voorstellen.

Acties:
  • +1 Henk 'm!

  • Donaldinho
  • Registratie: November 2002
  • Laatst online: 11:17
op Linux zou je file type/encoding nog kunnen vergelijken met het 'file' commando. Weet niet wat het Windows equivalent is.

You almost can’t blame him or the other diet gurus for leaning in on the techno-bullshit market; it’s hard to fill up a 300 page diet book on “eat a bit less and find a type of exercise that doesn’t make you hate life.”


Acties:
  • 0 Henk 'm!

  • Dryhte
  • Registratie: November 2007
  • Laatst online: 01-06 20:04
@RobIII het was de hex editor plugin van Notepad++, die liet niets zien... itt winmerge
@desmond Waar zit die diff tool in NP++? Alt-D doet niets (en ik vind dit ook niet terug in de menustructuur)

Acties:
  • +2 Henk 'm!

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
Dryhte schreef op woensdag 28 november 2018 @ 11:16:
Bizar dat je dat niet ziet in Notepad++.
Eerder bizar dat je een veredelde notepad hiervoor gebruikt en/of verwacht van een veredelde notepad dit voor je te tonen. Notepad++ doet (in je screenshots in je topicstart) precies wat 't moet doen: tekst weergeven.
Dryhte schreef op woensdag 28 november 2018 @ 11:16:
Iemand een idee of er een manier is om dit wel te laten zien in NP++?
Geen idee, maar waarom wil je dit met NP++ oplossen 8)7
Dryhte schreef op woensdag 28 november 2018 @ 11:19:
@RobIII het was de hex editor plugin van Notepad++, die liet niets zien... itt winmerge
Die ken ik niet maar overboord ermee dan :X * Gebruik FrHed ofzo.

* Ik heb wel een zwaar vermoeden hoe 't komt, maar dat zou echt kansloos zijn... Ik vermoed dat die "plugin" de bytes weergeeft van de tekst zoals die in NP++ ingeladen is (dus nadat NP++ een interne conversie gedaan heeft) i.p.v. de bytes zoals ze daadwerkelijk op disk staan |:( Dus: gare hex-editor it is...

[ Voor 37% gewijzigd door RobIII op 28-11-2018 11:25 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


Acties:
  • +2 Henk 'm!

  • Dryhte
  • Registratie: November 2007
  • Laatst online: 01-06 20:04
8)7 sjah, mijn default text tooltje, ik ging ervan uit dat ik het hiermee zou kunnen troubleshooten. Eerste keer dat ik een text probleempje heb van deze aard ('k zit hier een beetje buiten mijn comfort zone)

EDIT: In elk geval, bedankt allemaal om te helpen :)

Wat hebben we geleerd vandaag:
- NP++ is niet helemaal betrouwbaar waar het non printable characters aangaat (toont LF als CRLF) & past zich transparant aan aan de encoding
- NP++ hex editor plugin is waardeloos
- WinMerge is een handige diff tool
- FrHed werkt prima als hex editor

[ Voor 45% gewijzigd door Dryhte op 28-11-2018 11:40 ]


Acties:
  • +1 Henk 'm!

  • desmond
  • Registratie: Januari 2004
  • Niet online
Dryhte schreef op woensdag 28 november 2018 @ 11:19:
@RobIII het was de hex editor plugin van Notepad++, die liet niets zien... itt winmerge
@desmond Waar zit die diff tool in NP++? Alt-D doet niets (en ik vind dit ook niet terug in de menustructuur)
Achter Plugins->Compare

http://sourceforge.net/projects/npp-plugins/

[ Voor 15% gewijzigd door desmond op 28-11-2018 12:31 ]


Acties:
  • +1 Henk 'm!

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
Dryhte schreef op woensdag 28 november 2018 @ 11:22:
- NP++ is niet helemaal betrouwbaar waar het non printable characters aangaat (toont LF als CRLF) & past zich transparant aan aan de encoding
Ook hier vermoed ik dat tijdens 't inladen de LF naar CRLF 'conversie' al plaatsvindt en dat NP++ dus daarna niet meer 'weet' of 't een LF of CRLF was.

Ik ken NP++ verder amper (heb 't jaren geleden een week geprobeerd) maar je hebt wel de latest-and-greatest versie enzo? Anders zou ik je bevindingen uit dit topic melden (maar nu ik daar kijk: gezien er nog tweederde van de issues open staat en er meer dan 2386 issues open zijn... :X kleine kans dat er op korte termijn wat mee gedaan wordt denk ik)

[ Voor 35% gewijzigd door RobIII op 28-11-2018 12:44 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


Acties:
  • +1 Henk 'm!

  • thefal
  • Registratie: Juni 2010
  • Laatst online: 22-05 20:59
Een beetje laat maar goed.

In Notepad++ had je het verschil mogelijk ook kunnen zien. In het menu staat het knopje encoding, en die zou waarschijnlijk verschillend staan, bv "Encode in UTF-8" voor de ene en "Encode in UCS-2 BE BOM" voor de andere. N++ laat je het bestand ook meteen converteren tussen de verschillende encodings.
Pagina: 1