Anonieme verificatie: upload of alleen hash?

zondag 1 maart 2026 21:46

Acties:

Topicstarter

Hoi,

Ik bouw een publieke verificatie-endpoint voor digitale bestanden en bestandspakketten, en ik ben benieuwd wat volgens jullie praktische standaardkeuzes zijn.

De use case is simpel:

* een gebruiker maakt een proof record voor één exact bestand of pakket
* dat levert een publiek tijdgestempeld record op voor die exacte versie
* later kan iemand een kopie van het bestand controleren, zien of het match of mismatch is, en bevestigen wanneer die versie is vastgelegd

Een paar ontwerpkeuzes maken dit net anders dan normale file sharing:

* standaard is het hash/metadata-only, dus het originele bestand hoeft niet opgeslagen te worden
* publieke verificatie is bewust simpel: match / mismatch
* het publieke record moet laten zien dat een specifieke bestandsversie op een bepaald moment bestond
* uitgebreidere outputs blijven alleen beschikbaar voor ingelogde gebruikers
* afhankelijk van de use case kan bepaalde metadata publiek zijn, terwijl andere metadata verborgen of beperkt blijft

Het doel is om versieverificatie en timestamping simpel te houden, zonder dat de publieke endpoint meteen een makkelijk doelwit voor misbruik wordt.

Ik probeer hier verstandige defaults voor te kiezen.

Mijn vragen:

1. Zouden jullie anonieme gebruikers direct een bestand laten uploaden voor verificatie, of zouden jullie alleen hash-only checks toestaan?
2. Zijn er praktische caching-patronen die hier helpen om cloudkosten te drukken (bijvoorbeeld DB/query-caching, result caching of tijdelijke hash-lookups), zeker als je op DigitalOcean draait?

Ik zoek vooral advies over dingen die je goedkoop en eenvoudig kunt invoeren, zonder grote ingrepen of meteen dure third-party diensten nodig te hebben, tenzij dat echt niet anders kan.

zondag 1 maart 2026 23:26

Onbekend

...

Ik zou zoveel mogelijk controles bij de client laten doen. Deze heeft er immers baat bij dat de controle goed wordt uitgevoegd, dus kleine kans dat deze het e.e.a. zal manipuleren. De hash die de client heeft berekend kan worden opgevraagd en bij een match zou je een aantal details zoals datum/tijd, originele bestandsnaam, versie en auteur terug kunnen geven.
Het voordeel om het bij de client te laten doen is dat je maar een beperkte hoeveelheid dataverkeer hoeft af te handelen doordat alleen de hash wordt opgestuurd en de server niet het complete bestand hoeft te verwerken. Zorg er wel voor dat je een limiet per gebruiker of ip-adres op het aantal requests zet. Bijvoorbeeld max. 20 per uur voor ingelogde gebruikers en 5 per uur voor anonieme gebruikers.

Caching of andere optimalisaties is vaak voor een beperkte dataset niet echt nodig. Alleen een index aanmaken op de hash-kolom is wel aan te raden.
Pas als je zelf performanceproblemen ziet ontstaan zodra de tabel miljoenen records gaat bevatten zou je een kleine optimalisatie kunnen maken door de data in meerdere kleinere tabellen op te slaan.

Speel ook Balls Connect en Repeat

zondag 1 maart 2026 22:41

Acties:

jurroen

Security en privacy geek

Is het een optie om de hash client-side te laten berekenen of is het een keiharde must om dit server-side te doen?

Ongevraagde verzoeken per DM beantwoord ik niet, sorry

zondag 1 maart 2026 23:26

Acties:

Beste antwoord ✓

Onbekend

...

Ik zou zoveel mogelijk controles bij de client laten doen. Deze heeft er immers baat bij dat de controle goed wordt uitgevoegd, dus kleine kans dat deze het e.e.a. zal manipuleren. De hash die de client heeft berekend kan worden opgevraagd en bij een match zou je een aantal details zoals datum/tijd, originele bestandsnaam, versie en auteur terug kunnen geven.
Het voordeel om het bij de client te laten doen is dat je maar een beperkte hoeveelheid dataverkeer hoeft af te handelen doordat alleen de hash wordt opgestuurd en de server niet het complete bestand hoeft te verwerken. Zorg er wel voor dat je een limiet per gebruiker of ip-adres op het aantal requests zet. Bijvoorbeeld max. 20 per uur voor ingelogde gebruikers en 5 per uur voor anonieme gebruikers.

Caching of andere optimalisaties is vaak voor een beperkte dataset niet echt nodig. Alleen een index aanmaken op de hash-kolom is wel aan te raden.
Pas als je zelf performanceproblemen ziet ontstaan zodra de tabel miljoenen records gaat bevatten zou je een kleine optimalisatie kunnen maken door de data in meerdere kleinere tabellen op te slaan.

Speel ook Balls Connect en Repeat

maandag 2 maart 2026 19:55

Acties:

murynowicz

Topicstarter

Dank voor de snelle reacties, erg nuttig.

Client side hashing was inderdaad één van de opties waar ik naar gekeken heb, en ik snap goed waarom dat aantrekkelijk is qua bandbreedte, misbruik en kosten.

Alleen: op dit moment werk ik met Django + PostgreSQL + MongoDB, en puur praktisch is het voor mij nu veel eenvoudiger om dit server side te houden. Mijn stack zit vooral aan de Python kant, en met de huidige tijd en budgetgrenzen heb ik nu gewoon niet de ruimte om een goede client side flow te bouwen en netjes af te hardenen.

Er zit ook nog een tweede kant aan: een deel van de waarde van deze check is juist dat die gekoppeld is aan data die al op het platform staat. Het gaat dus niet alleen om “match / mismatch”, maar ook om kunnen onderbouwen dat een specifieke versie op een bepaald moment bestond, op een manier die later niet zomaar makkelijk te manipuleren is via provider of hosting.

Als ik dat verder naar de client zou schuiven, dan moet de gebruiker alsnog een deel van de referentiedata lokaal binnenhalen. Dat is niet enorm (waarschijnlijk een paar MB, dus niets geks), maar het blijft wel een afweging.

En vooral ook bedankt voor het punt over aparte limieten voor ingelogde gebruikers versus anonieme IP’s. Daar had ik eigenlijk zelf op moeten komen, maar eerlijk gezegd had ik dat nog niet concreet zo bedacht — dus dat is echt een goede catch.

Begrijp ik jullie caching advies goed als: voorlopig simpel houden, een goede index op de hash kolom zetten, en pas verder gaan optimaliseren als er echt een bottleneck zichtbaar wordt?

En nog een extra vraag: heeft iemand hier ervaring met een praktisch model om toekomstige load of kosten een beetje in te schatten voor zoiets? Ik kan natuurlijk genoeg algemene adviezen online vinden, maar ik ben vooral benieuwd naar iets dat in de praktijk al eens gebruikt is, of op echte ervaring gebaseerd is — al is het maar een ruwe vuistregel.

M.

Vraag

Beste antwoord (via murynowicz op 11-03-2026 13:49)

Alle reacties