Ik neem aan dat je de menselijke kant van de zaak bedoelt. Het probleem is niet dat de zoekalgoritmes niet deugen, maar dat gegevens in eerste instantie al chaotisch worden ingevoerd. Misschien helpen een paar praktijkvoorbeelden om meer 'feeling' met de aard van het probleem te krijgen.
- Een helpdesk van een softwarebedrijf. Klant belt, medewerker maakt een 'call' met een summiere omschrijving van de programmafunctie en het probleem. Programmeur pakt de call op maar kan de gegevens niet vinden omdat ze onder een verkeerde functienaam zijn ingevoerd. Programmeur belt de klant, vraagt wat die heeft gemeld, en maakt een nieuwe call aan.
- Een manager maakt een projectsheet en slaat dat ergens op. Telefoon gaat, vergadering. De projectsheet wordt snel per email verspreid en gaat een eigen leven leiden. Collega's passen de sheet aan, slaan hem op, en emailen hem rond.
Bij mij op het bedrijf zwerven terabytes aan handleidingen en technische documentatie rond, samen met talloze andere zaken die 'even' opzij worden gezet en daarna in een 'bewaren' vergaarbak op een server worden gedumpt. Vraag elke systeembeheerder wat ik bedoel, hij kan je feilloos uitleggen dat zelfs 'oneindig' veel diskruimte bij lange na niet genoeg is. Er is tijdsdruk, er is geen tijd om dingen op te schonen of uit te zoeken.
Je hebt gelijk als je zegt dat er niets wordt weggegooid en dat alles wordt opgeslagen. Het delen van informatie tussen afdelingen gebeurt wel, maar werkt niet. Het abstractieniveau van een programmeur is totaal anders dan dat van een helpdeskmedewerker of manager. Ze kunnen 'niets' met elkaars documenten. Daarom herschrijft iedere afdeling de documenten zodat ze er zelf mee overweg kunnen.
Het gevolg is letterlijk terabytes aan duplicaten, vertalingen en andere onzin. En als iemand specifiek informatie zoekt dan krijg je het Google-effect. Je krijgt zoveel gelijkaardige, maar net-niet-bruikbare documenten dat je van ellende alles zelf maar weer gaat schrijven.
Omdat ik kontakt heb met collega-softwarebedrijven weet ik dat dit zonder uitzondering overal zo is. Programma's hebben vele 'generaties' in een software systeem (Microsoft VSS bijvoorbeeld). Maar uiteindelijk is de juiste versie niet meer te vinden / verkeerd opgeslagen. Het is er nog wel, maar er is geen tijd om goed te zoeken. Een andere versie van het programma wordt geladen, aangepast en opgeslagen.
Verder laten programma's toe dat gegevens ongestructureerd worden ingevoerd. Een database met persoonlijke dossiers bijvoorbeeld. Je kan maar beperkt afdwingen dat b.v. 'van der' in een ander veldje hoort dan 'Janssen'. Sommige dingen moet je toestaan, anders wordt het programma onwerkbaar (te dwingend, te lastig, te tijdrovend in het gebruik). Gebruikers zijn ontzettend inventief in het 'proppen' van irrelevante gegevens in een of ander niet ter zake doend invoerveld. Het gevolg is dat het systeem de gegevens niet meer kan vinden of verkeerde verbanden gaat leggen. Daar helpt echt geen zoekalgoritme tegen.
Technieken als search engines, laat staan data mining, worden in het 'gewone' bedrijfsleven niet of nauwelijks toegepast. Er wordt met Windows Explorer op servers gekeken. Gezocht wordt er niet, de hoeveelheid data is te groot om gericht documenten te kunnen doorzoeken.
Je vroeg: hoeveel van de opgeslagen data in het bedrijfsleven wordt daadwerkelijk gebruikt door het eigen personeel. Volgens mij nog geen 5%. Dat komt omdat gegevens zelden lang actueel blijven. Een document dat niet snel gevonden wordt is niet belangrijk, anders stond het wel in de root van de dataserver. Dus je maakt een nieuw document. Zo werkt dat in de praktijk. Dat beantwoordt je vraag 'hoe erg is dit'. Het is erg in opslagruimte maar niet erg in tijdverlies.
Uiteraard zijn er grote verschillen tussen soorten bedrijven. Belasting, verzekering, banken raken nooit iets kwijt (dat recente akkefietje van de belastingdienst telt op het geheel niet mee) en kunnen feilloos alles terugvinden. Kennelijk omdat dat belangrijk voor hen is. Softwarebedrijven interesseert het weinig als er iets kwijt is. Je maakt het gewoon overnieuw.
Hopelijk heb je hier iets aan. Succes ermee.