Toon posts:

Objectieve zoekresultaten

Pagina: 1
Acties:

Vraag


  • ouroborosnl
  • Registratie: September 2022
  • Laatst online: 07-09-2022
Bedankt voor de feedback, ik merk dat mijn introductie van mijn vraag veel onduidelijkheid creëert. Hierbij een herformulering en de bijbehorende vraag. (originele vraag heb ik hieronder gehouden)

Ik zou om persoonlijke redenen graag zelf query's doen op een webcrawl/ indexering welke niet beheerd of geleverd wordt door een tech-giant.

Ik kwam Apache Nutch en Apache Solr tegen waarmee zelfstandig het web gecrawled kan worden, helaas mis ik de technische kennis om dit voor mijzelf te configureren.

Mijn nieuwe vraag: Weet iemand hier een open source front-end voor (mag ook een programma waarvoor betaald moet worden) waarmee ook een niet programmeur mee kan werken?
Mijn eerdere vraag
Ik probeer al een tijdje een goede search engine te vinden, maar voor
zover ik kan nagaan zijn zij allen gebaseerd op het indexeren van
gegevens door Google en Microsoft. Ook al lijken zoekmachines zoals
Swisscows en Qwant redelijk privacygericht, hier ben ik (omdat deze
gebaseerd zijn op data van Microsoft) toch niet blij mee.

Mijn probleem is het volgende; het is mooi dat ik geanonimiseerd kan
zoeken, maar hoe langer ik er over nadenk hoe onwenselijker ik het vind dat Google en Microsoft het hele web
met alle beschikbare informatie voorselecteren en op basis van hun
algoritmen resultaten weglaten. (en voor mijn gevoel alleen resultaten
presenteren die het meeste engagement creeeren/ het (collectieve) onbewuste kietelen)

Nu kwam ik naast SearchX ook nieuwe blockchain search initiatieven tegen zoals Presearch,
maar daar ben ik nog niet echt zeker van het privacyaspect.

Mijn vraag: Is er misschien een open source zoekdatabase beschikbaar op basis van Apache
Nutch en Apache Solr of heeft iemand anders een advies om toch ergens
objectief te kunnen zoeken?

Relevante software en hardware die ik gebruik
Qwant, Swisscows

Wat ik al gevonden of geprobeerd heb
Presearch, searchX, Duckduckgo, Startpage, etc

Alvast bedankt voor het meedenken!

[Voor 21% gewijzigd door ouroborosnl op 07-09-2022 11:25]

Beste antwoord (via ouroborosnl op 07-09-2022 11:19)


  • Silent7
  • Registratie: November 2004
  • Laatst online: 30-03 12:23
Deze gast legt uit hoe je je eigen zoekmachine maakt
Een soort metazoekmachine, zonder reclame in resultaten, voorbeeld die hij bouwde:
https://search.networkchuck.coffee/

Als ik iets moet zoeken waar erg veel reclame bij komt gebruik ik dit wel eens, kan handig zijn.

Alle reacties


  • MAX3400
  • Registratie: Mei 2003
  • Laatst online: 03-02 15:30

MAX3400

XBL: OctagonQontrol

Kan het zijn dat ik je vraag mis? Je begint erover dat privacy redelijk belangrijk is. Daarna wil je je verbergen achter anoniem zoeken. Dan trek je de conclusie (zonder bewijs) dat algoritmen al data wegfilteren. En daarna wil je graag objectieve resultaten.

Dus je vind het onwenselijk dat partijen het hele web indexeren en daar allerlei software & hardware voor ontwikkelen maar zoekt wel een andere partij die wel zoveel mogelijk indexeert maar zonder "optimaal" algoritme of filter?

Mijn advertenties!!! | Mijn antwoorden zijn vaak niet snowflake-proof


  • canonball
  • Registratie: Juli 2004
  • Laatst online: 20:21
ouroborosnl schreef op woensdag 7 september 2022 @ 08:10:
Mijn probleem is het volgende; het is mooi dat ik geanonimiseerd kan
zoeken, maar hoe langer ik er over nadenk hoe onwenselijker ik het vind dat Google en Microsoft het hele web
met alle beschikbare informatie voorselecteren en op basis van hun
algoritmen resultaten weglaten.
Ik vind dit zeer wenselijk, als ik vraag "hoe lang is de A1" Wil ik dat de zoek machiene begrijpt dat ik het over de snelweg A1 in nederland hebt, in de afstand daarvan in kilometers wil hebben.
Niet een database query met allerlij resultaten van "hoe lang is" en niet de formaten van een A1 papier.
(en voor mijn gevoel alleen resultaten presenteren die het meeste engagement creëren/ het (collectieve) onbewuste kietelen)
Ik zou eerst eens nagaan of jouw gevoel klopt voor iedereen, of alleen jouw resultaten zo zijn, en waarom Google dat doet ;).

Voor de YouTube zoekmachine klopt het wel dat standaard een scherm krijgt waarmee ze willen dat je verder klikt, en daarna de voor selectie is op basis waarvan verwacht wordt jat je meer klikt: filmpjes hosten kost ook veel geld.
Voor de Google of duckduck zoek machine kan ik niet klagen over kwalitatief slechte resultaten. Wel uiteraard als je bv een vraag steld "wat is de beste auto", maar zo'n vraag zou ook een slecht antwoord moeten krijgen (en dat doet het dus).
Voor alles is het lastig om goed te zoeken en resultaten te interpreteren, maar dat ligt ook aan mijzelf, een machine zou heel goed mij moeten kennen om mij goed te kunnen bedienen. En dat "mij kennen" wil je volgens mij juist niet...


Ik zou als ik jouw was eerst heel goed nagaan waar je een probleem mee hebt.
Je zegt dat je objectieve resultaten wilt maar verderop heb je het over Privacy: die twee bijten elkaar niet, maar zijn wat anders.
En ook op Tweakers is waarschijnlijk al genoeg over beide geschreven, alleen zul je dan zelf wel even alles moeten zoeken en doorlezen (of je moet een slimme zoekmachine gebruiken zodat je alleen relevante zaken hoeft door te lezen).
Ik denk dat privacy bedoelt (en niet per se de zoekresultaten), begin eens bij het grote privacy topic op Tweakers.

En bedenk heel goed dat ook Google jouw privacy goed beschermt, want dat is een belangrijk deel van jouw inkomsten.

  • sapphire
  • Registratie: November 2002
  • Laatst online: 21:29

sapphire

Die-hard pruts0r

Ik snap niet wat je bedoeld met 'objectieve zoekresultaten' :?

Objectief betekend dat iets onafhankelijk van mening/voorkeur verifieerbaar/meetbaar is. Je zoekt een onafhankelijke zoekmachine?

Je hebt het ook over objectief zoeken, wat bedoel je daar mee?

Ergens zul je altijd afhankelijk zijn van een algoritme die eea in kaart brengt/indexeert/sorteert omdat het aantal zoekresultaten anders immens veel gaat zijn.

Gabriël ITX


Acties:
  • Beste antwoord
  • 0Henk 'm!

  • Silent7
  • Registratie: November 2004
  • Laatst online: 30-03 12:23
Deze gast legt uit hoe je je eigen zoekmachine maakt
Een soort metazoekmachine, zonder reclame in resultaten, voorbeeld die hij bouwde:
https://search.networkchuck.coffee/

Als ik iets moet zoeken waar erg veel reclame bij komt gebruik ik dit wel eens, kan handig zijn.

  • Kalentum
  • Registratie: Juni 2004
  • Laatst online: 20:38
Objectieve zoekmachines bestaan niet. Stel jij hebt een database opgebouwd met 10 miljoen documenten. En je wil alle documenten hebben waarin het woord 'Amsterdam' voorkomt. En er matchen 7000 documenten. Die kun je niet allemaal doorploegen dus daar komt een ordening in. BV op 'meest recent bijgewerkt'. En daar ga je al, meer recente documenten komen bovenaan. Dat is dus subjectief, een keuze die gemaakt wordt, waardoor je het mogelijk superrelevante document op positie 3511 mist.

Dit is natuurlijk een triviaal voorbeeld (je zou de ordening door de gebruiker kunnen laten kiezen)

Maar over het algemeen willen mensen een iets slimmere ordening, bv 'meest relevant'. En dan krijg je dus een subjectieve mening: want is 'relevant'?

Elk stuk software wat je iets laat doorzoeken is subjectief. Stopwoorden weggooien, spellingsvarianten meenemen, hoe ga je om met documenten in andere talen (fiets -> wil je dan ook documenten over 'bicycle' terugkrijgen?).

'Het web' doorzoeken op een objectieve manier is dus niet mogelijk: de resultaatsets waar mee werkt zijn gewoon te groot.

[Voor 5% gewijzigd door Kalentum op 07-09-2022 09:11]

PV Output


  • ouroborosnl
  • Registratie: September 2022
  • Laatst online: 07-09-2022
MAX3400 schreef op woensdag 7 september 2022 @ 08:36:
Kan het zijn dat ik je vraag mis? Je begint erover dat privacy redelijk belangrijk is. Daarna wil je je verbergen achter anoniem zoeken. Dan trek je de conclusie (zonder bewijs) dat algoritmen al data wegfilteren. En daarna wil je graag objectieve resultaten.

Dus je vind het onwenselijk dat partijen het hele web indexeren en daar allerlei software & hardware voor ontwikkelen maar zoekt wel een andere partij die wel zoveel mogelijk indexeert maar zonder "optimaal" algoritme of filter?
Bedankt voor de feedback, ik merk dat mijn introductie van mijn vraag veel onduidelijkheid creëert. Hierbij een herformulering en de bijbehorende vraag.

Ik zou om persoonlijke redenen graag zelf query's doen op een webcrawl/ indexering welke niet beheerd of geleverd wordt door een tech-giant.

Ik kwam Apache Nutch en Apache Solr tegen waarmee zelfstandig het web gecrawled kan worden, helaas mis ik de technische kennis om dit voor mijzelf te configureren.

Mijn nieuwe vraag: Weet iemand hier een open source front-end voor (mag ook een programma waarvoor betaald moet worden) waarmee ook een niet programmeur mee kan werken?

  • ouroborosnl
  • Registratie: September 2022
  • Laatst online: 07-09-2022
Silent7 schreef op woensdag 7 september 2022 @ 09:01:
Deze gast legt uit hoe je je eigen zoekmachine maakt
[YouTube: ditch Google!! (build your own PRIVATE search engine)] Een soort metazoekmachine, zonder reclame in resultaten, voorbeeld die hij bouwde:
https://search.networkchuck.coffee/

Als ik iets moet zoeken waar erg veel reclame bij komt gebruik ik dit wel eens, kan handig zijn.
Thanks, ik zal hier nogmaals naar kijken voor specifieke zoekopdrachten.

  • F_J_K
  • Registratie: Juni 2001
  • Niet online

F_J_K

Moderator CSA/PB

Front verplichte underscores

Wil je zelf indexeren? Dat gaat je niet lukken, althans niet zonder hele dikke portemonnee. Dan is gebrek aan development-kennis je minste probleem, dat kan je dan gewoon inhuren binnen je budget.

Je zult toch uitkomen op of een metazoekmachine zoals hierboven (die gebruikt vast gewoon en Google en Bing en etc - om zo minder afhankelijk te zijn van 1 ervan).

Uiteindelijk moet je nu eenmaal een tech-giant zijn om een goede index te kunnen creëren en bijhouden, en die goed te ontsluiten. (Goed: de zoeker vindt de juiste dingen. Wat 'juist' is, is in alle gevallen per definitie een keuze, ook als je zelf een sortering zou ontwikkelen).

Of, desgewenst via Tor en in de private mode van een browser, een van de wat meer privacy-gefocuste zoekmachines gebruiken.

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)

Pagina: 1


Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee