[PHP] Script dat porno herkent --discussie--

Pagina: 1
Acties:
  • 395 views sinds 30-01-2008
  • Reageer

Onderwerpen


Acties:
  • 0 Henk 'm!

  • mr_wizard
  • Registratie: Februari 2003
  • Laatst online: 29-04 21:17
Mede-tweakers,

Toen ik mij vandaag enigzins begon af te vragen of er op een door mij beheerd domein met community sites met fotogallerij veel porno word geshared, heb ik aan onze grote vriend google de vraag gesteld of hier een script voor bestond, of een methode. Ik weet dat er software voor is, maar in PHP? Alle gebruikelijke sites (ook deze): negatief. Hmmm....

Dan maar the die-hard way: we doen het gewoon lekker zelf. Mijn theorie is dat porno (en dit is geloof ik de techniek van bovengenoemde software) vaak blote mensen bevat :P. En dat blood, dat is huidskleur, oftewel, huidskleurige-pixels. Daarom dus gewoon het % huidkleurige-pixels van een image berekenen. Met de commando ImageColorAt gaan stoeien om alles pixels uit te lezen, etc. etc.. Gefeliciteerd, je hebt nu een RGB-code van je pixel, maarja, wat moet je daar mee?

Op de universiteit leer je nog wel eens wat, ik heb gewoon een wiskundige formule ontwikkeld. Deze formule bestaat uit 3 sub-formules. Ze zijn in de vorm:

berekende R = constante + ( var_1 x G ) + ( var_2 x B )
berekende G = constante + ( var_3 x R ) + ( var_4 x B )
berekende B = constante + ( var_5 x G ) + ( var_6 x R )

Hoezo? Omdat er een logisch linear verband in de RGB code van de tinten van blanke huidskleur zit. Wat ik doe met deze formule is ik bereken wat de waarde van R,G en B moet zijn als het een huidskleur-pixel zou zijn, aan de hand van de andere twee onderdelen.

Vervolgens vergelijk ik de berekende waarde met de echte waarde, zijn de verschillen van alle drie minder dan de xx% marge, dan is het dus een huidkleurige pixel. Het systeem telt het aantal pixels en geeft een percentage huidkleurige pixels in een foto. Boven een bepaald percentage zou je dus kunnen stellen dat er iemand blood op staat (porno of niet).

Waarom dan deze topic? Ik kan me niet voorstellen dat nog nooit iemand hier naar gekeken heeft, ik kan het in ieder geval niet vinden. Ik ben erg benieuwd wat jullie meningen zijn over het systeem, of jullie ervaring met hetzelfde systeem hebben, waar jullie denken waar de haken en ogen zitten en hoe het hele systeem te finetunen is (met die percentages?).

R&D professional


Acties:
  • 0 Henk 'm!

  • BasieP
  • Registratie: Oktober 2000
  • Laatst online: 22-07-2024
ik denk niet dat dit echt gaat werken.

ik weet niet of je zelf al eens in de hk heb gekeken naar die nude draad, maar daar zie je wel dat er alle soorten plaatjes zijn, waarvan de gemiddelde huidskleur misschien liev sacht roze is, maar er zijn genoeg pics, die gewoon niet roze zijn
bijv. een kleur bruin/geel
of wat dacht je van buitenlandse mensen.. die hoeven echt niet blank te zijn.
't idee is leuk, maar ik denk technisch niet helemaal haalbaar.

This message was sent on 100% recyclable electrons.


Acties:
  • 0 Henk 'm!

  • Morrar
  • Registratie: Juni 2002
  • Laatst online: 18:04
Volgens mij zijn er mail-scanners met deze functie er in gebouwd, maar daarvan zal je de source niet zo 1 2 3 krijgen denk ik.

Groot probleem is dat ook portretten vaak veel "bloot" bevatten. Dus alleen naar huidskleurige pixels kijken is niet genoeg. En wat te denken van mensen met een andere dan blanke huidskleur?

//Edit:
net ffies te laat :/

[ Voor 8% gewijzigd door Morrar op 01-12-2004 17:48 ]


Acties:
  • 0 Henk 'm!

  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

Ik denk dat dit heel erg moeilijk gaat worden om te detecteren met kleur, je zal eerder naar vormen moeten zoeken.
Denk er trouwens ook aan dat dit best wel CPU intensief kan gaan worden.

Blog [Stackoverflow] [LinkedIn]


Acties:
  • 0 Henk 'm!

  • ikke007
  • Registratie: Juni 2001
  • Laatst online: 18-09 14:10
Geheel los staand van of deze formule werkt of niet:

Ik post een close up foto van mijn gezicht (of buik/arm/hand whatever) is dit porno? nee. Wordt dit eruit gefilterd met jouw script? Ja.
Dame in bikini? is dit porno? nee. Is dit bijna geheel ontkleed (roze) en dus porno? ja. uhm?
Donkere dame? is dit een negerin of draagt iemand donkere kleding?
Is het een donkere foto of toch een naakte negerin?
naaktkunst is dit porno?


Ik denk dus dat het een leuk initiatief is maar waar teveel haken en ogen aan zitten. Dat is de reden dat nog niemand het werkend heeft gebouwd.

Verder wel koel bedacht, wel leuk om een soort van 'herkennings' script van te maken om
a) te testen of je het ook echt kan realiseren
b) een admin 'verdachte' foto's te laten beoordelen

Lets remove all security labels and let the problem of stupidity solve itself


Acties:
  • 0 Henk 'm!

  • HeepH
  • Registratie: December 2003
  • Laatst online: 08-09 14:13

HeepH

Dope Rapper

en van de andere kant : kijk eens naar de nieuwe layout van got :D hoeveel huidskleurachtige rgb dingen zitten daar wel niet in, of een andere site die adverteert met een donkerbruin/zwarte banner...tja...ik denk niet dat het werkt, maar het is een mooi idee, en met wat input van verschillende users zou het nog iets kunnen worden...

mss kan je een soort van....training doen ?
eerst 100000 plaatjes door je systeem halen om de kleuren er uit te lezen, zodat hij kan herkennen welke kleuren vaak in dat soort plaatjes voorkomen en dan je pc 1000000 pr0n/niet pron plaatjes laten zien, en kijken of hij de goede er uit haalt.

http://specs.tweak.to/16495


Acties:
  • 0 Henk 'm!

  • mr_wizard
  • Registratie: Februari 2003
  • Laatst online: 29-04 21:17
Dat is waar, alleen het grootste gedeelte van de porno is met blanke huidskleur, ik hoef niet alles te pakken en het is niet eens script wat uploads zal gaan checken, het is meer een monitor voor mij. Pakt het ding 75% van de porno, dan is het veel, pakt het alleen al 15%-20% van de porno dan ben ik nog blij ;)
Over die rozetinten: daarom zit die marge erin. Hij doet het nu al aardig, hij filtert zowel gebruinde als niet-gebruinde lichamen eruit :P

R&D professional


Acties:
  • 0 Henk 'm!

  • TRON
  • Registratie: September 2001
  • Laatst online: 16-09 13:13
HeefStan schreef op woensdag 01 december 2004 @ 17:50:
en van de andere kant : kijk eens naar de nieuwe layout van got :D hoeveel huidskleurachtige rgb dingen zitten daar wel niet in, of een andere site die adverteert met een donkerbruin/zwarte banner...tja...ik denk niet dat het werkt, maar het is een mooi idee, en met wat input van verschillende users zou het nog iets kunnen worden...

mss kan je een soort van....training doen ?
eerst 100000 plaatjes door je systeem halen om de kleuren er uit te lezen, zodat hij kan herkennen welke kleuren vaak in dat soort plaatjes voorkomen en dan je pc 1000000 pr0n/niet pron plaatjes laten zien, en kijken of hij de goede er uit haalt.
Leuk idee, ik wil wel mee helpen dan :+

Leren door te strijden? Dat doe je op CTFSpel.nl. Vraag een gratis proefpakket aan t.w.v. EUR 50 (excl. BTW)


Acties:
  • 0 Henk 'm!

  • Morrar
  • Registratie: Juni 2002
  • Laatst online: 18:04
...1000000 pr0n/niet pron plaatjes ...

Succes met zoeken! :o :+

Vrijwilligers genoeg voor dit project... wat raar... ;)

[ Voor 32% gewijzigd door Morrar op 01-12-2004 17:53 ]


Acties:
  • 0 Henk 'm!

  • gorgi_19
  • Registratie: Mei 2002
  • Laatst online: 18:44

gorgi_19

Kruimeltjes zijn weer op :9

Modbreak:Houden we het wel enigszins serieus hier? :) Het kan een legitieme en normale discussie worden, ondanks dat het onderwerp misschien andere reacties oproept :)

Wellicht ten overvloede; ook hier geldt de policy van GoT, dus voorbeeldplaatjes welke wel en niet zouden werken worden niet toegestaan en verwijderd, evenals dubieuze sites :)

[ Voor 4% gewijzigd door gorgi_19 op 01-12-2004 17:54 ]

Digitaal onderwijsmateriaal, leermateriaal voor hbo


Acties:
  • 0 Henk 'm!

  • SithWarrior
  • Registratie: December 2001
  • Laatst online: 26-06 07:38

SithWarrior

Ik ben uniek, net als iedereen

Gewoon een zwart en wit p0rn site zoeken dan maar he ;)

You can take a picture of something you see. In the future, where will I be?


Acties:
  • 0 Henk 'm!

  • mr_wizard
  • Registratie: Februari 2003
  • Laatst online: 29-04 21:17
Die plaatjes hoef ik niet te zoeken, die heb ik zo wel :P

En inderdaad, het script zal werken om mij foto's uit het systeem te laten zien die volgens hem porno zijn en ik die mensen een waarschuwing kan geven als het ook echt porno is (community word gehost op een server met een no-pron-policy, vandaar ;))

Maar wie mee wil doen, I'll be happy to share my knowledge

R&D professional


Acties:
  • 0 Henk 'm!

  • HeepH
  • Registratie: December 2003
  • Laatst online: 08-09 14:13

HeepH

Dope Rapper

ik vind het een nobel doel...

is het niet een idee (arme cpu :() om de plaatjes eerst blurren? zodat je de kleding van de echt bruinen en de porno van de niet porno kunt onderscheiden.

offtopic:
als iemand _nu_ gaat googlen op porno, staat tweakers bovenaan :o

http://specs.tweak.to/16495


Acties:
  • 0 Henk 'm!

  • Morrar
  • Registratie: Juni 2002
  • Laatst online: 18:04
Ok, we zullen weer serieus zijn :)

Volgens mij is herkenning op basis van kleur wel een beetje de enige optie als je puur naar het plaatje kijkt. Wellicht zou je ook nog iets met naamgeving / surfgedrag kunnen doen.

Wat de kleuren betreft: je zou ook nog naar meer kleuren kunnen kijken. Wellicht toch niet zo'n gek idee om van een flink aantal plaatjes te bekijken welk palet aan kleuren er in zit en daar statistieken van te maken. Vervolgens kun je kijken of er verschillen tussen pron/niet pron zitten.

Acties:
  • 0 Henk 'm!

  • mr_wizard
  • Registratie: Februari 2003
  • Laatst online: 29-04 21:17
Bluren is inderdaad een goed idee, die testdraai met die pics ook, ik heb nu die formule ontwikkeld aan de hand van 'maar' een paar honderd pixels. Verder zat ik te denken om niet de alle pixels te tellen, want JPEG is geen BMP :P maar om blokken van 4 of 8 pixels te scannen en dan een blok over te slaan?

R&D professional


Acties:
  • 0 Henk 'm!

  • Timo
  • Registratie: Oktober 2001
  • Laatst online: 08-05 07:44
mr_wizard schreef op woensdag 01 december 2004 @ 18:04:
Bluren is inderdaad een goed idee, die testdraai met die pics ook, ik heb nu die formule ontwikkeld aan de hand van 'maar' een paar honderd pixels. Verder zat ik te denken om niet de alle pixels te tellen, want JPEG is geen BMP :P maar om blokken van 4 of 8 pixels te scannen en dan een blok over te slaan?
iig niet op de eerste goooooooooooogle pagina :+
Modbreak:Wat zei ik nou net :/

[ Voor 7% gewijzigd door gorgi_19 op 01-12-2004 18:17 ]


Acties:
  • 0 Henk 'm!

  • HeepH
  • Registratie: December 2003
  • Laatst online: 08-09 14:13

HeepH

Dope Rapper

ik weet idd niet hoe dik jouw pc is .... maar stel dat er flink wat plaatjes gescanned moeten worden... in deze volgorde :

laden, blurren, scannen,toevoegen aan database(de scangegevens,voor verbetering programma), ja nee pron, volgende...

dan kan dat even duren...denk ik

wat zijn jouw ervaringen? hoe lang duurt het scannen van zon plaatje en hoe zijn de resultaten tot nu toe?

[ Voor 17% gewijzigd door HeepH op 01-12-2004 18:09 ]

http://specs.tweak.to/16495


Acties:
  • 0 Henk 'm!

  • mr_wizard
  • Registratie: Februari 2003
  • Laatst online: 29-04 21:17
Ik zit even te denken over die learning-functie van het systeem door er allemaal wel en niet porn doorheen te jagen:

* image lezen en pixels uitlezen
* niet RGB in 3 componenten maar de ruwe uit ImageColorAt in een database zetten, iedere kleur een row en een pixel-kleur krijgt een extra 'count' als de kleur word aangetroffen in de picture.

Mishandeling van MySQL :P? En die CPU, ach ja, moet hij maar geen no-porn policy stellen :D

R&D professional


Acties:
  • 0 Henk 'm!

  • mr_wizard
  • Registratie: Februari 2003
  • Laatst online: 29-04 21:17
scannen van een pic 80k, 72dpi, 600x900 en bereken kost, slik, 8 seconden op mijn eigen PC (2000+), maar dat is alleen voor in de learning-fase, de uiteindelijke scanner zal in blokken gaan lezen denk ik (en de server is Dual Xeon 3Ghz geloof ik, en ik ben de enige op de kast :P)

[ Voor 3% gewijzigd door mr_wizard op 01-12-2004 18:16 ]

R&D professional


Acties:
  • 0 Henk 'm!

  • HeepH
  • Registratie: December 2003
  • Laatst online: 08-09 14:13

HeepH

Dope Rapper

uh..hoeveel iops doet die server, want als jij voor elke pixel de rgb waarde wil gaan opslaan heb ik echt medelijden met die server...en 8 seconden...das 8 seconde lang 100% cpu gebruik...op een server,waar een man of 100 zit te forumen...

ik voorspel verdwenen berichten, en gruwelijke lag als iemand zijn collectie'tje upload :P

http://specs.tweak.to/16495


Acties:
  • 0 Henk 'm!

  • Morrar
  • Registratie: Juni 2002
  • Laatst online: 18:04
Wellicht niet helemaal on-topic, maar er zijn wel degelijk dingen te vinden met Google. Wat je aan het maken bent valt onder "censorware". Ook image-recognition etc levert wel e.e.a. op.

Acties:
  • 0 Henk 'm!

Verwijderd

Kun je niet beter in de HSV kleurenruimte werken, dan RGB?

De Hue zal voor de meeste huidskleuren ongeveer htezelfde zijn. Saturation ook (met een beetje variatie), en redelijk wat variatie in de Value (Brightness); daar kun je ook het onderscheid tussen mensen met een donkerdere huidskleur en lichtere huidskleur beperken.

Een alternatief is lerende algoritmes. Zoals bijvoorbeeld een neuraal netwerk maken en trainen met een grote invoerset... met bijvoorbeeld een invoerknoop voor elk NxN blokje invoerpixels (waarbij N bijvoorbeeld een vaste waarde is als 1 of 8, of een variabele als 1/100 van de fotogrootte). In principe is het een vaag classificatieprobleem en dat is nou net waar neurale netwerken in uit [zouden moeten] blinken. Maar ik heb er in de praktijk nooit een gemaakt dus ik kan je niet veel verder helpen met de details.

[ Voor 9% gewijzigd door Verwijderd op 01-12-2004 18:28 ]


Acties:
  • 0 Henk 'm!

  • Soultaker
  • Registratie: September 2000
  • Laatst online: 21:01
Blijkbaar zijn hier maar weinigen bekend met de 'state of the art' op het gebied van klassificatie van foto's. Huidige technieken presteren gewoon ronduit slecht. Ik denk dus dat het praktisch onhaalbaar is om een systeem te schrijven dat goed presteert, ook al is het domein hier vrij specifiek (het gaat maar om een enkele binaire klassificatie: porno of niet?).

Als je toch een gooi wil wagen, zul je zoals HeefStan al suggereerde eerst wat testdata moeten verzamelen. Anders kun je nooit evalueren hoe goed je systeem werkt. Verder kan het waarschijnlijk uit om wat achtergrondinformatie op te zoeken, zodat je niet het wiel opnieuw hoeft uit te vinden.

Acties:
  • 0 Henk 'm!

  • mr_wizard
  • Registratie: Februari 2003
  • Laatst online: 29-04 21:17
Ik sta wel achter het idee van OneOfBorg denk ik, ook is HSV geen slecht idee, daar heb ik vaker wat mee gedaan. Ik ga nu de eerste learning-session doen, dus als ik niet meer terug kom is de grote hoeveelheid porno mn PC fataal geworden ;) tot zo

R&D professional


Acties:
  • 0 Henk 'm!

Verwijderd

Leuk probleem :-) Ook ik ben helemaal niet op de hoogte van de state of the art van beeld herkenning, maar dat gaat me niet weerhouden toch mijn 2 centen te doneren: Ik zou een neuraal netwerk proberen. Deze is in C, dus vrij snel, met een PHP interface via PEAR:

http://fann.sourceforge.net/fann.html#php

Voordeel hiervan is dat je zelf geen slimmigheden hoeft te gaan bedenken, maar met een trainingsset je filter kan laten leren (ik houd de grapjes binnen). Dat wil zeggen
je geeft input (het plaatje) en de correcte output (wel porno/geen porno), en het filter zal zich gaan instellen.

Soultaker : Classificatie van photo's mag dan in het algemeen een moeilijk vraagstuk zijn, mij schijnt toe dat dit een relatief eenvoudig probleem is, het gaat hier niet om herkenning van subtiele details in foto's. Verder lijkt me dat als porno geshared wordt via foto galerijen, dat het niet om een enkel plaatje gaat. Je percentage true positives mag dus ook vrij laag zijn, zolang er ook mijn weinig false positives zijn.

Mocht je dit filter echt gaan gebruiken, denk ik dat je het moeten trainen met plaatjes van verschillende bronnen. Je weet namelijk nooit waar het filter op zal triggeren. Staat er logootje in alle porno plaatjes, kan het best zijn dat daar op gereageerd word. Om het probleem makkelijker te maken is het misschien handig om plaatjes naar een vast formaat te rescalen. Ik denk dat downsamplen van plaatjes (zou een 200x200 pixels voldoende zijn om porno te herkennen?) een en ander flink versneld. Then again, ik ben geen expert .

Laat eens weten wat je eruit krijgt. Zo'n filter is natuurlijk altijd handig :*)

[ Voor 22% gewijzigd door Verwijderd op 01-12-2004 18:45 ]


Acties:
  • 0 Henk 'm!

Verwijderd

Ik denk dat je het beste eerst de plaatje kunt verkleinen. Je hoeft echt niet alle pixels van je 900x600 plaatje te gaan bekijken. Eerst even resizen ( en doe je dat met een goede filter, heb je gelijk een blur eroverheen ).

Ikzelf heb wel eens gestoeid met een programma dat probeerde dubbele plaatjes te vinden. Dat deed ik dan door eerst de plaatje allemaal te verkleinen naar 20x20 ( ongeacht de originele verhoudingen ) en daarna de pixels van een plaatjes met die van een andere te vergelijken. Dit ging redelijk vlot.

Ik gebruikte hiervoor trouwens de GFL SDX van XNView, een erg handige library met functies om plaatjes te lezen ( 100+ formaten in te lezen, 40 te schrijven ), en er zitten ook filters in voor onder andere het resizen. Interfaces voor Delphi, VB en C zijn aanwezig, alsmede een speciale versie voor ASP. En het is freeware voor niet commerciele doeleinden. Echt interessant om eens naar te kijken, IMHO. te vinden op www.xnview.com

Acties:
  • 0 Henk 'm!

Verwijderd

Als je informatie zoekt over neurale netwerken of er mee bezig wil gaan, dan zou ik een universiteit bij je in de buurt opzoeken. Ik weet bijvoorbeeld dat in Utrecht er een aantal vakken gegeven worden met betrekking tot AI.

http://www.cs.uu.nl/educa...php?vak=INFOICI&jaar=2004
http://www.cs.uu.nl/docs/vakken/rnn/

Als je een docent mailt met je vraag, dan kan hij je vast wel een aantal goede boeken lenen, of
je in ieder geval een goede richting in schoppen.

Persoonlijk lijkt het mij erg moeilijk om een geschikte trainingsset samen te stellen. De trainingsset is van levensbelang bij het trainen van neurale netwerken. Je moet misschien eerst een systeem proberen te maken die objecten/mensen herkent. Dat is mogelijk door contrastovervangen te analyseren. Vervolgens moet je van die objecten bepalen of het veel bloot bevat.

Leuk initiatief, maar ik ben bang dat dit in de praktijk te moeilijk om te maken is als je geen
ervaring hebt met neurale netwerken.

Jou eerste idee zal vast wel een aantal true-positives opleveren, maar ik denk ook dat veel plaatjes een false-positive op zullen leveren, waardoor je test eigenlijk niet werkt.

Acties:
  • 0 Henk 'm!

  • mr_wizard
  • Registratie: Februari 2003
  • Laatst online: 29-04 21:17
Ik zie de universiteit vanuit mn raam, dus ik denk niet echt dat dat een probleem zal zijn :)
Die neurale netwerken spreken me bijzonder aan, ze lijken de sleutel tot dit probleem. Is het haalbaar? Misschien niet, maar dat zien we gedurende de rit wel weer.

Ik heb net de eerste learning-session gedraait en die heeft het aardig goed gedaan. 150 volle pornofoto's door het ding heen gestamp en veel MySQL output. Ik zal er naar kijken en er een nieuwe formule omheen metstelen. Daarna zal ik wel gaan kijken naar de neurale netwerken etc.

Zoals al opgemerkt werd: resizen. Dat is inderdaad geen slecht idee, misschien ook in de learning-fase?

Helaas moet ik vanwege andere verplichtingen er voor vanavond een eind aan breien, maar ik zal zeker verder gaan met dit project. Let dus op topics in deze channel met de bovenstaande titel als je geinteresseerd bent in het verloop!!

R&D professional


Acties:
  • 0 Henk 'm!

Verwijderd

Vergeet je niet ook afbeeldingen aan je trainingsset toe te voegen die geen porno bevatten? Dit is namelijk nog belangrijker dat de afbeeldingen met porno. Wanneer je algoritme ook 80% van de normale afbeeldingen kenmerkt als porno en 99% van alle porno, dan heb je alsnog een slecht algoritme.
false-positive moet je zien te vermijden, daarom moet je ook normale afbeeldingen toevoegen aan je trainingsset.

Acties:
  • 0 Henk 'm!

  • MisterData
  • Registratie: September 2001
  • Laatst online: 29-08 20:29
Ik heb laatst een website gezien die met een neuraal net en een hoop statistieke trucs een soort image gallery had gemaakt waarbij je door foto's aan te vinken steeds verderje resultset kon 'refinen': selecteerde je gebouwen dan kwamen er meer gebouwen, etc... ben alleen de URL kwijt, maar ik kwam er via flipcode.org -> Knowledge Base -> Neural Nets en dan via een artikel geloof ik :)

Acties:
  • 0 Henk 'm!

  • sanderb
  • Registratie: November 2000
  • Laatst online: 19:59
interessant artikel over dit onderwerp:
http://www.dansdata.com/pornsweeper.htm
stamt helaas uit 2000 en zal dus inmiddels achterhaald zijn.

pornsweeper werkt ongeveer op de manier die je oorspronkelijk aankaarte; rgb waarden controleren.
Vervolgens gaat er nog een face recognition programma over de foto's die teveel huid bevatten.

conclusie van het verhaal: Leuk idee, maar werken? nee dus. Althans, niet met acceptabele resultaten.

Porno bestaat er in vele soorten en kleuren. Zelfs mensen hebben moeite om na te gaan of iets porno is of niet. Er zijn genoeg voorbeelden van foto's te bedenken waarbij de een zal zeggen "dat is geen porno" en de ander gillend wegrent. Als je nou ook nog software zou kunnen schrijven die genitalien kan herkennen in een foto zou je denk ik een heel eind zijn....maar ook dat is moeilijk (sommige ringbaardjes.. :X )

Wat je echter wel zou kunnen doen, is "gewoon" je eigen software schrijven zoals je van plan was, en daarmee een eerste ruwe shifting kunnen maken van plaatjes die wellicht naakt bevatten. Dan mag je vervolgens zelf gaan bepalen of de 60 jarige buurvrouw die in bikini gefotografeerd is porno is of niet...

Neurale Netwerken "vanzelf" laten leren of iets porno is of niet, lijkt me nog veel moeilijker.
Je trainingset is extreem belangrijk. En een computer heeft geen normen en waarden, dus kan geen subjectief oordeel vellen.

Ik denk dat het best mogelijk is om software te schrijven die herkent of er mensen op een foto staan(wellicht nog naar de vorm kijken?), maar om dat ook nog automatisch te kunnen classificeren als porno..pfff

edit:

ik denk dat MisterData deze link bedoeld:
http://www.cis.hut.fi/picsom

[ Voor 7% gewijzigd door sanderb op 02-12-2004 01:37 ]

" A common mistake that people make when trying to design something completely foolproof is to underestimate the ingenuity of complete fools. " - Douglas Noel Adams


Acties:
  • 0 Henk 'm!

  • shnazzle
  • Registratie: September 2004
  • Laatst online: 21-01 10:34
Je zou iemand op TU Delft moeten zoeken die dit jaar Technische Informatica hebben gedaan. Heb namelijk een vriend die daar studeert en hij moest voor een vak recognition software schrijven...misschien dat zij je zouden kunnen helpen. DIe lui krijgen best hardcore image processing vakken.

Acties:
  • 0 Henk 'm!

  • Freee!!
  • Registratie: December 2002
  • Laatst online: 20:03

Freee!!

Trotse papa van Toon en Len!

Het lijkt mij vrij moeilijk om een programma te schrijven dat porno herkent. Ik weet wel dat de politie programmatuur heeft die van foto's en aanverwanten een hash-waarde berekend en die vergelijkt met een tabel met hash-waarden van kinderporno om zo medewerkers in ieder geval een deel van het handmatige werk te besparen (er zijn politiemensen letterlijk gillend gek geworden van kinderporno). Misschien is het een idee om eens in die richting te kijken.

The problem with common sense is that sense never ain't common - From the notebooks of Lazarus Long

GoT voor Behoud der Nederlandschen Taal [GvBdNT


Acties:
  • 0 Henk 'm!

  • pierre-oord
  • Registratie: April 2002
  • Laatst online: 10-02 23:00
Het is wel niet precies wat je wilt, maar je zou misschein kunnen beginnen door automatisch berichten naar je te laten sturen (niet naar de gebruiker) als in een bestandsnaam voorkomt:
- porn
- sex
- pr0n

En meer. Zo krijg jij een mailtje als iets wordt geupload. Laat geen bericht zien aan de gebruiker, anders zorg die er straks voor dat iedereen alles gaat hernoemen.

Acties:
  • 0 Henk 'm!

  • xander88
  • Registratie: September 2003
  • Laatst online: 28-02-2007
Dit forum heb ik net doorgelezen, maar ik zag niet zo snel iets staan over google.
Google heeft namelijk een SafeSearch.
Zoek maar eens op porno in images met en zonder SafeSearch. Dan blijkt direct een nieuw probleem: black-porno-x-020.jpg. Het lijkt mij trouwens dat Google een combinatie van grafisch en semantische algoritmes gebruikt.

Ik heb mij wel eens verdiept in image retrieval. Je kunt al een hoop bereiken met de verhouding 'huidskleur'-'overige kleuren'. Kijk maar eens naar de plaatjes die google blokkeert.
Aardige link: http://www.dansdata.com/pornsweeper.htm

Overigens gebruik je GD in PHP, kijk ook eens naar GD voor C op www.boutell.com/gd. Met cygwin kom je snel een heel eind.

[ Voor 15% gewijzigd door xander88 op 02-12-2004 03:21 ]


Acties:
  • 0 Henk 'm!

  • kasper_vk
  • Registratie: Augustus 2002
  • Laatst online: 08-04 20:48
De vraag lijkt me ook wel: wil je een foolproof filter (stel dat dat mogelijk is), die enorm ingewikkeld is en een kleine supercomp nodig heeft en te runnen, of wil je een 'grove' filter die vrijwel alle niet-porn eruit haalt, waarna je zelf alle 'verdachte' plaatjes beoordeeld?

M.a.w. --> moet die filter volautomatisch iets doen, of moet iets slechts een hoeveelheid 'handwerk' verminderen? (en dat bedoel ik niet dubbeldubbelzinnig ;) )

Ik denk dat voor het tweede doel de door jouw vorgestelde methode i.i.g. voldoende plaatjes kan 'vrijpleiten'.

[ Voor 15% gewijzigd door kasper_vk op 02-12-2004 08:27 ]

The most exciting phrase to hear in science, the one that heralds new discoveries, is not 'Eureka!' but 'That's funny...'


Acties:
  • 0 Henk 'm!

Verwijderd

En wat als ik nu hou van dikke naakte negerinnen?

Acties:
  • 0 Henk 'm!

  • maartenba
  • Registratie: November 2001
  • Laatst online: 29-07-2024
Kan je niet op vormen gaan herkennen?
Lijkt me dat, bij eender welke huidskleur, een tepel of andere zaken wel +/- dezelfde vorm hebben...

Acties:
  • 0 Henk 'm!

Verwijderd

In een van de postings werd een interessante opmerking gemaakt: Is het niet mogelijk om ook te letten op bestandsnamen en evt opmerkingen, (als dat kan in de gallerij) bij de betreffende plaatjes. In dat geval kan je natuurlijk een Bayesiaans (spam)filter gebruiken.

http://www.paulgraham.com/spam.html

Dit is een relatief simpele maar effectieve techniek voor tekst filtering en hoewel het voornamelijk gebruikt wordt voor het classificeren voor spam teksten, is er geen enkele reden dat het niet getrained kan worden voor porno teksten.

Ik zou classificatie van de plaatjes en bestandsnamen op een per gebruiker basis laten gebeuren. Alle scores voor alle plaatjes voor de gebruiker worden geteld en er word een eindscore bepaald:
If a and b are the probabilities associated with two independent pieces of evidence, then combined they indicate a probability of:
ab
-------------------
ab + (1 - a)(1 - b)
Voor waarden boven een zekere (empirisch bepaalde) drempel kan er een administrator op de hoogte gebracht worden van een verdachte gebruiker, die aan onderzoek zou moeten worden.
Zoals het leuke pornsweeper verhaalje aangeeft (lees vooral het stukje over vijandige tank detectie), is de kans op false positives behoorlijk hoog, dus de drempel zal ook vrij hoog moeten liggen. Uiteindelijk ligt het er helemaal aan wat de administrator wil: veel valse meldingen controleren, met een relatief kleine kans op gemiste porno of weinig valse meldingen met grotere kans op gemiste porno.

Nog een opmerking over blurring en herschaling: Blurring is slechts een vorm van middeling en zal naar mijn idee weinig voordelen hebben tov de simpelste & snelste vorm van middeling: het plaatje downsamplen naar een lagere resolutie. Niet alleen kan je hier de GD toolkit voor gebruiken, maar ook Imagemagick kan dit behoorlijk goed. Deze is bovendien makkelijker te
gebruiken in een windows-PHP omgeving

[ Voor 19% gewijzigd door Verwijderd op 02-12-2004 15:29 ]


Acties:
  • 0 Henk 'm!

  • Infinitive
  • Registratie: Maart 2001
  • Laatst online: 25-09-2023
Het naief gebruiken van learning technieken lijkt me geen effectief idee. Als je bijvoorbeeld een neuraal netwerk gebruikt heb je een enorme hoeveelheid aan input neuronen (in de orde van het aantal pixels). Alleen dat al betekent dat je een enorme traningset nodig heeft en ook het gegenereerde model lijkt me erg groot, met grote kans op overfitting.

Voor dit soort "image learning" heb je veel betere technieken. Dat is echter niet mijn studierichting, dus helaas weet ik daar niet zo veel van. Een idee is dat je het plaatje in het zogenaamde featurespace brengt en dan op zoek gaat naar feature-points. Wat featurepoints zijn bij plaatjes die hier genoemd worden hoef ik denk ik niet te zeggen denk ik :) Op de featurepoints kan je uiteindelijk learning technieken toepassen. Nog steeds zul je last hebben van misclassificaties, denk alleen maar aan plaatjes met fruit ofzo.

Dit is echter een volledig vakgebied, dus ik vraag me af of je dat "zomaar" even kan doen.

putStr $ map (x -> chr $ round $ 21/2 * x^3 - 92 * x^2 + 503/2 * x - 105) [1..4]


Acties:
  • 0 Henk 'm!

  • chris
  • Registratie: September 2001
  • Laatst online: 11-03-2022
Verwijderd schreef op donderdag 02 december 2004 @ 12:03:
En wat als ik nu hou van dikke naakte negerinnen?
Dit is al meerdere keren gezegd in dit topic. Ook zegt de ts dat niet persé _alle_ porno er uit gefilterd hoeft te worden, en aangezien het toch vooral blanke mensen zijn, ....

Persoonlijk zou ik eens kijken naar een neuraal netwerk en dit trainen met porno en niet-porno afbeeldingen. Kijk hier eens, het is echt redelijk simpel te implementeren. Het scannen van elke afbeelding gaat alleen wel een redelijk hoge load geven op je server.

Acties:
  • 0 Henk 'm!

  • Soultaker
  • Registratie: September 2000
  • Laatst online: 21:01
Infinitive schreef op donderdag 02 december 2004 @ 13:57:
Het naief gebruiken van learning technieken lijkt me geen effectief idee. Als je bijvoorbeeld een neuraal netwerk gebruikt heb je een enorme hoeveelheid aan input neuronen (in de orde van het aantal pixels). Alleen dat al betekent dat je een enorme traningset nodig heeft en ook het gegenereerde model lijkt me erg groot, met grote kans op overfitting.
Bijna alle soorten invoer moet je eerst voorbewerken voordat het geschikt is om in een neuraal netwerk te stoppen. Met plaatjes zul je eerst aan feature extraction moeten doen, zodat je een beperkte vector van waarden overhoudt (kleur, texture, variatie tussen licht en donker, dat soort dingen).

Het is dus niet de bedoeling dat je alle pixels letterlijk invoert in een neuraal netwerk; dan kan ik je wel garanderen dat je nooit een zinnig filter krijgt.

Acties:
  • 0 Henk 'm!

Verwijderd

Het zou goed kunnen dat het probleem nu wat onderschat wordt (is dat niet met elk probleem het geval), maar niettemin is het leuk genoeg om er toch eens over na te denken en mee te spelen. Verder stel ik me voor dat het zoeken naar features inhoud dat je op zoek gaat naar typische gezichts- (neus, lippen, en wat zich daar op dat moment mag tussen bevinden :) ) en lichaamskenmerken. Ik kan me voorstellen dat dit bijzonder lastige materie is en bovendien mis je misschien allerlei andere interessante kernmerken. Kleur is al een paar keer geopperd, niet alleen van lichamen maar ook van de standaard bloemetjes behangen en de belabberde film kwaliteit.

Het punt is: ik weet eigenlijk gewoon niet weet waarop gelet moet worden, en juist daarom lijkt me een zelf lerend systeem zo interessant, of dit nou een neuraal netwerk is (wat voor lowres plaatjes misschien helemaal niet zo groot hoeft te zijn) of een bayesiaans filter. En trainen, ach, ik geloof best dat die plaatjes ergens in de donkere krochten van de tweakers harddisk te vinden zijn >:)

[ Voor 6% gewijzigd door Verwijderd op 02-12-2004 15:27 ]

Pagina: 1