Jag är en mjukvaruutvecklare som har arbetat med en innehållsfiltreringsapplikation som ännu inte släppts. En av filtreringskategorierna är naturligtvis pornografi, och en gång i tiden bestämde jag mig för att jag skulle utveckla en pornografisk bilddetektor / klassificering. Programmet skulle ladda bilden, analysera bilden och klassificera den därefter.
Den som någonsin har utvecklat något liknande detta vet att du behöver en betydande bas av källmaterial från vilket för att härleda dina ursprungliga klassificeringsmodeller. Så jag installerade DownloadThemAll i Firefox och började slå i några otäcka termer plus orden "Tumblr". Samlat material.
Jag fick tusentals bilder, både pornografiska och icke-pornografiska så att algoritmen kunde extrahera funktioner för att göra exakta klassificeringar. Men efter en tid med att utveckla och aldrig ha analyserat dessa tusentals bilder personligen diskuterade min fru och jag den mycket verkliga potentialen att något otydligt kan ha varit på en av dessa webbplatser som jag skriptade för att alla bilder skulle dras ner från. Så jag slutade utveckla förstört allt jag hade samlat in och bestämde risken för att oavsiktligt ha sådan smuts var definitivt inte värt det.
Så min fråga är, skulle jag vara ansvarig om något hade varit där? Hur kan jag göra sådan forskning samtidigt som jag skyddar mig (om alls)? Det sista på jorden jag vill ha i livet är att slängas i en rubrik bredvid Jared Fogle, med den enda ursäkten att "jag visste inte! Det var för vetenskapen!"
Google kopierar faktiskt och lagrar bildresultat på sina egna servrar. Så de kan och har tillfällen där olagligt explicit material kopieras och lagras på privata servrar. Hur täcks de från ansvar eller innehav?