Tagged: algoritmit

Mikä on neutraali algoritmi?

Päätöksentekoalgoritmin neutraalius voidaan ymmärtää eri tavoin, esimerkiksi erottamalla toisistaan päätöksentekoprosessin ja tuloksen neutraalius (Stray, 2016). Mikäli algoritmin toimintaperiaate on läpinäkyvä ja yleisesti hyväksytty, voidaan sen katsoa olevan prosessin puolesta neutraali. Se voi kuitenkin yhä tuottaa puolueellisia tuloksia, erityisesti koneoppimisen kautta. Monet ongelmat liittyvätkin koneiden tapaan oppia, joka tapahtuu tilastollisen tulkinnan kautta (mm. Dwork, 2014). Esimerkiksi Sweeney (2013) tutki Googlen mainosjärjestelmää ja havaitsi, että järjestelmä liitti henkilöiden nimiin useammin rikoksia kuvaavia aputermejä, kun suoritettiin hakukyselyjä rotuvähemmistön suosimilla nimillä. Toinen esimerkki koneoppimisen haittapuolista on Microsoftin Tay-tekoäly, joka oppi nopeasti käyttämään rasistisia ilmauksia Twitter-trollaajien opettamana (Vincent, 2016).

Voidaan sanoa, että koneoppimiseen perustuvia algoritmeja ei yleensä tehdä tahallisen puolueelliseksi, vaan ne heijastavat ympäröivän yhteiskunnan asenteita analysoimalla saamaansa aineistoa. Tästä voidaan vetää mielenkiintoinen analogia ihmisten oppimiseen, joka myös tapahtuu omaksumalla asenteita ympäristöstä (Piaget, 1928). Eettisestä näkökulmasta voidaan väittää, että algoritmi on neutraali kun se heijastelee oikeaoppisesti (tarkasti) yhteiskunnan tilaa ilman relativistia arvopäätöksiä (Felten, 2014). Toisaalta voidaan väittää, että päätösten pitäisi olla yhteensopivia yhteiskunnallisten arvojen tai ainakin lakien kanssa, koska koneiden tekemät päätökset vaikuttavat konkreettisesti yksilöiden hyvinvointiin (Feldman ym., 2014). Neutraaliuden määritelmästä ei siis tällä hetkellä vallitse yksioikoista yhteisymmärrystä, vaan sitä tulkitaan eri lähtökohdista.

Koneellisessa päätöksenteossa voidaan erottaa ainakin kolme puolueellisuuden lähdettä (Zafar ym., 2015). Ensinnäkin 1) algoritmit ovat ihmisten suunnittelemia, joten algoritmin kehittäjän puolueellisuus saattaa tietoisesti tai tiedostamatta siirtyä sen toimintaperiaatteisiin. Toiseksi etenkin informaatioalgoritmit ovat alttiita 2) käyttäjien hyväksikäytölle, kuten järjestäytyneelle manipuloinnille. Kolmanneksi 3) datalähteet saattavat olla vääristyneitä tai sisältää puolueellisuutta, jolloin myös koneen tulkinta vääristyy ja tehdyt päätökset voivat olla epäreiluja.

Keinoja ehkäistä algoritmien puolueellisuutta ovat tarkastelleet ainakin Culotta (2014); Dwork (2014); Feldman ym. (2014); Jelveh & Luca (2015); ja Fish ym. (2015). Usein ratkaisukeinojen nähdään sisältävän valintatilanne tarkkuuden ja puolueettomuuden välillä (Feldman ym., 2014). Äärimmäisissä tapauksissa edes algoritmin kehittäjä ei kykene ennustamaan sen toimintaa, jolloin tulokset voivat olla arvaamattomia. Tällainen kaoottisuus liitetään etenkin syväoppimisessa käytettyihin neuroverkkoihin (Littmann & Ritter, 1997) ja toisaalta yleisesti ei-valvottuun koneoppimiseen, jossa luokittelu tapahtuu vapaasti aineiston pohjalta (Ngufor & Wojtusiak, 2013).

Algoritmien neutraalius ja puolueellisuus on monimutkainen ongelmavyyhti, jonka ratkaisuyrityksissä tarvitaan niin poikkitieteellistä osaamista. Läheisiä aihepiirejä ovat ainakin tietojenkäsittelyoppi (algoritmien suunnittelu), tilastotiede, sosiologia (ryhmädynamiikan ilmiöt), psykologia (vuorovaikutus), ja etiikka (päätösprosessien ja lopputulosten moraalinen hyväksyttävyys). Pelkkä tekninen osaaminen ei riitä koneellisen päätöksenteon kehittämisessä, koska sen vaikutukset ovat luonteeltaan moniulotteisia ja koskettavat koko yhteiskuntaa.

Lähteet:

Culotta, A. (2014) Reducing Sampling Bias in Social Media Data for County Health Inference. In Joint Statistical Meetings Proceedings.

Dwork, C. (2014) Can we Learn to be Fair? Fairness, Accountability and Transparency in Machine Learning (FAT ML, 2014).

Feldman, M., Friedler, S., Moeller, J., Scheidegger, C., & Venkatasubramanian, S. (2014). Certifying and removing disparate impact. Working paper.

Fish, B., Kun, J., Lelkes, A. (2015) Fair Boosting: A Case Study. Fairness, Accountability and Transparency in Machine Learning (FAT ML, 2015).

Jelveh, Z., Luca, M. (2015) Towards Diagnosing Accuracy Loss in Discrimination-Aware Classification: An Application to Predictive Policing. Fairness, Accountability and Transparency in Machine Learning (FAT ML, 2015).

Littmann, E., & Ritter, H. (1997) Adaptive color segmentation-a comparison of neural and statistical methods. IEEE Transactions on Neural Networks, 8(1), 175–185.

Ngufor, C., & Wojtusiak, A. (2013) Unsupervised labeling of data for supervised learning and its application to medical claims prediction. Computer Science, 14.

Piaget, J. (1928) La causalité chez l’enfant. British Journal of Psychology. 18: 276–301.

Stray, J. (2016) Sometimes an algorithm really is (politically) unbiased. http://jonathanstray.com/sometimes-an-algorithm-really-is-politically-unbiased

Vincent, J. (2016) Twitter taught Microsoft’s AI chatbot to be a racist asshole in less than a day. http://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist

Zafar, M., Martinez, I., Gomez Rodriguez, M., Gummadi, K. (2015) Fairness Constraints: A Mechanism for Fair Classification. Fairness, Accountability and Transparency in Machine Learning (FAT ML, 2015).

Koneoppiminen ja Googlen algoritmi

Johdanto

Tämä postaus sisältää muutamia Rand Fiskinin (MOZ) ”What Deep Learning and Machine Learning Mean For the Future of SEO” -videosta syntyneitä ajatuksia.

Video löytyy täältä, ja se kannattaa katsoa jotta pysyy kärryillä.

Mikä on SEO:n tulevaisuus koneoppimisen myötä?

Kukaan ei varmasti tiedä, miltä osin Google on jo implementoinut koneoppimisen periaatteita sijoittelualgoritmiinsa. Kertauksen vuoksi, koneoppiminen voidaan määritellä avustetuksi tai avustamattomaksi ohjelmistotoiminnaksi, jossa algoritmi löytää ns. harjoitusaineiston avulla yleisesti tehokkaimman ratkaisun tiettyyn, määriteltyyn tavoitteeseen nähden

Fiskinin visiossa Google soveltaa koneoppimista niin, että sijoittelualgoritmin sisältö (ominaisuudet ja niiden painotukset) ei olisi enää ennalta määritelty, vaan se tehtäisiin koneoppimisen kautta. Tähän liittyen algoritmilla ei olisi yleistä muotoa, vaan se mukautuisi esim. hakuteemojen ja hakijoiden mukaan (jo nythän tuloksia personoidaan hakijan tunnettujen ominaisuuksien mukaan).

Tärkein ”uusi” hakukoneoptimoinnin parametri?

Mikäli koneoppimisalgoritmi määrittäisi kaikista saatavilla olevista datapisteistä merkittävimmät onnistuneen haun kannalta (tulkittu ei-palaavana hakijana tietyllä lyhyellä aikajaksolla), mikä olisi tärkein SEO-parametri? Tietysti ländäri, jonka pitäisi varmistaa että kävijä jää.

Toiseksi tärkein olisi SERP-teksti, johon voidaan vaikuttaa metadatalla ja HTML-tägeillä (yllätys yllätys, niillä jolla ”ei ole enää väliä”), koska siinä pitäisi a) saavuttaa suhteellisesti korkea CTR ja b) viestiä totuudenmukaisesti, jotta relevanssi SERPin ja ländärin välillä pysyy korkealla tasolla.

Kuten huomataan, kumpikaan näistä parametreistä ei ole uusi, eikä uusia parametrejä voi syntyäkään niin kauan kuin algoritmin käytettävissä olevat ominaisuudet (ominaisuusavaruus) eivät laajene.

Koneoppimisen riski

Koneoppimisen soveltamisessa on mukana yleisesti tunnettu ”big datan” helmasynti, eli harhaanjohtavat korrelaatiot. Mitä enemmän hakujen tulkinnassa mennään kontekstisidonnaisuuteen, sitä todennäköisemmin mukaan tulee harhaanjohtavia korrelaatioita. Mitä enemmän muuttujia kone ottaa mukaan (tuhansia), sitä todennäköisemmin mukaan tulee harhaanjohtavia korrelaatioita. Eli ”totuuden” selvittäminen vaatii aina kontrolloitua testausta, ja sen puute on merkittävä rajoite tavanomaisissa koneoppimisimplementoinneissa.

Johtopäätös: Ei mitään radikaalia

Jos Fiskinin visiota vertaa nykyiseen Google-algoritmiin (sellaisena kuin se yleisesti tunnetaan), niin nykyisin käytetään suoria mittareita, joiden perusteella lasketaan pistearvo ja pistearvot summaamalla määritetään indeksissä olevien sivujen sijainnit suhteessa tiettyyn hakuun.

Uudessa mallissa kone rakentaisi mallin joka mittaisi suorien mittareiden välisiä suhteita, vaikka niin että mistä mittareista bounce muodostuu (ts. mitkä ennustavat sitä parhaiten). Tämä ei siis tarkoita että SEO-parametrit muuttuisivat jotenkin turhiksi (koska ne ovat välttämätön osa ominaisuusavaruutta, josta kone rakentaa mallin), vaan että niiden painotus tarkentuisi koneoppimisen kautta.

”Käyttäjäystävällisyys” eli hakijan palveleminen on aina ollut Googlen hakualgoritmin peruskivi, ja ystäväni Viet Dang puhui jo vuonna 2010 UFO:sta (= User-Friendly Optimization) SEO:n sijaan. Niin kauan kuin yleisesti tunnetuilla tekijöillä (nopeus, hyvä copyteksti, haun suhteen relevantti tarjonta) on välillinen tai välitön kytkös käyttäjän tyytyväisyyteen (jota Google mittaa epäsuorasti), eivät hakukoneoptimoinnin perusteet muutu.

Mikä olisi paras tapa hyötyä koneoppimisesta?

Hakukoneoptimoija hyötyisi eniten, jos hän rakentaisi oman koneoppimisalgoritmin hakuja varten ja ajaisi sitä omassa hakuympäristössään (ts. oikeassa maailmassa). Koneen luoma malli mahdollistaisi hakukäyttäytymisen syvällisemmän ymmärtämisen ja tulosten yleistämisen hakukoneoptimointiin Google-ympäristössä. Koska tämä menetelmä kuitenkin vaatisi käytännössä oman hakukoneen rakentamisen, ei se liene realistinen vaihtoehto keskivertohakukoneoptimoijalle.

Mistä algoritmien valtaan keskittyvässä tutkimuksessa on kyse?

Miksi algoritmit ovat tärkeitä?

Algoritmi on tietokoneohjelma, joka kykenee tekemään itsenäisiä päätöksiä. Tällä hetkellä päätökset koskevat esimerkiksi informaation leviämistä sosiaalisessa mediassa, hakukoneiden tulosten järjestelyä sekä mainosten kohdentamista verkossa. Algoritmien päätöksillä on tärkeä rooli kansalaisten ja kuluttajien arjessa, sillä käytännössä informaatioalgoritmit määrittävät mitä sisältöä meille näytetään milläkin hetkellä. Esimerkiksi Facebook voisi näyttää käyttäjälle jopa 1500 viestiä päivää kohti, mutta koska tämä on liikaa useimmille käyttäjille, se näyttää niistä noin 300 viestiä päivässä (Facebook, 2013). Samoin Google valitsee jokaista hakukyselyä kohti ensimmäiselle hakusivulle 10 tulosta miljoonien samankaltaisten sivujen joukosta (Google, 2016). Koneilla on siis valta valita, minkälaista informaatiota kullekin yksilölle näytetään, ja tätä kautta vaikuttaa mm. kansalaisten maailmankuvaan ja yleiseen mielipiteeseen.

Neutraalit algoritmit

Jos algoritmi on neutraali, eli toimii 1) läpinäkyvästi ja 2) yleisesti hyväksyttyjen toimintaperiaatteiden mukaisesti, sen valta-asemassa ei välttämättä ole mitään ongelmaa, sillä parhaimmillaan koneelliset päätökset ovat vapaita ihmisten asenteellisuudesta ja kognitiivisista rajoitteista. Jos algoritmi kuitenkin on puolueellinen, esimerkiksi maksimoimalla sen omistajan mainostuloja käyttäjien hyödyn sijaan, piilottamalla poliittisesti arkoja aiheita taikka järjestelmällisesti syrjimällä tiettyjä käyttäjiä, voidaan algoritmien suuri valta nähdä yhteiskunnallisena riskinä. Koska merkittävimpien algoritmien kehitystä johtavat suuret pörssiyritykset, joiden pääasiallinen tehtävä on tuottaa voittoa osakkeenomistajilleen, ja koska algoritmien toimintalogiikat ovat liikesalaisuuksia, on koneellisen päätöksenteon kriittinen tarkastelu perusteltua.

Algoritmien valta on avoin yhteiskunnallinen kysymys

Koneiden valta informaationvälityksessä on kasvavan kansainvälisen huomion kohteena. Etenkin keskustelu Facebookin valtaroolista on aktiivista. Yrityksen perustajan Mark Zuckerbergin mukaan Facebook ei ole media, vaan ”sosiaalinen alusta”, mutta esimerkiksi Vietnamin sodan ikonisen lapsikuvan piilottaminen käyttäjien uutisvirrasta on herättänyt kysymyksiä koneen suorittaman sensuroinnin eettisyydestä (Oremus, 2016). Lisäksi vuoden 2016 Yhdysvaltain presidentinvaalien yhteydessä Facebookia kritisoitiin poliittisesti tietynlaisten uutisotsikoiden suosimisesta (Facebook Newsroom, 2016). Kritiikin valossa Facebook vastikään päättikin poistaa toimituksellisen ihmisryhmän aiheiden valinnasta, ja sisällön valinta on nyt siirretty täysin algoritmin harteille (Lichterman, 2016). Vaikuttaa siltä, että yhteiskunnallinen kiinnostus Facebookin ja muiden suosittujen informaatioalustojen toimintaperiaatteita kohtaan ainoastaan kasvaa tulevaisuudessa, joten teknologisten kysymysten lisäksi eri toimijat joutuvat ottamaan kantaa eettisiin, poliittisiin ja yhteiskunnallisiin kysymyksiin.

Lähteet

Facebook (2013) News Feed FYI: A Window Into News Feed. https://www.facebook.com/business/news/News-Feed-FYI-A-Window-Into-News-Feed

Facebook Newsroom (2016) Response to Chairman John Thune’s letter on Trending Topics. https://newsroom.fb.com/news/2016/05/response-to-chairman-john-thunes-letter-on-trending-topics/

Google (2016) Algorithms. https://www.google.ca/insidesearch/howsearchworks/algorithms.html

Lichterman, J. (2016) Algorithms are now controlling Facebook’s Trending topics. What does that mean for news? http://www.niemanlab.org/2016/08/algorithms-are-now-controlling-facebooks-trending-topics-what-does-that-mean-for-news/

Oremus, W. (2016) Facebook’s Censorship Problem Is What Happens When a Tech Company Controls the News. http://www.slate.com/blogs/future_tense/2016/09/09/facebook_censors_napalm_girl_photo_changes_mind_has_no_idea_what_it_s_doing.html