Palapelin rakentamista
Kirjoitin edellisessä merkinnässä isojen kielimallien (”AI:n” tai ”tekoälyn”) käytöstä opetuksessa. Myös tutkimuksessa käytetään niitä ja muita koneoppimisalgoritmeja yhä enemmän.
Noin puolessa Euclid-tutkimusryhmän viime keväänä julkistamista artikkeleista, missä raportoitiin Euroopan merkittävimmän kosmologiasatelliitin Euclid ensimmäisistä tuloksista, oli käytetty koneoppimista tutkimuksen tekemisessä. Esimerkiksi maailmankaikkeuden rakenteen kehittymistä kuvaavien simulaatioiden tekeminen vaadittavalla tarkkuudella ja tarvittavissa määrin ei olisi mahdollista ilman koneoppimista. Sopiva algoritmi oppii tarkoista simulaatioista kehittämään tuloksia tapauksissa, jotka ovat niitä riittävän lähellä oppimateriaalia.
Osa koneoppimisalgoritmeista on tutkijoiden omaan käyttöön kehittämiä, mutta viime vuosien läpimurto on kaupalliset yleiseen käyttöön tarkoitetut isot kielimallit. Niihin liittyy paljon hehkutusta vallankumouksellisuudesta, josta suuri osa on kyseenalaista tosiseikkojen näkökulmasta mutta tarpeellista bisnesmallin kannalta.
Isoihin kielimalleihin liittyy merkittäviä eettisiä ongelmia. Kollegani Deanna Hooper käy läpi joitakin niitä Fysiikan tutkimuslaitoksen blogissa. Tietojenkäsittelytieteilijä Hannu Toivonen on Helsingin yliopiston Think Open -blogissa listannut isojen kielimallien käytölle suosituksia, joita nykyisillä kaupallisilla sovelluksilla on vaikea ellei mahdoton toteuttaa, kuten kestävän kehityksen tukeminen.
Datakeskusten isojen kielimallien kouluttamisessa ja käytössä kuluttama vesi ja energia ovat iso ekologinen ongelma. Lisäksi niiden bisnesmalli on sekä tuhoisa että kestämätön, ja isojen kielimallien kaupallisia palveluita halvalla tai ilmaiseksi tarjoavien yritysten lähitulevaisuuden konkurssi vahingoittanee merkittävästi maailmantaloutta. Sillä on myös iso vaikutus näiden sovellusten tarjontaan, mikä tekee niiden varaan rakentamisesta kyseenalaista.
Usein jätetään mainitsematta se, että monet kielimallien tarjoajat osallistuvat kansanmurhaan, joten niiden rahalliseen tukemiseen liittyy ilmeisiä moraalisia ongelmia. Helsingin yliopiston, kuten useimpien yliopistojen, johto ei ole kiinnostunut tämäntyyppisistä eettisistä kysymyksistä, eivätkä sen eettiset asiantuntijat tee asiassa tehtäväänsä.
Näiden eettisten ongelmien lisäksi, ja niistä huolimatta, isoihin kielimalleihin liittyy tieteen kannalta toinen iso kysymys: mikä on niiden hyöty ja haitta tutkimukselle?
Tutkijat käyttävät isoja kielimalleja samaan tapaan kuin muutkin: ne nopeuttavat koodin kirjoittamista merkittävästi, tiivistävät tekstiä erinomaisesti (mukaan lukien artikkeleita, joita ei ehdi muuten lukea), niistä on apua tekstin kieliasun ja ilmaisun parantamisessa, ja niin edelleen. Mutta lisäksi isoja kielimalleja on ruvettu käyttämään tutkimuksessa tavalla, jossa niitä kohdellaan ennemmin yhteistyökumppanina kuin työkaluna.
Luin viime keväänä nettiarkistossa arXiv julkistettua artikkelia kosmologiasta. Tuntui oudolta, että tekstissä oli paljon bullet pointeilla jäsenneltyjä listoja ja epämääräisen yleisluontoista tekstiä – kumpikaan ei ole tavallista alan tutkimuksessa mutta kylläkin isojen kielimallien tuotoksissa. Sitten vastaan tuli entistä kummallisempia väitteitä, kuten se että luku 75 on pienempi kuin 73. Tarkempi luenta osoitti, että iso kielimalli oli myös keksinyt artikkeliin ainakin yhden viitteen, joka näyttää aidolta, mutta jota ei ole olemassa: tätä ihminen ei voi vahingossa tehdä. En tiedä olivatko kaikki artikkelin tulokset ison kielimallin arvausta siitä miltä tutkimus näyttää, vai oliko osa tutkimuksesta oikeasti tehty.
Toin tapauksen arXivin hallinnon tietoon, ja artikkeli on poistettu arXivista sääntöjen ”vakavan rikkomisen” takia. Kahden artikkelin kirjoittajan nimet on myös poistettu näkyvistä, joten on mahdollista että iso kielimalli oli keksinyt lisätä ne. Minulle on epäselvää, miksi alan tutkija laittaa nimensä tällaiseen tekeleeseen, josta jää varmasti kiinni. Mutta koska isot kielimallit mahdollistavat oikealta näyttävien tulosten joita ei ole olemassa nopean ja vaivattoman tuottamisen, niitä myös käytetään siihen yhä enemmän.
Hienovaraisempi esimerkki on arvostetussa lehdessä Physics Letters B tässä kuussa julkaistu artikkeli, jonka pääidea oli sen kirjoittajan mukaan ison kielimallin keksimä. Kirjoittaja myöntää, että isot kielimallit tekevät sekä yksinkertaisia virheitä että käsitteellisesti virheellisiä mutta uskottavalta näyttäviä päätelmiä. Hän vertaa niiden käyttämistä yhteistyöhön epäluotettavan ihmisneron kanssa, ja sanoo että virheitä voi vähentää käyttämällä yhtä kielimallia tuloksen tuottamiseen ja toista sen tarkistamiseen.
Alan asiantuntija Jonathan Oppenheim totesi nopeasti, että kyseinen artikkeli on käsitteellisesti täysin väärin, eikä siinä todisteta sitä asiaa, mitä väitetään. Oppenheim varoittaa tiedemössön aikakaudesta, missä isojen kielimallien kyky tuottaa oikealta näyttävää roskaa kasvaa nopeammin kuin ihmisten mahdollisuudet seuloa sitä. Niiden tuotos näyttää usein oikealta, vaikka olisi perustavanlaatuisesti väärin, ja muun kuin asiantuntijan voi olla vaikea arvioida mistä on kyse. Asiaa ei auta se, että myös artikkelien vertaisarvioinnissa käytetään yhä enemmän isoja kielimalleja.
Samalla isoista kielimalleista on paljon apua joidenkin tutkimukseen liittyvien osien automatisoimisessa. Kenties hieman yllättäen isoista kielimalleista on toistaiseksi ollut enemmän hyötyä matematiikassa, joka on fysiikkaa täsmällisempi ala. Tämä johtuu siitä, että siinä matemaattisilla todistuksilla on keskeinen rooli, ja niiden tarkistamiseen on olemassa täsmällisiä sovelluksia kuten Lean, mikä auttaa tunnistamaan isojen kielimallien virheitä.
Automatisaatiolla on pitkä historia fysiikan (ja monen muun inhimillisen toiminnan alan) mekaanisten tehtävien yksinkertaistamisessa. Aikoinaan planeettojen ratoja laskettiin käsin, nykyään tietokoneet tekevät sen nopeammin ja tarkemmin, eikä kukaan kaipaa menneeseen. Tällaisen automatisaation hyötynä ei ole vain nopeus, tärkeää on myös se, että perinteiset algoritmit ovat täsmällisiä eivätkä tee huolimattomuusvirheitä, mikä ovat ihmisten tekemissä pitkissä laskuissa suuri ongelma. Tietokoneet on rakennettu logiikan sääntöjen fysikaalisiksi ilmentymiksi, ja ohjelmat noudattavat ennalta määrättyjä polkuja, joissa jokainen askel seuraa johdonmukaisesti edellisestä.
Isot kielimallit ovat ratkaisevasti erilaisia. Niiden koodit toki toimivat täsmällisesti kuten muutkin ohjelmat, mutta niitä ei ole rakennettu loogiseen päättelyn. Ne ovat arvauskoneita, jotka ovat hyviä tunnistamaan kuvioita, rakentamaan niistä palapeliä ja keksimään uusia paloja.
Tässä ne ovat lähempänä aivojen toimintaa kuin perinteiset ohjelmat. Aivot ratkaisevat valtavan tehokkaasti, tavalla jota ei vielä täysin ymmärretä, kuvantunnistusta, liikkeenhallintaa, ja vastaavia laskennallisia tehtäviä. Tietoiseen päättelyyn on käytettävissä vain pieni osa tästä laskennan arkkitehtuurista, ja hyvin eri tavalla. On erittäin työlästä ohjata aivoja tietoisesti laskemaan vaikkapa monimutkaisia todennäköisyysjakaumia, vaikka niiden tiedostamaton osa oletettavasti tekee niin koko ajan osana havaintojen muodostamista.
Vastaavasti isojen kielimallien päätelmien yksityiskohdat ovat meille näkymättömissä. Iso ero ihmisen aivoihin on se, että isot kielimallit eivät ymmärrä tekemäänsä, vaikka ne ovatkin hyviä tuottamaan tekstiä, joka antaa toisen vaikutelman.
Kun Pariisissa tutkimusvapaalla ihmettelin sitä, miten ihmiset vielä laskevat käsin rakenteeltaan suoraviivaisia mutta yksityiskohdiltaan hyvin monimutkaisia gravitaatiolaskuja, eräs kollega totesi, että meidän pitää odottaa, että vanhat mestarit jäävät eläkkeelle ja nuoret ottavat uudet menetelmät käyttöön.
Kun isojen kielimallien kaltaiset epäluotettavat kuviontunnistajat yhdistetään myös fysiikassa ohjelmistoihin, jotka pystyvät tarkistamaan tulokset täsmällisesti ja joiden jokaisen askelen voi tarkistaa, tämä mullistaa tutkimuksen. Tämä on puuttuva pala, jonka lisäämisellä on valtava merkitys isojen kielimallien käytölle luonnontieteissä.
Tämän askeleen myötä paljon siitä laskemisesta, minkä nykyään tekevät väitöskirjaopiskelijat ohjaajansa ideoista muuttuu koneelliseksi työksi, johon ihmisten ei tarvitse koskea. Fysiikkaa opitaan tekemällä, joten myös opetuksen pitää muuttua, kuten se on muuttunut automatisaation aiemmissa vaiheissa. Laskutikut jäivät historiaan nopeasti, eikä käsin integroimisella ole enää samaa roolia kuin ennen tietokoneiden laajaa käyttöä kasvaneen sukupolven aikana.
Isoista kielimalleista on merkittävää haittaa. Tämä ei ole ristiriidassa sen kanssa, että niistä on paljon hyötyä ja tulee olemaan vielä enemmän – kuten tämä hyöty ei pyyhi pois niiden isoja ongelmia.
Ursan blogien etusivulla lukee tästä blogista seuraavasti: ”Teoreettinen fyysikko Syksy Räsänen kirjoittaa universumin rakenteesta, sen rakennuspalikoista ja säännöistä kaiken takana.” Tämä kirjoitus ei käsittele mitään näistä aiheista vaan kritisoi isojen kielimallien ongelmia ja niiden takana olevien yhtiöiden poliittisia kytkentöjä. Ursan blogien ei mielestäni pidä olla poliittisen vaikuttamisen kanava, vaan olla epäpoliittinen luonnontieteisiin ja ennen kaikkea tähtitieteeseen kytkeytyvien kirjoitusten alusta. Toivoisin kirjoittajalta harkintaa oikeiden julkaisualustojen löytämiseksi kirjoituksilleen.
Käsittelen blogissa paitsi tieteen tuloksia, myös tieteen tekemistä. Niinpä kirjoitan muun muassa konferensseista, opettamisesta, julkaisemisesta, vertaisarvioinnista, yhteisöstä, häirinnästä, syrjinnästä, rahoituksesta, historiasta – ja etiikasta.
Tässä merkinnässä kirjoitin isojen kielimallie hyödyistä ja ongelmista tutkimukselle – jälkimmäisiin kuuluu muun muassa se, että niitä valmistavat yritykset tukevat kansanmurhaa (mihin ilmeisesti viittaat ”poliittisilla kytkennöillä”).
Aiempia merkintöjä missä etiikka tulee esille:
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/mallioppilas/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/heisenbergin-perilliset/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/tieteilijan-etiikasta/
Poliittisiksi luettavista tieteen kysymyksistä lisää:
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/rajaton-tiede/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/matka-lapi-vuosikymmenten/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/myos-me-kierros-4-we-too-round-4/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/rakenteiden-sisalta/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/on-the-road-to-diversity/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/kohti-monimuotoisuutta/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/myos-meus-too/
Tiedeyhteisöstä enemmän:
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/viidakon-lait/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/inhimillinen-komedia/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/mika-menee-pieleen/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/oletetusti-vaarin/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/matka-lapi-vuosikymmenten/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/logiikasta-ruuveihin/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/parhaaksi-katsomallaan-tavalla/
https://www.ursa.fi/blogi/kosmokseen-kirjoitettua/sankarien-riisumista/