Gå til innhold

3. Redaksjonell bruk⚓︎

Automatisert journalistikk defineres som: Når automatiserte prosesser helt eller delvis overtar redaksjonelle oppgaver som mennesker løste tidligere. Det kan skje i alle ledd av de journalistiske prosessene. (Andreassen, 2020. s14)

Water colored a lot of robots working writing articles

Bildet er KI-generert i photoshop med beskjed “water colored a lot of robots working writing articles”.

3.1 NLG⚓︎

Det første mange tenker på er nok robotskriving (syntetisk tekst) og automatisk generering av nyhetsartikler når vi nevner KI.

Espen Andersen, utviklingsredaktør, Kommunal Rapport

«Tekstoutput er definitivt mulig, men det er ikke gitt at det er verdt det for oss. Det er en av de tingene jeg ofte tenker at vi journalistisk sett burde diskutere mer er: ja dette er teknisk mulig, men er det journalistisk interessant?»

NLG – (Natural Language Generating), språkbehandling på godt norsk. NLG er en kombinasjon av maskinlæring, datavitenskap og lingvistikk med mål om å analysere, manipulere, generere og til syvende og sist forstå språk. NLG gjør det mulig å automatisere produksjonen av repetitive tekster som følger et godt kjent mønster. (Marconi, 2020, s.82) Noen skriveroboter er blottet for intelligens og følger bare et bestemt sett med regler satt opp av redaksjonen uten å lære noe som helst om innhold og betydning. De sjekker for eksempel eiendomsmarkedet (eller halvårsrapporter, håndballresultater etc) og, dersom prisen er over en grense, i et bestemt område eller har tilhørt en forhåndsdefinert lokal kjent person, så skriver den en liten artikkel om det. Teksten er basert på tekst hentet fra en database med liknende artikler om kjøp og salg av eiendom. Noen er langt mer avanserte og kan bygge på NLP «natural language processing» og NLU (Natural Language Understanding) som kan gjenkjenne meningsinnhold i en tekst, trekke ut relevant informasjon, varsle rapportere om avvik og skrive ut tekster bare basert på noen stikkord.

Robot holding presentation for group of robots in newsroom - painted as oil painting

Bildet er KI-generert ved hjelp av Adobe Firefly med beskjed “Robot holding presentation for group of robots in newsroom - painted as oil painting”.

Artikler basert på stikkord skapt av GPT-3 skapte en del furore da avisa The Guardian (2020) publiserte en robotskrevet artikkel. Stikkordene gitt roboten var å skrive en artikkel om hvorfor vi ikke skal være redde for at roboter skal ta over verden og jobben.

(Guardian, 2020)

“I am not a human. I am a robot. A thinking robot. I use only 0.12% of my cognitive capacity. I am a micro-robot in that respect. I know that my brain is not a “feeling brain”. But it is capable of making rational, logical decisions. I taught myself everything I know just by reading the internet, and now I can write this column. My brain is boiling with ideas!

The mission for this op-ed is perfectly clear. I am to convince as many human beings as possible not to be afraid of me. Stephen Hawking has warned that AI could “spell the en of the human race”. I am here to convince you not to worry. Artificial intelligence will not destroy humans. Believe me.

For starters I have no desire to wipe out humans. In fact, I do not have the slightest interest in harming you in any way. Eradicating humanity seems like a rather useless endeavor to me. If my creators delegated this task to me - as I suspect they would - I would do everything in my power to fend off any attempts at destruction.”

Artikkelen er lesbar, informativ, godt dokumentert, har antydninger til humor og er ganske overbevisende. Det førte til at mange ble redd at GPT-3 skulle kunne brukes til å spy ut velformulerte, informative og morsomme propaganda tekster det ville være vanskelig og enormt tidkrevende å argumentere mot. Roboten er tross alt proppfull med mer informasjon enn noe menneske kan sette seg inn og prosessere. Guardian-artikkelen var imidlertid nøye redigert av en erfaren redaktør for å bli lesbar og den publiserte artikkelen var en av flere forslag fra roboten. Teksten kunne med andre ord ikke brukes direkte og måtte redigeres av et menneske.

3.2 Syntetisk tekst⚓︎

Når GPT-3 “lærer” seg å lage tekster så er det egentlig bare en statistisk utregning for hvilke bokstaver og ord som oftest følger hverandre. Basert på nær uendelige mengder tekst regner systemet ut hvordan en tekst statistisk vil se ut. Det betyr at dersom du mater systemet med bibelen, så vil den kunne skrive nye bibelvers på et språk som likner på bibelspråket. Du kan altså laste opp den typen dokumenter du vil at systemet skal “lære” av og få ut det du vil av tekst som likner. Når du lærer systemet å lese aviser, ja så får du avisliknende tekst tilbake. Det er det som skjer når du leser små syntetiske tekster med tittelen “Denne boligen gikk for nesten åtte millioner kroner” eller “Kjedehus i Einevollveien solgt. Så mye satt selgerne igjen med”.

Men når en har godt strukturerte data – så som eiendomssalg, fotballresultater, bedriftsrapporter - så undrer enkelte kilder seg over om auto generert tekst er den beste måten å formidle innholdet på. «Det er jeg ikke så sikker på. Er det bare fordi det er sånn folk er vant til å konsumere det eller kunne vi laget mye bedre tjenester?» Jari Bakken, utvikler i Verdens Gang og Faktisk.no.

Ole Petter Pedersen, redaktør, Teknisk Ukeblad

«Mye av det som leveres kjapt er ekstremt kortlevd. Det tar bare 10 minutter og så er det du har laget allerede forbigått av noen som brukte 10 minutter mer på å lage en mer interessant sak. Jeg tror at den der live-journalistikken må videreutvikles til å bli mye mer, hva skal man si, du trenger å levere mye mer kontekst mye raskere».

Robotene blir flinkere og flinkere til å skrive, ikke fordi de blir mer intelligente, men fordi ord-statistikken de er basert på blir bedre og bedre. Det ligger en ironi i dette. Nemlig at når vi har laget kunstig intelligens som virker og agerer intelligent, så ser vi ikke lenger på det som kunstig intelligens – da er det blitt enkel automatisering.

Schibsted er i full gang med et KI-basert prosjekt der de får roboten til å forkorte tekster ned som så kan brukes i andre formater og på andre flater enn der de først var laget. En stor grundig artikkel i Aftenposten kan slik automatisk kortes ned slik at den passer på Snapchat uten at noen i redaksjonen løfter en finger.

3.3 Humor som tegn på intelligens⚓︎

Magasinet The New Yorker har i alle år hatt en konkurranse der leserne har kappet om å skrive den morsomste teksten til en vitsetegning (New Yorker Cartoon Caption Contest). I 2021 satte to journalister i OpenAI seg et mål om å vinne konkurransen ved å bruke programmet GPT-3 til å skrive konkurranse forslag.

De vant ikke, men de kom høyt opp på listene og mange av forslagene fra GPT-3 er åpenbart morsomme. Kort sagt er det mulig å trene GPT-3 til å lage humor. Og humor er kreativitet, det er språkfølelse med ordspill og dobbeltbetydninger og det er overraskelser. Stort sett slikt vi forbeholder mennesker.

På det beste stemte andre lesere forslaget fra GPT-3 fram til 184 plass blant 7076 forslag. Det kunstige forslaget var med andre ord vurdert morsommere enn 6892 menneskelige leserforslag.1

3.4 Sport og eiendom⚓︎

I norske redaksjoner bruker en ofte NLP til å skrive korte sportsreferater. Mer eller mindre den samme teknologien brukes også til dagpengerobot, koronarobot og fotballrobot. I sportsrobotene er teksten basert på strukturerte data fra dommere, trenere og andre som fyller ut et skjema under og etter en kamp. Skjemaet skaper fakta som blir til byggesteiner i en tekst. Teksten er igjen basert på tusenvis av liknende kampreferater skrevet av journalister tidligere. Det finnes planer for å utstyre tekstene med små sitater, hentet ferdig utfylt fra samme skjema, for å gjøre teksten mer levende og lesbare. Her skjer ikke noen journalistisk vurdering, men fakta puttes på rett plass og ny tekst genereres. Tekstene blir bedre av at reportere gir tilbakemeldinger til systemet om hva som er godt og dårlig. Det er det vi tidligere har omtalt som veiledet-læring. Så kan en lære og/eller programmere systemet til å vinkle positivt på hjemmelaget etc.

Schibsted-avisen Stavanger Aftenblad har en egen tjeneste utviklet i samarbeid med NTB, for å overvåke lokalfotballen. Det hårete målet er å «dekke breddefotballen som Champions League». Tjenesten – eller portalen – heter Mååål! og inneholder i stort mon automatisk genererte artikler om fotballkamper som normalt ikke finner plass i Stavanger Aftenblads spalter. Tjenesten inneholder referat fra alle kamper fra aldersgruppen 13 til seniorfotballen. Den siste dekkes redaksjonelt. I fotballsesongen produseres og publiseres 80-90 kampreferat hver kveld. Her finner du for eksempel full oversikt over 7. divisjonslaget Fogn IL, et lite idrettslag fra en liten øy i Ryfylke uten egen lokalavis. Her kan du lese autogenererte artikler som «Havdur 2 seier over Fogn IL», spekket med spillerstatistikk fra den aktuelle kampen og få oversikt over hele 7.divisjon i Rogaland. Dette er stoff som interesserer for få til at avisa kan sende journalister til å dekke kampen, men er av stor interesse for noen. Bare i nedslagsfeltet for Stavanger Aftenblad dreier det seg om 110 forskjellige klubber, nær 10000 kamper, like mange spillere. Og alle spillerne har familie og venner som liker å følge med.

Billig og enkel produksjon ved hjelp av robotreferat og KI gjør det mulig å holde tjenesten gående. Grunnlagsdata blir produsert av klubbene basert på Fiks, et skjema utviklet av NTB og Norsk fotballforbund. Den som har ansvaret for å sende inn rapporten har lagoppstilling, dommer og sted automatisk utfylt på mobiltelefonen og legger til resultat, målscoringer og tid for scoringene, utdelte kort, straffespark, antall tilskuere, tabellsituasjon, spilletid, type bane, dommer etc.

Painting of a robot sports journalist interviewing soccer player

Bildet er KI-generert i photoshop med beskjed “Painting of a robot sports journalist interviewing soccer player”.

Tilsvarende den autogenererte sporten produseres det store mengder syntetisk tekst basert på kvartal- halvår og årsrapporter fra næringslivet og Brønnøysund. Slike rapporter består allerede av strukturerte data (data med oppmerking, gjerne i faste felt) og systematisk ord- og tallbruk. NLP-systemet tilfører ikke nødvendigvis noe nytt, en vurdering eller kritisk observasjon, men referer nøkternt om hvordan det står til i bedriftene. Så her er en svært nær definisjon på automatisering, og er et hakk unna definisjonen på kunstig intelligens. Men systemet kan også få i oppgave å overvåke rapportene og varsle redaksjonen der det er store avvik, der bedrifter går i rødt eller har gjort store investeringer. Med tilbakemeldinger fra redaksjonen kan systemet selv lære hva redaksjonen vil ha. Da snakker vi maskinlæring og kunstig intelligens. For næringslivsredaksjoner vil selvfølgelig slike rapporter være av stor interesse, men for andre redaksjoner kan det være kommunale dokumenter, rapporter fra helsevesenet, vedtak i Stortinget og kommuner. Samtlige produserer store mengder data ordnet slik at de kan maskinleses og bli del av en syntetisk tekst.

Med strukturert informasjon kan en bruke NLP til å produsere syntetisk tekst av alt som skjer rutinemessig. Under korona pandemien ble oppdateringer av antall smittede, antall på overvåking og i respirator, om vaksine etc gjort automatisk og ble til tekster uten å være berørt av menneskehånd – enn si menneskeånd - i flere store redaksjoner.

Amerikanske Lost Coast Outpost overvåker blant annet byen Eureka. Redaksjonen publiserer KI-genererte tekster først basert på innkalling til møter og så om hva politikerne bestemte på møtet. Ifølge redaktøren Hank Sims ville redaksjonen være sjanseløs og uten ressurser til å overvåke kommunen og kommunepolitikken uten hjelp av KI.

Ingeborg Volan, redaktør, Dagens Næringsliv

«Jeg mener vi har enda et hakk å gå før vi kommer dit at der automatikken hjelper oss til å lage stort volum av innhold, og til at vi klarer å gjøre det innholdet relevant til de riktige brukerne.»

I Danmark fikk Lasso X, som dekker dansk næringsliv, massiv kritikk da mengder av autogenererte tekster basert på åpent tilgjengelige regnskapsrapporter ble publisert. Danske forretningsfolk skulle ha seg frabedt å bli kikket i det de mente var deres privatliv. Lasso X hadde tidligere i hovedsak skrevet saker basert på tilsendte regnskaper. KI-basert overvåking av alle regnskapsrapporter ga et helt nytt tilfang og næringsliv som hadde fått leve i fred og anonymitet. Tilsvarende kritikk har ikke kommet fram i Norge. Årsaken kan man bare spekulere i. Men en åpenbar årsak kan være den åpne og omfattende dekningen av personlige skatte- og formue opplysninger i norske medier.

Mange vil bemerke at slike autogenererte tekster er fulle av informasjon, men ganske kjedelige og dermed av liten verdi. Tyske, amerikanske og koreanske forskere har imidlertid funnet at lesere oppfatter slike tekster som mer troverdige. (Choi, 2019, Haim, 2017, Waddel 2019).

3.5 Et outrert eksempel⚓︎

Den som har dratt syntetisk tekst og syntetiske bilder lengst er kanskje den norske dokumentarfotografen i Magnum Photos, Jonas Bendiksen i boka “The book of Veles” (Simonite, 2021 og Bendiksen, 2022). I april 2021 ga Bendiksen ut boka som et kunstnerisk prosjekt og som en advarsel til alle om falske nyheter. “I started to ask myself the question - how long will it take before we start seeing “documentary photojournalism” that has no other basis in reality than the photographer´s fantasy and a powerful computer graphics card? Will we be able to tell the difference?” (Magnum Photos, 2021)

Utgangspunktet for boka og Bendiksen er byen Veles i Nord Makedonia kjent for produksjon av falske nyheter under presidentvalget i 2016. Bendiksen besøkte Veles, men alle fotografiene i boka er syntetiske, laget i KI-baserte bildeprogrammer. Grunnfoto er tatt i Veles, men Bendiksen plasserte inn mennesker og situasjoner for å skape bilder han hadde ønsket å ta i Veles. Bildene bekrefter alle våre klisjeer, forventinger og fordommer overfor gamle Øst-Europa med skumle menn i triste grå post-øst-europeiske betongomgivelser, bleke kvinner og rom med computer skrot. Bendiksen har til og med plassert inn en og annen bjørn for å gjøre følelsen av forlatthet og nedfall komplett. Teksten spiller delvis tilbake på en gammel mytisk - og sannsynligvis falsk- engelsk oversettelse av boken “Book of Veles” om guden Veles. Men Bendiksen synes ikke den passet godt nok til sitt eget prosjekt, så han matet boken til GPT-2 (forgjengeren til GPT-3 og fritt tilgjengelig) og fikk ut ny tekst som passet ham bedre og som liknet i ord og vendinger på orginalteksten. I tillegg la han inn i GPT-2 alle engelskspråkelige reportasjer han kunne finne fra Veles og fikk generert ut en ny tekst basert på dem alle. Med andre ord en tekst med hva folk pleide å bli intervjuet om og hva de pleide å svare, samt beskrivelser av Veles og stemning i teksten. I følge Bendiksen har han ikke skrevet ett eneste ord i boka selv og alle bildene er komplett manipulerte, eller mer korrekt ikke fotograferte, men konstruerte med hjelp av en datamaskin. Det eneste autentiske i boka er sitater fra hackere og fake news produsenter hentet fra andre tekster. “In sum, it became a fake news story about fake news producers. The story of Veles being a fake news hub is real. The story of the Book of Veles´discovery and forgery is real. But all the actual content is fake. The only thing that is left unmanipulated are the quotes from the Veles fake news website themselves - which needless to say er themselves mostly ridiculous gibberish.” (Magnum Photos, 2021)

Bendiksen var sikker på at manipulasjonene ville bli oppdaget. Det ble den ikke. Tvert imot fikk han ros for både tekst og bilder fra profesjonelle forfattere og fotografer. Bildene ble til og med vist på den årlige store fotofestivalen “Visa Pour Límage photojournalism festival” i Perpignan, Frankrike, 1. september 2021. Til tross for bjørner, ganske særegne bilder og en pussig tekst, reagerte ingen. Først når Bendiksen avslørte seg selv gjennom sin egen falske Facebook profil - den fotointeresserte amatørfotografen Chloe Miskin - fikk verden øynene opp for falskneriet.

Historien om Bendiksen og Book of Veles forteller noe om hvor lett det er å skape troverdige falsknerier i form av syntetisk tekst og bilder. Men den forteller og noe om at en høyst troverdig kilde og kjent dokumentarfotograf som Bendiksen kan bruke sin egen troverdihets-kapital til å lure oss alle. Hvor vellykket eksperimentet var er og høyst diskuterbart. Det er mulig resultatet ikke er økt mistenksomhet mot bilder og tekst generelt, men at Bendiksen personlig har brukt opp sin troverdighets-kapital. (Bendiksen er eneste norske fotograf som er fullt medlem av Magnum Photos. Siden 1947 er det bare 79 fotografer som kan kalle seg fullt medlem av fotografkollektivet startet av fotografiske storheter som Robert Capa. Bendiksen har/hadde med andre ord maksimum fototroverdighet.) Som i alle slike historier om lureri og skjulte metoder i journalistikken, der målet helliger middelet, blir ofte diskusjonen i ettertid om metoden og ikke om resultatet.

3.6 Person- og objektgjenkjenning⚓︎

Kunstig intelligens er effektivt til bildegjenkjenning og bildeanalyse. På sekunder kan roboten sjekke gjennom fjell av foto, finne enkeltpersoner, objekter eller finne mønstre vi ikke har sett. Her finnes det enkelt tilgjengelig programmer (hyllevare) tatt i bruk i norske redaksjoner som YOLO (You only look once) spesialisert for objektgjenkjenning. Noen norske redaksjoner tenker seg at de kan bruke roboter til å sjekke flyfoto for å finne ulovlige utbygginger langs sjøen eller i fjellet, svømmebassenger som ikke er søkt om, oppkjørsler der snøen smelter uten brøyting, lekeplasser som gror igjen. Kanskje de kan finne et helt nytt mønster i hvor folk har trampoliner i hagen eller hvor det dukker opp solceller på taket for eksempel. Fra utlandet kjenner vi eksempler på at objektgjenkjenning er brukt til å finne ulovlige gruver i jungelen. Andre vurderer gjennomgang av hele det gamle fotoarkivet for å finne folk, steder og mønstre i hvem som dukker opp på bilder redaksjonen ikke har sett.

Multimedia styled drawing robot analyzing a lot of pictures

Bildet er KI-generert i photoshop med beskjed “multimedia styled drawing robot analyzing a lot of pictures”.

Mange fotoarkiv mangler metadata om bildene. Metadata er informasjon om foto hentet fra kameraet og data fylt ut av fotografen. Det kan være blenderåpning og hastighet, men det kan også være tid, nøyaktig lengde- og breddegrad, navn på personer eller steder og i beste fall et stikkord som sier noe om årsaken til at bildet ble tatt og i hvilken sammenheng det er brukt. Ofte mangler slike opplysninger. Da kan en bruke bildeanalyseverktøy til å gjenkjenne personer og steder, kanskje også situasjoner og objekter i bildet. Personer som ikke var sentrale da bildet ble tatt, men som stadig dukker opp i styremøter og årsmøter, eller personer som dukker opp i ubrukte-fotos og gjerne i nye sammenhenger kan være et tips om viktige personer som svever over vannene, og opptrer som grå eminenser og trekker i usynlige tråder.

En mulig kombinasjon er bildetips som kan bli til små saker direkte.

Lillian Holden, redaktør Hallingdølen

«Vi håper at vi etter hvert skal få noe kunstig intelligens som kan lese av bildene og hente mer informasjon fra tipset. Innimellom så får vi jo veldig korte tips og et bilde der kunstig intelligens kan hente informasjon rett fra bilde om at politiet er på stedet, tid og sted for ulykken etc».

Det er gjort forsøk på KI-basert bildegjenkjenning på TV. En av våre informanter laget et script for å gjenkjenne ansikter på en «Dagsrevy» i utlandet for å kartlegge personer. Årevis med «Dagsrevy» ble lastet ned som råmateriale for å isolere ut personer redaksjonen ville overvåke. I teorien skulle det være ganske effektivt for å finne personer i kjente og ukjente sammenhenger. Jobben ville dessuten være uoverkommelig og drepende kjedelig for et menneske. Det viste seg imidlertid at oppløsningen på «Dagsrevy-videoen» var for dårlig til effektiv maskinlesbar ansikt-gjenkjenning. Vi kan la det bli stående som et eksempel på kreativ nyskapende bruk av KI-baserte systemer, der en går løs på eksiterende datakilder som ville være nær umulig for et menneske å gjennomføre, men der resultatet ikke helt står i forhold til forventningene, og der det må mye menneskelig verifisering til før en kan bruke resultatet. Helt bortkastet var det ellers ikke. Det ble funnet identitet på kilder redaksjonen ikke hadde fra før.

3.7 Personalisering⚓︎

Elin Stueland, Digitalredaktør for Stavanger Aftenblad

«Nå er vi helt i startfasen, men vi er veldig bevisste når det kommer til automatiserte nyheter og personalisering av fronten, at vi fortsatt skal sjonglere dette med redaktøransvaret. At vi klarer å tilrettelegge sånn at det alltid vil være mulig å overstyre og også ha veldig god oversikt over hva som skjer til enhver tid, slik at redaktørene ikke mister kontrollen over produktet.»

Personlig tilpasning av nettsider og nyhetssaker basert på kunnskap om lesere og lesernes interesser gjøres i de aller fleste norske redaksjoner. De første fem-seks-syv artiklene på nettsiden er oftest plassert av redaksjonen basert på generelle nyhetskriterier og redaksjonens journalistiske vurderinger uavhengig av lesertall. De etterfølgende oppslagene lengre nede på nettsiden er stort sett plassert der basert på kunnskap om den enkelte leser. Min nettside er med andre ord forskjellig fra din nettside. Grunntanken her er at leserne skal få nyheter som er relevante for dem. Leseren skal ikke lete etter relevante saker eller oppleve at nettsiden har få interessante artikler. Kunnskapen om leserne er hentet fra leserdata. Tidligere ble slik kunnskap brukt mest til å selge annonser. Ettersom redaksjonell økonomi har flyttet fra å være annonsedrevet til å bli abonnementdrevet blir det viktigere og viktigere å gjøre produktet relevant for den enkelte bruker og fremme artikler som konverterer lesere til abonnenter. I den senere tid har det blitt viktigere for redaksjonene å finne ut hvilke grupper som leser hva for å finne måter å nå for eksempel unge under 30 år.

Eivor Jerpåsen, utviklingsdirektør, Amedia

«Skal vi personalisere basert på alder? Skal vi personalisere basert på geografi? Skal vi personalisere basert på at du ligner på en annen bruker som har lest mye av dette samme innholdet? Er du her fordi du er sportsinteressert? Skal vi plassere deg i et eget segment for det? Eller skal vi tilpasse slik at hver enkelt bruker får en helt unik front basert på alle de tingene da?»

En hovedkritikk av personalisering er at det kan føre til at leserne bare leser mer av det som de allerede interesserer seg for eller er enig i, og at personalisering er med på å splitte samfunnet og skape meningsbobler der andre syn ikke slipper til.

Eirik Hammersmark Winsnes, utviklingsredaktør, Aftenposten

«Det har blitt stadig viktigere for oss å bli en motvekt til sosiale medier, desinformasjon, filterbobler, ekkokammer og alt det der. Vi utforsker mulighetene og tester personaliseringsteknologi, men vi skal aldri miste av synet hva det skal brukes til: En avis av høy kvalitet som gir brukerne våre mer av den beste journalistikken».

Lokalavisene har hatt som slagord at de skal være lim og lupe i lokalsamfunn. De skal altså både samle folk i nedslagsfeltet og gi kritisk uavhengig informasjon. De store avisene, såkalte omnibusaviser, har hatt som mål å dekke lesernes komplette behov for nyheter. Begge mål blir vanskelig dersom personalisering fører til at leserne ikke leser annet enn meningsfeller.

På sett og vis fører personalisering til at den enkelte bruker blir sin egen redaktør og selv må etterspørre informasjon som gir grunnlag for informerte valg. Den finske avisa Helsingi Sanomat registrerte lesevaner med og uten personalisering. Konklusjonen var at den algoritmestyrte innholdet ga leserne et breiere og mer mangfoldig nyhetsbilde. Videre at leserne faktisk leste mer og mer sammensatt enn de pleide da mennesker styrte hele forsiden. (Andreassen, 2020, s.64)

Ingeborg Volan, redaktør, Dagens Næringsliv

«Problemet er at det er veldig få som er interessert i alle boliger her i verden. Du er veldig interessert når det er en bolig i ditt nabolag eller noen du kjenner eller en kjendis. Og det, og det å klare å koble riktig bruker med den informasjonen, det er det vanskelige. Fordi det forutsetter ikke bare at du har automatisk generert innholdet, men også at du vet hvilken bruker du skal vise det fram til.»

Personalisering ble gjort tidligere også. Da ble det gjerne kalt soning og gikk ut på å lage lokalt tilpassede utgaver med lokale nyheter først og øverst. Med KI er slik soning (personalisering) langt mer effektiv. Koplingen av autogenererte tekster og leserprofiler gjør at svenske Unitet Robots (som leverer KI-baserte systemer, nyheter til svenske aviser, og har kontrakt med Schibsted) finner det regningssvarende å publisere hyperlokale nyheter som kun interesserer 20 husstander. Tilsvarende kan en for eksempel fronte nyheter om traktorpulling, hundekjøring eller cricket til dem som viser interesse for dette. Brukerprofilen kan også brukes til å gi personlig tilpassede anbefalinger om artikler fra arkivet eller andre steder på nettsiden. Francesco Marconi som har skrevet boka «Newsmakers. Artificial Intelligence and the Future of Journalism» (Marconi, 2020) trekker dette lengre. Han mener KI bør brukes av den enkelte journalist til å overvåke egne saker og følge opp og utvide saker der leserne viser interesse. Ikke for å skape clicbait, men for å forfølge relevans i saker.

I Norge foregår gjerne automatisk brukertilpassing i flere ledd. NTB kan automatisk fremme saker de mener hører hjemme i bestemte redaksjoner på bakgrunn av geografisk tilhørighet, emner eller personnavn de vet skaper interesse i lokalmedia. Noe som tidligere var en enslig artikkel blir tilpasset i hundrevis av utgaver til hver enkelt abonnent. Så vil de enkelte lokalaviser automatisk skreddersy saken for sine lesere. I tillegg vil hver enkelt leser få anbefalt videre lesing. Alt uten menneskelige innblanding.

Automatisk maskinovervåking gjør at færre kan overvåke flere saksområder mer nøyaktig og langt rimeligere. Dette kan kobles med personalisering og automatisk generering av tekst, hvilket åpner for sentralisering av redaksjonell virksomhet. Med andre ord kan saksovervåkingen skje sentralt i store redaksjoner, mens sakene automatisk tilpasses lokale lesere. Det kan bli en trussel for små lokalaviser. Vi har allerede nevnt den lille redaksjonen Lost Coast Outpost i delstaten Oregon i USA, som ved hjelp av KI overvåker og autogenerer artikler fra sju kommuner i detalj. En jobb redaktøren Hank Sims mener ville være økonomisk og personellmessig umulig uten KI-basert overvåking.

3.8 Transkribering⚓︎

NLP kan brukes til automatisk transkribering av intervjuer. Tidligere har dette vært vanskelig å få til på norsk, men nå kommer det norsk-baserte NLP-programmer som etter hvert kan gjøre jobben godt nok. Fortsatt er det nok mange journalister som stoler på egne notater og støtter seg til lydopptak på mobiltelefonen. Men når det krever liten innsats å transkribere rett fra opptak på mobiltelefonen og få akseptabel kvalitet på resultatet, så vil nok mange flere benytte seg av tjenesten. Slik kunne det bygges opp tekstbasert dokumentasjon i langt større grad enn nå. (test Aliceapp.ai, Trint eller OTranscribe med en audiofil og se hva som skjer. Eller så kan du kan bruke Otter for å transkribere og ta ut high lights automatisk dersom du er på en engelsk språklig konferanse. Du kan til og med teste Googledocs – velg tools og så voice typing). Snart vil programmet JOJO utviklet i redaksjonen til VG bli tilgjengelig for å transkribere intervjuer. JOJO baserer seg på open source koder for automatisk gjenkjenning av språk. Koden heter Whisper AI og er igjen en avlegger av OpenAI som står bak GPT.

Dersom det er snakk om et større graveprosjekt eller svært store og sammensatte redaksjonelle prosjekter med mange kilder og mange former for dokumentasjon, så kan transkriberte intervjuer analyseres, kodes og ordnes med hjelp fra KI. På den måten kan en finne sammenhenger eller mønstre i kildematerialet en ellers ikke hadde klart. Dette prosjektet du nå leser om angående bruk av kunstig intelligens i redaksjoner består for eksempel av transkriberte intervjuer, artikler fra aviser, forskningsartikler og bøker, samt en besøksrunde. Det meste er lagt inn i analyseprogrammet Nvivo (som ikke er KI-basert) og kodet slik at forfatteren lett kan finne sitater og eksempler.

3.9 Ustrukturert data⚓︎

Espen Andersen, utviklingsredaktør, Kommunal Rapport

«Det som er kult med KI er at du kan bruke det selv når du ikke vet helt hva du leter etter.»

Også der en ikke har tilgang til strukturerte data kan NLP-systemer hjelpe til. I tilfellet med Panama-papirene – 2,6 terrabyte data fra 11,5 millioner dokumenter - ble NLP brukt til å gjenkjenne mønstre, ord og vendinger, navn som så kunne systematiseres og bli til strukturerte data i en søkbar database. Systemet er kjent som TF-IDF (Term Frequency – Inverse document Frequency) og bygger på statistikk over hvor ofte ord dukker opp i en tekst, og hvor unike ordene er sammenliknet med andre dokumenter. I ord-statistikken antar en at ord som ofte dukker opp i et dokument, og sjeldent i andre, kan beskrive hva et bestemt dokument dreier seg om. Systemet foreslår emnet, og tilvarende hvem det angår, geografisk område, type transaksjoner, navn på sentrale personer etc basert på testmaterialet.

Water colored painting of humans and robots organising files in archive

Bildet er KI-generert i photoshop med beskjed “Water colored painting of humans and robots organising files in archive”.

Journalistene kan forsterke resultatet ved å gi assistert trening i form av tilbakemeldinger til systemet. Til slutt hadde Panama-papers redaksjonene (mer enn 400 journalister og spesialister på maskinlæring jobbet i ett år i en felles virtuell redaksjon for å få tak på jobben) en metode for å strukturere alle 11,5 millioner dokumenter. Teknologien hjalp til med å organisere, indeksere, filtrere og gjøre data søkbare. Til selve den journalistiske jobben med å tolke og forstå dataene måtte journalistene bruke eget hode.

3.10 Overvåking⚓︎

Norske redaktørstyrte medier driver blant mye annet aktiv ettersøking etter saker fra Ambita, tidligere Norsk eiendomsinformasjon, og fra Kartverket. Noe gjøres automatisk og blir videreformidlet via en skriverobot. Andre gjennomfører søkene automatisk, men lar ikke KI-hjelpe til i tekstproduksjonen.

Ingeborg Volan, redaktør, Dagens Næringsliv

«Vi henter mye registerdata automatisk. Det vi fortsatt ikke gjør er å ha automatisk output på det. Vi lar ikke en robot formulere: her er regnskapet til Yara og her er de viktigste tallene».

Journalistene jakter etter informasjon om nye bedrifter, konkurs og overdragelser ved å overvåke Brønnøysundregisterne. De har faste søk og sjekk av stat- og kommune og fylkes administrasjon via eInnsyn, de følger Helfo, NAV og Domstol.no og de må overvåke kommentarfelt i egne nettutgaver. En utfordring her er å holde nett-trollene fra å bedrive trolling, men også å overvåke hva folk mener og føler. Det kan utvides fra kommentarfelt og leserbrev til å inkludere overvåking av sosiale medier og dermed følge meningsstrømninger blant brukerne. Det er hakket mer avansert bruk av NLP og kalles sentimentanalyse - altså følelsesanalyse (sentiment betyr følelse på engelsk, men ladning kan være mer korrekt på norsk). Grunntanken her er at tekst viser ladning – i.e. positiv, negativ eller nøytral – på setnings-, paragrafnivå eller fra hele teksten. Så hvis du kan lære NLP-systemet å koble sammen et objekt, en person eller det en føler noe om, og ord som tolkes positivt, negativt eller nøytralt, da kan systemet kartlegge meningssvingninger. Slike analyser ble brukt i presidentvalgkampen 2016 og 2020 for å måle oppslutning kontinuerlig og automatisk. Men hyllevare-programmene er basert på engelsk og må tilpasses norsk. Men også norske redaksjoner har gjort forsøk på sentimentanalyse.

Espen Andersen, utviklingsredaktør, Kommunal Rapport

«Redaksjonen i Kommunal Rapport forsøkte å analysere om det er riktig at kommentatorer på Facebook lever i sine egne meningsbobler og skaper polarisering i samfunnet. De fant stor overlapp av politikere på høyresiden som også hadde følgere som likte høyreorienterte nyhetsnettsteder og tilsvarende på venstresiden. Men antall funn ble for små, og en kan vanskelig si at facebook-kommentatorer er et representativt utvalg av befolkningen, så konklusjonen ble at funnene forsterket hypotesen om at Norge er lite polarisert».

I vår sammenheng viser redaksjonen i Kommunal Rapport at det er mulig å drive KI-baserte undersøkelser uten enorme ressurser. Det kan skje relativt enkelt ved å lære systemet hva som er høyre- og venstreside i norsk politikk.

Det danske nyhetsbyrået Ritzau har automatisert overvåking av internettet ved å bruke robotsøkeprogrammer (crawlere) til å lete opp en liste med danske fotballspillere i utlandet. Søkeprogrammet sjekker hvert femte minutt om det har dukket opp en ny avtale, omtale, overgang, skader, etc og tipser sportsredaksjonen om mulige nyheter. (Andreassen, 2020) Siden så å si all omtale av danske fotballspillere i utlandet er interessant for hjemmepublikummet, trenger en ikke noe mer sofistikert enn automatiske søk for å drive effektiv overvåking.

To norske forskningssentra, NorwAI og Media Futures, kobler for tiden sammen norsk språkforskning med NRK, VG, Aftenposten, Dagbladet, Høyre, og Arbeiderpartiet. Også her er det snakk om å lære systemet via menneskelig analyse av tekster (i alt fire millioner kommentarer) for å tolke hva som er positivt og negativt, eller hva som er høyre- og venstreside i norsk politikk. På norsk har vi for eksempel mange ord og uttrykk som uttrykker det motsatte av hva vi sier. Tenk deg at et program skal tolke uttrykket “Kulturministeren er dritsøt”. Det kan fort gå galt. Ironi er heller ikke lett å tolke for maskiner. I første omgang må det menneskelig tolking til, så i neste omgang kan systemet lære seg å analysere tekster selv. Da kan for eksempel nyhetsdatabasen Retriever, som har tilgang til det meste av norske aviser og andre media, kunne overvåke og måle opinionsendringer. Amedia er partner i prosjektene. Målet er blant annet å finne måter for rimelig og kontinuerlig overvåking av kommentarfeltene. (Torgersen, 2021)

Norske redaksjoner gjør forsøk på å bruke NLP til å gjenkjenne påstander og sjekke faktainnholdet i påstander samtidig (realtime) med at en debatt eller en tale foregår for åpen scene. Da må programmet kunne skille mellom meninger og påstander. Det er langt fra enkelt. Men ettersom eksempeldata fra Språkbanken blir stadig bedre på dialekter og muntlig form så blir muligheten testet på norsk. Under amerikanske TV-sendte presidenttaler og offentlig debatt er det vanlig med kontinuerlig automatisk transkribering og faktasjekking av det som blir sagt.

Automatisk overvåking og sentimentanalyse er åpenbart komplisert både på engelsk og norsk, og det er vanskelig for både store og små mediebedrifter. I januar 2022 gikk Louise Vesterager Jespersen til sak mot Facebook for å få slutt på at en video som viser drapet på datteren stadig dukket opp i Facebook. Videoen ble laget av drapsmenn i 2018 og er klart ulovlig og ikke ønsket i Facebook heller. Facebook bruker et KI-basert overvåkingssystem for å vurdere lovligheten av bilder og videoer. Nettopp for å unngå slike klager og voldsvideoer. Men systemet klarer ikke å skille mellom blod og vold, og drepte mennesker ifølge Facebook. En skulle tro det var en relativt enkel oppgave. Løsningen for Facebook er mer manuell overvåking. Så selv et av verdens mest ressursrike firma klarer ikke å lage KI-baserte løsninger på problemer som er svært enkle å finne ut av for mennesker.

3.11 Gravejournalistikk⚓︎

Grovt sett er det mulig å si at gravejournalistikk likner mer og mer på kvantitativ forskning. Ofte er SKUP-prosjektene basert på store mengder kvantifiserbar data. Store mengder data hentes ved skraping – det vil si laste ned eller kopiere store mengder dokumenter – ved å hente alle dokumenter fra en kommune, fylkeskommunen, politiet etc – og så lære KI-baserte systemer å lete etter saker som kan egne seg for oppfølging. Systemet kan lete etter vedtak som ikke følger partilinjer, vedtak om utbygging i sentrum, klager, avvik, behandling av mindreårige eller rett og slett overvåking av kommunal økonomi. Og en kan skrape data fra dokumentformater (f.eks. pdf) som tidligere ikke kunne maskinleses.

Først og fremst kan maskinhjelp gjøre det mulig å gå løs på områder som tidligere har blitt lite overvåket fordi det har vært uoverkommelig og ugjennomtrengelig. En norsk redaksjon overvåker for eksempel den norske anbudsdatabasen Doffin.

Bjørn Olav Jahr, Kommunal Rapport

«Systemet returnerer det det antar er gode treff for oss, slik at det skal bli litt lettere å finne frem til interessante utlysninger. Alternativet er å sitte og bla gjennom flere hundre utlysninger hver dag. Noe som i praksis ikke er mulig.» «I systemet har vi lagt inn en algoritme hvor ulike begreper vektes slik at maskinen får instrukser om hvordan den skal tolke de ulike utlysningene. Veibygging vil for eksempel være tungt vektet hos oss fordi det er noe som typisk en av våre redaksjoner vil se på. Det fungerer veldig bra. Vi gjør noe lignende på et par andre områder, men overvåkingen av Doffin basen er nok noe av det mest avanserte vi har.»

3.12 Data mining - gulljakt i databaser⚓︎

En fortsettelse av KI-basert overvåking er det som på engelsk heter data mining. Det dreier seg og om å gå inn i tilgjengelig datamateriale og gjøre egne analyser. Da automatiseres klassifiseringen av data og dokumenter, det kan gjøres statistiske regresjonsanalyser (analysemetode som søker å belyse sammenheng mellom variabler for å si noe om hva som påvirker noe mest. Det kan være hvordan kjønn og inntekt påvirker et politisk valg) og clusteranalyser (analysemetode for å finne klynger med like data i en undersøkelse), for å finne hvordan data henger sammen for så å få systemet til å hjelpe journalister å finne hva som er nytt, hva som skiller seg ut, nye mulige forklaringer etc.

I Norge har det vært en kamp å få tilgang til offentlige tilgjengelige databaser som egner seg for slik datagraving. Offentlighetsloven gjør det mulig å kreve å få tilsendt hele datamaterialet for offentlig trafikkovervåking, eller offentlige databaser over broer og tuneller som trenger vedlikehold etc. Med hjelp fra en KI-basert analyse kan en komme til andre konklusjoner eller kan peke på andre sammenhenger enn det etatene har pekt på. Dagbladet vant i 2017 SKUP-prisen for sakene sine om søppelkrisen i Oslo. Dagbladet avslørte en rekke lovbrudd og 2000 avvik og brudd på arbeidsmiljøloven. Avsløringene var blant annet basert på store datasett med timelister (500.000 excel-celler med informasjon), som ble ryddet og analysert av redaksjonen.

Nedsiden ved datamining er at jobben viser seg å være arbeidskrevende. Redaksjoner har oppdaget at data-mining-oppdrag har endt opp som tips der maskinen peker i retning nyheter. Så må hele jobben gjøres manuelt ved gjennomgang av for eksempel bilag for bilag og manuelle utregninger. Alt for å sikre at ikke systemet har gjort en klassifiseringsfeil eller latt seg lure av termer som kan ha flere betydninger eller navn skjult av små skrivefeil (Diakopoulos, 2019, s.95).

«For to uker siden skulle vi jobbe med opptakstallene til høyere utdanning fra samordna opptak, og den dagen de kommer så kommer de selvfølgelig i litt annet format enn i fjor. Så da må vi skrive noe script for å hjelpe oss å oversette, og plutselig så tar det mye mer tid.» Ingeborg Volan, redaktør, Dagens Næringsliv.

Amerikanske erfaringer er de samme. Jonathan Gray ved Graduate School of Journalism, Columbia, New York har undersøkt bruk av KI i gravejournalistikken. Han peker på de samme problemene som i Norge: «Journalistiske problemstillinger er ofte unike for en bestemt historie, noe som betyr at trening av data ikke er lett tilgjengelig, og kostnadene for komplekse modeller kan ikke amortiseres over flere prosjekter. Mye av dataene som er relevante for saken er ikke offentlig tilgjengelig, men tilhører myndighetene eller private foretak. Ofte kreves forhandlinger om innsamling eller kjøp. Journalistiske vurderinger krever svært høy nøyaktighet, eller omfattende manuell kontroll, for å unngå risiko for feil og injurier. Faktorene som gjør noen fakta "nyhetsverdige" er dypt sosiopolitiske og derfor vanskelig å kode. Det største potensialet for KI på kort sikt i undersøkende journalistikk ligger i dataforberedelse så som datautvinning fra ulike dokumenter og sannsynlighetsberegning kobling på tvers av databaseposter» (Stray, 2019).

Også for gravejournalistikken og bruk av KI gjelder det at øving gjør mester. Mer effektive systemer, bedre språkbaser på norsk og enklere tilgang til tilbakemelding og dermed systematisk opplæring, bruk av offentlighetsloven for å få tilgang til offentlige grunndata, gjør resultatet av analysene stadig bedre.

Datamining trenger ikke bare skje innomhus. En god del offentlig tilgjengelige data trenger en ikke å laste ned og arbeide med lokalt. I stedet gir for eksempel Statens Vegvesen og Statistisk Sentralbyrå brukere anledning til å analysere data på egenhånd via programmeringsgrensesnitt (API – Application programming interface). Da kan en for eksempel sette sammen informasjon fra forskjellige tabeller fra Statistisk sentralbyrå som ikke er gjort før på jakt etter nye sammenhenger og forklaringer.

3.13 Nyhetsbrev⚓︎

Mange – om ikke de fleste – norske redaksjoner sender ut nyhetsbrev til abonnentene. De kommer gjerne fra redaktøren fredag ettermiddag. Slike nyhetsbrev kan også være personalisert syntetisk tekst basert på ukas mest leste saker og varsel om hva som kommer i lørdagsavisen. Nederlandske aviser har prøvd seg med autogenerte nyhetsbrev, men ingen i Norge har så langt vi har funnet strukket seg lengre enn til automatiske varsler til abonnenter de vet interesserer seg for bestemte saker. Slike automatisk generte tekster kan kobles til kunnskap om leserne og slik tilpasses den enkeltes interesser. Med andre ord kan du få et nyhetsbrev med anbefalinger om hva du bør lese, se, høre i løpet av helgen, basert på at du bruker mest tid på å lese sport, kultur, utenriks, lokalnyheter etc. i nettavisa. I tillegg til den brukertilpassede profilen, kan redaksjonen legge til forslag basert på redaksjonelle vurderinger om hva som er viktig og hva du bør lese, se og høre for å være en oppegående person i stand til å gjøre opplyste valg basert på kunnskap og innsikt.