Får datamaskinen til å finne meningen i blogger

Andrew Salway og hans kolleger har samlet 1,4 millioner bloggposter om klimaendringer. Målet er å lage verktøy som gjør at datamaskiner kan finne ut hvilke meninger som uttrykkes i store mengder tekst.


Av Camilla Aadland

Andrew Salway forsker på klimablogger og i hvilken grad de ulike bloggene er knyttet opp mot hverandre. Grafikken bak han viser interaksjonen mellom bloggene. Foto: Helge Skodvin

- Det finnes enormt mange blogger om klimaendringer. Hvis du googler klimaendring, får du mange treff, men hvis du vil vite mer, kan du bli litt lost. Vi prøver å utvikle teknologi som kan hjelpe folk til å få en forståelse av store, kompliserte debatter innen ulike områder. Det kan være nyttig både for vanlige folk, men også for samfunnsforskere som vil analysere debatter, sier Salway, som er forsker i Uni Computing.

Analyseverktøy

Så langt har Salway og hans kolleger samlet inn 3000 blogger med 1,4 millioner bloggposter fra 2005 og frem til i dag. Målet er å utvikle teknologi som gjør at datamaskiner automatisk kan dra ut essensen av blogger om forskjellige tema på forskjellige språk.

Dette gjør de gjennom prosjektet NTAP, som betyr nettverk av tekster og mennesker. Uni Research og Universitetet i Bergen samarbeider om prosjektet, som er støttet av Forskningsrådet, og skal vare frem til sommeren 2015.

- Teknologien vil prøve å automatisk fange opp hovedpoenget i det som sies, men vil også vise hvem som sa det, når det ble sagt og i hvilken grad de har innflytelse på andres nettverk, sier Salway.

Forskerne er også interessert i å se på forandringer i bloggnettverkene over tid, hvordan meninger dannes og endres.

- Vi kan se hvor polarisert debatten er, om det er et nettverk av personer som bare snakker med hverandre, og lenker til hverandres innlegg. På den måten får de forsterket meningene sine, uten å bli påvirket av andre synspunkt. Vi kan spore om debatten blir mer polarisert eller ikke, sier Salway.

Polarisert debatt

Halvveis i prosjektet er forskernes inntrykk at klimadebatten i bloggsfæren er svært polarisert. De som deltar i debatten kan deles i to grupper: skeptikere og aksepterere. Bloggene deres kjennetegnes av forskjellige typer ord. Skeptikernes blogger handler mer om vitenskap, og ord som teori, IPCC, kjøling, absurditet og Gore dukker oftere opp enn i aksepterernes blogger.

- Akseptererne snakker mer om betydning og konsekvenser. De har akseptert vitenskapen, og ser mer fremover, sier Salway.

Hos denne gruppen er ord som forandret, fundamentalt, bakgrunn, betingelser, barnebarn og olje oftere nevnt enn hos skeptikerne.

Hypotesen til forskerne er at flere skeptikere finner veien inn i bloggsfæren enn i tradisjonelle medier.

- Aller best er det om du som leser får oversikt over synspunktene som finnes. Velger du feil blogg, som lenker videre til andre med samme synspunkt, kan du danne egne meninger ut fra ensidig informasjon.

Forskerne har valgt å se nærmere på klimablogger fordi klimaendringer er et viktig og relevant tema.

- Det er også utfordrende på grunn av at det favner så bredt, det handler om teknologi, vitenskap, politikk og personer. Det er en utfordring for språkteknologien å jobbe med et så bredt spekter av begreper, sier Salway.

I stedet for å søke etter enkelte nøkkelord, lager forskerne et program som skal kunne søke etter nøkkelbegreper, slik at det er mulig å finne meningen i det som ytres.

- Vi har en induktiv tilnærming til dette. Det betyr at i stedet for å prøve å kode grammatikk og mening inn i datamaskinen, slik at den kan bruke det for å forstå tekst, gir vi maskinen en stor mengde tekst og ber den se etter mønstre i teksten som kan gi mening, sier Salway.

Ser på mønstre

Mønstrene dannes ut fra hvordan ordene fremkommer i teksten. Et eksempel på et slikt mønster er:

(å (bekjempe|saktne|minimere|dempe|takle) klimaendring).

Forskerne har hentet inn flest engelske tekster, men også noen norske og franske. Teknologien skal kunne fungere, uavhengig av språk og tema.

- Når vi er ferdige håper jeg at vi har et verktøy som samfunnsforskere kan bruke i sitt arbeid, pluss en dypere forståelse av hvordan mening kan bli dratt ut av en tekst, bare ved å se etter mønster, sier Salway.

På sikt håper han å kunne sammenligne det som skjer i bloggverden med det som skjer i nyhetene. En av forskerne har samlet nyhetsartikler fra utvalgte medier hver dag i 15 år.

- Vi håper å kunne dra ut for eksempel politiske utsagn om klimaendringer, og sammenligne disse med meninger i bloggsfæren, sier Salway.

Faktaboks

  • NTAP – Network of texts and people
  • Er et forskningsprosjekt som skal utvikle metoder for å oppdage, analysere og visualisere utviklingen av kunnskap og meninger gjennom ulike sosiale nettverk.
  • Prosjektet er et samarbeid mellom Universitetet i Bergen og Uni Research. Internasjonale samarbeidspartnere er University of Sheffield i Storbritannia og Ontario College of Arts and Design i Canada.
  • Finansieringen kommer fra VERDIKT-programmet i Norges Forskningsråd.
  • Prosjektet startet opp i januar 2012, og skal vare frem til juli 2015.

13. juni 2014 09:46