Samfunnsspeilet, 2002/2

Fra tall til tekst

Publisert:

Når statistikk presenteres i en pressemelding, artikkel eller annen tekst, skjer det en bearbeiding av det statistiske materialet. Denne artikkelen gir noen tanker om hvilke verdier som tilføres i en slik prosess, og om hvordan presentasjoner av statistikk etter forfatterens mening bør være. Bruken av karakteristikker, uttrykk for verdistandpunkter og beskrivelse av en kontekst påvirker karakteren av en statistikkpresentasjon. Stoffutvalget kan i seg selv formidle informasjon.

Det finnes ulike typer tekster som presenterer statistikk. De varierer i lengde; fra en kort pressemelding til lange artikler, i noen tilfeller bokform. De varierer også i graden av bearbeiding; fra rene referater av tabeller, til omfattende beskrivelser av emnet statistikken gjelder. Jeg vil beskrive forskjellige elementer som kan være med i en slik tekst, og komme med noen synspunkter om hvordan de bør brukes i tekster som publiseres. Jeg tar til orde for å vise varsomhet med verdiladede karakteristikker og formuleringer. Dessuten påpekes den funksjon tekster har når det gjelder å fremheve hva som er vesentlig informasjon i en tabell, og hvilke mønstre som er tydelige nok til å gi grunnlag for tolkninger.

Bakgrunn for tall

Et tall alene formidler ikke informasjon. Tenk deg utsagnet "2 300 000". Det gir ingen mening. Det som gir mening, er en påstand om at en viss størrelse har en viss tallverdi, f.eks. "Det bor 2 300 000 kvinner i Norge". Selv i sin mest konsentrerte presentasjonsform, som tabeller, blir derfor tallene ledsaget av informasjon om hva de uttrykker, om enn meget kortfattet. Tabelloverskrifter og tekster i toppen av hver kolonne og til venstre i hver rad gir denne informasjonen, og leseren settes i stand til å lage setninger som den ovenfor. Med så knappe tekster kan definisjoner og avgrensninger bli uklare, så det er god skikk å henvise til mer omfattende dokumentasjon. Men disse tekstene er nok til å gi tallene mening, om enn ikke alltid presis mening.

Referering av tall

I tillegg til, eller i stedet for, en tabell kan det presenteres en tekst. I denne artikkelen forutsetter jeg at teksten kommer i tillegg til en tabell. Tabellen kan vanligvis presentere et mer omfattende tallmateriale enn teksten, hvilket er en viktig grunn til at tabellen bør være med.

Den mest forsiktige måten en slik tekst kan lages på, er å gjengi alle eller noen av tallene i tabellen. Hvis alle tallene er gjengitt, vil tekstens verdi bestå i at opplysningene tabellen gir, presenteres i form av setninger, mens de i tabellen er gitt i form av at tall står i bestemte posisjoner i forhold til forspalte- og tabellhodetekster. Hvis bare noen av tallene er referert, vil teksten ha verdi ved at leserens oppmerksomhet ledes mot disse tallene, antakelig tall forfatteren har kommet til at fortjener særlig oppmerksomhet. En slik tekst innebærer ikke at tall blir forklart, karakterisert eller fortolket. Den kan lede leseren inn i en tabell som han eller hun ellers kunne mangle en strategi for å tilegne seg innholdet i. Teksten kan også inspirere leseren til selv å gjøre ytterligere undersøkelser av tabellen.

Vanligvis vil det falle naturlig for forfatteren å gjøre mer enn bare å gjengi noen av tallene. For eksempel kan det bli påpekt at et tall er det største eller minste i en rad eller kolonne, eller at tallene i en rad utgjør en stigende rekke. Det siste kan innebære at en utviklingstendens har vært til stede gjennom lengre tid.

Tall avledet fra tabellen

Teksten kan inneholde tall som ikke står i tabellen. Ofte angis en økning eller reduksjon, dvs. en differanse mellom to tall i tabellen, enten som absolutt størrelse eller som et prosenttall eller begge deler. Det er vanligvis knyttet større usikkerhet til slike tall enn til tallene de tar utgangspunkt i. Når en leser regner ut slike avledede tall på eget initiativ, er det "på egen risiko" hva angår den statistiske usikkerheten til det avledede tallet.

Noen lesere er journalister, og de kan spre avledede tall til mange. Tallenes avledede karakter kan da bli gjort usynlig i formidlingskjeden.

Karakterisering

Referering av tall, både slike som står i tabellen, og funksjoner av dem, slik som summer, differanser, maksimums- og minimumsverdier, har en objektiv karakter. Men ordene som brukes er ikke nødvendigvis nøytrale. Ved å bruke ord som "bedring" eller "forverring" i stedet for "økning" eller "nedgang" (henholdsvis, eller i omvendt rekkefølge) introduseres verdivurdering i teksten.

Ordet "rekord" kan ha en verdiladning, selv om det også kan oppfattes som en nøytral betegnelse på en maksimums- eller minimumsverdi. Videre er det verdt å nevne at ordene "nesten" og "knapt" har forskjellig valør. Både "nesten 80" og "knapt 80" betegner en størrelse som er litt mindre enn 80. Mens "nesten 80" betoner dette som en stor størrelse, betoner "knapt 80" det som en liten størrelse. "Litt under 80" er et nøytralt alternativ.

Tall kan gis forskjellige subjektive karakteristikker. De kan f.eks. karakteriseres som store, små, normale, ventede, overraskende, oppsiktsvekkende, interessante, ønskelige, gledelige, bekymringsfulle eller alarmerende. Karakteriseringene spenner over en skala fra "statistikktekniske" til verdivurderinger. Men også i det å karakterisere et tall som stort eller lite, kanskje også som normalt, kan det ligge en verdivurdering. Verdivurderinger kan spenne fra slike som det må antas å være alminnelig enighet om, til slike som er klart kontroversielle. "Interessant" er en diffus karakteristikk med tolkning i flere retninger. Når slike karakteriseringer er brukt blir teksten mer spennende, både ved sitt innhold og ved at de skaper språklig variasjon.

En mulig ulempe ved bruk av karakteristikker eller verdiladede ord er at de kan sjenere eller til og med forvirre lesere, især lesere som ikke deler den verdioppfatningen som er lagt til grunn. Forfatteren trenger ikke ha noen klart gjennomtenkt oppfatning eller noen misjonerende hensikt. Teksten vil, om den inneholder slike verdiladede ord som nevnt her, likevel formidle et inntrykk av hva som er bra og hva som er dårlig.

Kan tallene tolkes?

Tolkning av tallene innebærer at man går ut av en ren tallverden, men ikke nødvendigvis at man introduserer verdistandpunkter. Et første trinn av tolkning, ligger imidlertid innenfor tallverdenen. Det gjelder spørsmålet om et observert mønster er statistisk signifikant eller bare et tilfeldig utslag, med andre ord om datagrunnlaget klart viser at en observert sammenheng er til å stole på. Det er vesentlig å avklare dette før man begir seg ut på substansielle tolkninger. Sagt på en annen måte: før vi tolker må vi vite at det er noe å tolke. Et viktig mulig kvalitetselement i tekstpresentasjon av statistikk er dette: En reflektert leser av en tabell kan observere sammenhenger i tallene, men kan være usikker på om disse sammenhengene gir grunnlag for tolkning. Men hvis leseren ser disse sammenhengene påpekt i teksten, bør det kunne tas som tegn på at de er reelle og gir grunnlag for tolkning. Dette kan være uttrykt eksplisitt i teksten med utsagn som "Det er klar sammenheng ...". Ulike grader av sikkerhet hos forfatteren kan være uttrykt ved bruk av verbene "viser" og "antyder", og med advarende formuleringer, slik som "bør tolkes med forsiktighet". Dette viser at også påpeking av sammenhenger som leseren selv har observert i tabellen kan formidle viktig informasjon.

Er det rimelig klart at det dreier seg om en virkelig statistisk sammenheng, ligger det til rette for å ta det spennende steget ut av den rene tallverdenen, nemlig ved å påstå noe om hva tallene forteller.

Men selv om teksten skulle begrense seg til å påpeke sammenhenger som kan leses ut av tabellen, betyr ikke det at tekstpresentasjonen mangler verdi. De minst kompetente eller minst interesserte leserne kan ha blitt gjort oppmerksom på tall som de ikke hadde fått med seg hvis de bare var blitt presentert i tabellform. Mer interesserte, men statistisk uskolerte, lesere har fått ledet sin oppmerksomhet i retning av virkelige statistiske sammenhenger, til fortrengsel for mulige tvilsomme sammenhenger som kunne tolkes ut av tabellen. Og ikke minst, den kyndige statistikkbruker har fått akkurat den hjelp han eller hun trenger. Fra dette punktet kan de selv overta med kompetente substansielle tolkninger, på eget ansvar.

Hva tallene forteller

Ofte vil tolkningen i teksten ta steget ut i det substansielle. Her vil den mest interessante delen begynne, både for leseren og forfatteren. Den typiske forfatter vil være en fagperson med kompetanse på det område statistikken handler om, og med sekundær kompetanse i statistikk. Forfatteren vil derfor ha sin styrke nettopp i den substansielle tolkningen av (virkelige) statistiske sammenhenger og i beskrivelsen av en faglig kontekst. Men fagpersonens evne til å gi tilsynelatende statistiske sammenhenger en faglig fortolkning, kan i uheldige tilfeller gi ganske troverdige forklaringer på fenomener som ikke finnes.

En nærliggende illustrasjon av det sistnevnte fenomenet kan hentes fra et litt annet felt, nemlig kommentarene til politiske galluper. Hvis et parti har gått litt tilbake på en slik meningsmåling, nevnes forhold som forklarer en tilbakegang, mens forhold som også er til stede, men som ville forklart en fremgang, ikke nevnes. Samtidig kan det være at partiet faktisk har hatt fremgang i opinionen, men at den motsatte utviklingen er tilfelle for det utvalget som er intervjuet. Det er vanlig å ta forbehold om statistiske feilmarginer, men ikke like vanlig å avstå fra å kommentere små endringer.

Det vil være en god vane å spørre seg hvilke årsakssammenhenger mellom statistisk avhengige størrelser som er mulige og rimelige. Er det A som påvirker B eller B som påvirker A, eventuelt via en tredje størrelse C? Eller er det en tredje størrelse som påvirker både A og B? En annen mulighet er at det er en vekselvirkning mellom A og B. Selv om ett av disse alternativene ofte vil fremstå som opplagt, mener jeg det er viktig å gi alle mulighetene en eksplisitt gjennomtenkning. Da må man også være åpen for at en observert statistisk sammenheng kan ha en lite interessant forklaring.

Presentasjonen av tall og sammenhenger kan være vinklet på forskjellige måter. Det vanligste ved presentasjonen av en tabell knyttet til en bestemt tidsperiode, er kanskje at det gis forklaringer eller mulige forklaringer på tallene eller sammenhengene. Det kan opplyses om tidspunktene for begivenheter som kan ha påvirket en tidsserie, eller forfatteren kan gå lenger og påstå at det er en slik begivenhet utslagene i tidsserien gjenspeiler.

Påstander eller antydninger i presentasjonen kan forholde seg til tid på tre forskjellige måter. De kan uttale seg om, og stå frem som en analyse av, en tidsperiode i fortiden, de kan uttrykke allmenne, "tidløse" sammenhenger eller være prediksjoner om fremtiden. Ofte fremgår det ikke klart hva som er ment. Når det i presentasjonen av en tidsserie som slutter i nær fortid, sies at "trenden er stigende", vil utsagnet i realiteten være en sammenfatning av historiske data, men presensformen gjør det naturlig å tolke det også som et utsagn om at dette er noe som vil fortsette i den nære fremtiden.

Tolkning av spørsmål og svar

Tolkning er også involvert på et annet, mer teknisk plan, nemlig hvordan vi skal oppfatte de svarene informantene har gitt i en intervjuundersøkelse. Dette er igjen avhengig av hvordan informantene har forstått de spørsmålene de er blitt stilt. Faktisk har vi å gjøre med en kjede, som kan være ganske lang, av personer som har tolket spørsmål eller svar.

Først har vi oppdragsgiveren som ønsker å få belyst visse problemstillinger. Spørreskjemadesigneren har sin oppfatning av hvordan spørsmålene og svaralternativene skal forstås. Intervjuobjektene må gjøre sin tolkning, og den kan være forskjellig fra intervjuobjekt til intervjuobjekt. Artikkelforfatteren i statistikkbyrået eller den statistikklesende journalisten som fortolker et aggregert datamateriale, legger også sin forståelse av spørsmålene og svaralternativene til grunn. Lesere, lyttere og seere av deres presentasjoner gjør sine fortolkninger. Noen leter frem og leser en statistisk tabell fordi de ønsker en bestemt problemstilling belyst, men denne problemstillingen trenger ikke være den samme som motiverte utgivelsen av statistikken. Ofte vil det nok være en tendens til å tolke statistikk i retning av at den gir svar på de spørsmål man ønsker svar på når man leser den. I tillegg til alt dette kommer intervjuernes rolle, skjønt de har instruks om å opptre så nøytralt som mulig. Noen av rollene ovenfor kan være samlet i én og samme person.

Dette betyr på ingen måte at denne formen for innsamling og formidling av informasjon er umulig eller verdiløs. Men det er klart at ulike tolkninger på forskjellige stadier i prosessen er en feilkilde i (bruk av) statistikk, og denne feilkilden bør reduseres der det er mulig. Også leseren av statistikk og artikler basert på statistikk kan gi sitt bidrag til å redusere denne feilkilden ved å innta en bevisst og kritisk holdning ved lesningen.

Det naturlige perspektivet ved analysen av en undersøkelse er å spørre seg hvordan respondentene har oppfattet spørsmålene og svaralternativene (finlese formuleringene, men ikke ta for gitt at intervjuobjektene har gjort det samme). Det må gjøres først og fremst med utgangspunkt i de formuleringene som er brukt; intensjonene bak disse er irrelevant. Til en viss grad kan også de avgitte svarene være en kilde for å tolke hvordan spørsmålene er oppfattet, selv om hovedvekten må ligge på formuleringene som er brukt. Men hvis svarfordelingen er ekstrem eller svært overraskende, kan det være grunn til en ny vurdering av hvordan spørsmålene er oppfattet.

Kontekst

Foruten å referere, beskrive, karakterisere og tolke tall, primære eller avledede, kan teksten inneholde enda et element, som hører til en nokså ren tekstverden. Det er konteksten, sammenhengen tallene og tolkningene gir mening i. Især artikler i Samfunnsspeilet bruker mye av plassen på kontekst i denne forstand. Beskrivelse av kontekst er ikke en absolutt nødvendig del av en statistikkpresentasjon, fordi leseren kan møte tallene og tolkningene med sin egen kontekst. Men kontekstpresentasjonen vil vanligvis være interessant og leseverdig, kanskje for mange lesere den viktigste grunnen til å lese artikkelen. Ofte dreier det seg om en sosiologisk eller annen faglig analyse av det fenomenet som er tema for statistikken. En refererer gjerne forskjellige teorier og hypoteser fra faglitteraturen på området.

Beskrivelsen av en kontekst gir opphav til måter å forstå resultatene på. Fagkunnskapen hos artikkelforfatteren bidrar utvilsomt sterkt til å gjøre beskrivelser av kontekst innsiktsfulle og givende for leseren. Selv når det formidles innsikter som umiddelbart fremstår som selvfølgelige, kan det ligge en omfattende begrepsutviklende og ordnende tankevirksomhet bak. Det som leseren under lesningen oppfatter som opplagt, ja til og med er seg bevisst er opplagt, trenger aldri ha vært i leserens bevissthet tidligere.

Utvalg av stoff og bruken av inndelinger

De tallene og problemstillingene som nevnes i en presentasjon, er vanligvis bare et utvalg av de tall eller problemstillinger som kunne vært med. Hvilket utvalg som gjøres, har betydning på to måter. For det første bestemmer det hvilke opplysninger som kommer til direkte uttrykk gjennom teksten. De opplysningene som blir uttrykt på denne måten, vil ha større sjanse for å nå leserens bevissthet enn de som bare er uttrykt ved at (ett eller flere) tall står i en tabell.

For det andre vil leserne i større eller mindre grad få inntrykk av at teksten formidler en betydningsfull del av den informasjonen som utgjør inneholdet i tabellen. Et slikt inntrykk kan være mer eller mindre riktig. Jeg tror de fleste artikkeltekster oppsummerer vesentlig informasjon så lenge artikkelforfatteren ikke har andre siktemål, slik som å lete frem mest mulig sensasjonelle detaljer eller samle et knippe kuriositeter. De sistnevnte vinklingene er jo ikke så sjeldne i deler av pressen.

Hvilke grupperinger statistikken skal inneholde, er et spørsmål som først og fremst angår selve statistikkproduksjonen, altså hvilke tabeller som skal lages og hvordan de skal se ut. Men også teksten kan fremheve visse grupper. Valg av grupperinger kan ses som en prosess i to trinn. Det første er hvilke variabler, slik som alder, kjønn, utdanning eller etnisk opprinnelse en populasjon skal inndeles etter. Det andre er hvilke verdier av en variabel som skal grupperes sammen. For kjønn er det en opplagt inndeling i kvinner og menn. For alder må det velges grenser mellom alderskategorier, og for andre variabler er det tilsvarende inndelingsproblemer. I praksis brukes statistiske standarder, ferdiglagede inndelinger som bidrar til at forskjellige typer statistikk kan sammenliknes. Dette har visse konsekvenser for lesing av statistikk, både av tabeller og tekst. Når for eksempel 30-44-åringer i omtalen av en statistikk blir karakterisert på en måte og 45-66-åringer på en annen, gjenspeiler dette ganske sikkert en aldersgruppering valgt på forhånd, ikke at det aktuelle datamaterialet indikerer et skille mellom 44 og 45 år som spesielt velvalgt. Kort sagt, slik de valgte kategoriene skjuler forskjeller innenfor kategorier, kan de også skjule likheter mellom underkategorier av forskjellige kategorier. Folketetthet i forskjellige områder kan illustrere dette: Gjennomsnittlig folketetthet i Asia er 111 innbyggere per kvadratkilometer, og i Europa 32. Men den er 19 i Laos og 20 i Sverige. Her fremstår Asia og Europa som svært ulike med hensyn til folketetthet, men underkategoriene Laos og Sverige fremstår likevel som like. I eksempelet med alderskategorier vil det trolig være liten forskjell på 44-åringer og 45-åringer, selv om det som sies er at det er betydelig forskjell mellom kategoriene 30-44-åringer og 45-66-åringer.

Utskilling av grupper i statistikken kan reise etiske spørsmål. Espen Søbye påpekte dette i et foredrag som ble trykt i Samfunnsspeilet 4/98. Det handlet i hovedsak om statistikk over jøder og denne statistikkens mulige betydning for jødenes skjebne under krigen. Selv vil jeg bemerke at et utsagn om at et fenomen har høyere frekvens i gruppe A enn i gruppe B av publikum ofte vil bli tolket på individnivå, dvs. bli oppfattet som noe som karakteriserer hver enkelt person i gruppe A og gruppe B. Hvilke begreper som på forhånd er etablert i publikums tenkemåte, og hvilken statistikk det dermed er etterspørsel etter, er muligens relevant for beslutninger om hvilke inndelinger som skal gjøres i statistikken. Det er imidlertid også et poeng at det Statistisk sentralbyrå gjør, kan forsterke, eller oppfattes som en legitimering av, de tankekategorier som er i bruk.

En slik bekreftelse av tankekategoriene skjer for så vidt også i de tilfellene hvor det formidles fakta som strider mot oppfatninger publikum har fra før. Et eksempel er Trude Lappegårds artikkel om fruktbarhet blant innvandrerkvinner i Samfunnsspeilet 2/01, der hun setter fakta opp mot en del påståtte myter om deres fruktbarhet. Forutsatt at disse mytene virkelig er etablerte oppfatninger i deler av befolkningen, hvilket de nok er, bidrar altså artikkelen til å korrigere publikums oppfatning om disse saksforholdene. Men artikkelen snarere bekrefter enn bestrider at det er hensiktsmessig å operere med kategorien "innvandrerkvinner" i studiet av fruktbarheten i vårt samfunn, og også underkategorier av denne, siden fruktbarheten varierer svært mye mellom innvandrerkvinner fra forskjellige kanter av verden.

Noen litt tvilsomme presentasjonsformer

Jeg har lagt merke til et par presentasjonsmåter som er forholdsvis populære, antakeligvis på grunn av deres journalistiske appell, men som ofte kan være litt tvilsomme fra en statistisk synsvinkel. Den ene er bruk av setninger som sier at personer av et bestemt kjønn, i en bestemt alderskategori som bor i en bestemt landsdel, og har en bestemt utdanningsstatus eller med en liknende kombinasjon av kjennemerker har størst eller minst sannsynlighet for å erfare et visst fenomen eller ha en bestemt egenskap. Et eksempel er overskriften på side 4 i Ukens statistikk 38/98 som lyder "Yngre kvinner fra Oslo med høy utdanning mest innvandrervennlig". Stort sett vil det ikke være datagrunnlag for en slik konklusjon, bokstavelig forstått. Den fine inndelingen i grupper som oppstår ved bruk av mange kjennemerker, innebærer for det første at den angitte gruppen bare kan ha et moderat antall personer i undersøkelsens personutvalg, og for det andre at det er et betydelig antall andre grupper den blir sammenliknet med. Til sammen gjør dette at det er umulig å påstå med rimelig grad av sikkerhet at den angitte gruppen er den ekstreme blant de gruppene som implisitt er definert i utsagnet. Leseren har grunn til å anta at den nevnte overskriften kan forstås slik at unge er mer innvandringsvennlige enn eldre, kvinner mer innvandringsvennlige enn menn, Oslo-folk mer innvandringsvennlige enn folk fra andre fylker og folk med høy utdanning mer innvandrervennlige enn folk uten høy utdanning, i hvert tilfelle forstått som en sammenlikning mellom grupper. Overskriften er trolig ment som en oppsummering av de resultatene. Konsekvensene av å oppfatte utsagn som i den nevnte overskriften bokstavlig, er at interessen kan rette seg mot en snever gruppe personer i forbindelse med en påstand om gruppen eller personene i gruppen som ikke trenger være sann.

Den andre presentasjonsmåten jeg har i tankene er der man fremhever topp- eller bunnrangeringer. Kommuner sorteres på en liste, og første og siste kommune på listen blir navngitt i teksten. Her kan det ofte dreie seg om totalstatistikk, slik at det ikke trenger være særlig grunn til å tvile på sannhetsgehalten i utsagnet. Men ofte vil disse "rekordkommunene" skille seg lite ut fra de andre kommunene, og fremhevelsen av disse kan da synes å være lite relevant informasjon.

I denne artikkelen har jeg forsøkt å reflektere på en systematisk måte over hva som oppnås når tall presenteres som tekst. En vesentlig fordel ved en tekstpresentasjon er at resultater blir formidlet i form av hele setninger. Ved presentasjon gjennom tabeller eller grafikk kreves en bearbeidingsprosess hos leseren for å oppnå noe tilsvarende. Videre kan de opplysningene som formidles på denne måten i en artikkel eller pressemelding utgjøre hovedtrekk i det vedkommende statistikk har å fortelle. Bak identifiseringen av slike hovedtrekk ligger det også en bearbeidingsprosess utført av vedkommende forfatter. Dessuten vil det i lengre fremstillinger ofte presenteres en kontekst. Denne artikkelens formål har vært å bevisstgjøre både de som skal skrive og de som skal lese pressemeldinger, artikler mv. om noen aspekter ved prosessen som skjer når et statistisk datamateriale bearbeides til en tekst.

Referanser

Lappegård, Trude (2001): Myter og fakta. Samfunnsspeilet 2001, 2 . Statistisk sentralbyrå.

Statistisk sentralbyrå (1998): Yngre kvinner fra Oslo med høy utdanning mest innvandrervennlig. Ukens statistikk 1998/38. Statistisk sentralbyrå.

Søbye, Espen (1998): Et mørkt kapittel i statistikkens historie? Samfunnsspeilet 1998, 4. Statistisk sentralbyrå.

Arnfinn Schjalm er førstekonsulent i Statistisk sentralbyrå, Seksjon for statistiske metoder og standarder ( arnfinn.schjalm@ssb.no ).

Kontakt