portfolio
portfolio
Portfolio
Her finner du en oversikt over prosjektene mine innen dataanalyse. Jeg har jobbet med ulike verktøy som SQL, Excel, Power BI, Tableau, Python og R for å analysere data og skape innsiktsfulle løsninger. Hvert prosjekt viser mine evner til å håndtere komplekse datasett, lage interaktive visualiseringer og trekke meningsfulle konklusjoner som kan støtte beslutningstaking i organisasjoner.
Power BI og R
Utforskning av hotellreservasjonsmønstre og kanselleringer: Innsikter fra et datasett
Struktur og omfang av datasettet:
Datasettet består av 36 275 unike bookingposter fra et hotellstyringssystem. Hver post inneholder flere funksjoner, som antall gjester, romtype, måltidsplan og bookingstatus. Det dekker bookingdetaljer fra 2017 til 2018 og gir innsikt i kundeadferd, reservasjonstrender og inntektsgenerering.
Datasettet gir innsikt i viktige aspekter ved hotellets drift, som:
Kundepreferanser (f.eks. foretrukne romtyper og måltidsplaner)
Bookingfrekvenser (f.eks. bookingtrender etter ukedag, måned og høytidsperioder)
Kanselleringsadferd (f.eks. tidligere kanselleringer og kanselleringsrater)
Inntektsgenerering (f.eks. prisfluktuasjoner og segmentering etter romtyper)
Verktøy og teknologier brukt:
🗂️📝R: for datarensing, transformasjon og innledende analyse
📊 Power BI: for datavisualisering og interaktive dashboard
DAX: brukt for å beregne ulike målinger og indekser, inkludert bookinger, kanselleringer, helger og gjennomsnittlige priser.
Antall poster: 36 275
Antall felter: 19
Lisens: fra www.kaggle.com




Databehandling og analyse:
Rensing og strukturering av data:
Datasettet krevde flere rensings- og prosesseringssteg for å sikre at det var klart for analyse. Følgende oppgaver ble utført:
✨ Standardisering av kolonner, som å fjerne ekstra mellomrom i „Form”-feltet.
✨ Utfylling av manglende verdier der det var nødvendig for å opprettholde konsistens.
✨ Håndtering av skuddår (29. februar): Alle forekomster av 29. februar ble justert til 28. februar for å sikre konsistente datoer innenfor perioden 2017-2018.
✨ Filtrering av ufullstendige eller irrelevante poster for å fokusere på de mest relevante dataene.
✨ Opprettelse av en dimDate-tabell for tidsbasert analyse, som inkluderer ulike datoattributter (f.eks. ukedag, helg, måned, år).
I dette prosjektet demonstrerte jeg mine ferdigheter i å håndtere manglende data og transformere rå informasjon til et brukbart format. Følgende kode viser hvordan jeg identifiserte og håndterte manglende verdier, korrigerte skuddårs-datoer og opprettet en ny datokolonne.
Check for missing values
sum(!complete.cases(hotel))
colSums(is.na(hotel))
Create date column by combining year, month, and day
hotel$date <- tryCatch(
as.Date(paste(hotel$arrival_year, hotel$arrival_month, hotel$arrival_date, sep = ’-’), format = '%Y-%m-%d’),
error = function(e) NA
)
Correct February 29th for leap years
hotel$arrival_date[hotel$arrival_month == 2 & hotel$arrival_date == 29] <- 28
Visualisering og utforskning av data:
Ulike visualiseringer ble laget i Power BI for å utforske reservasjonstrender, prisfluktuasjoner og sesongvariasjoner. Viktige visualiseringer inkluderte:
Stolpediagrammer for totale bookinger per måned.
Linjediagrammer som fremhever helger og høytider.
Boksplott som viser prisfluktuasjoner etter romtype og måltidsplan.
Interaktive Dashboards:
Interaktive dashbord ble bygget i Power BI, slik at brukerne kan dykke ned i dataene etter dato, romtype og markedssegment. Disse dashbordene ga en oversikt over bookinger, kanselleringer og trender over tid.
Nøkkelfunn:
⭐ Totale bookinger er mest konsentrert i første halvdel av måneden, med betydelige topper mot slutten. Imidlertid faller ikke de høyeste bookingdagene sammen med helgene, og dette varierer fra år til år.
⭐ Helgebookinger: Selv om helgene er viktige for bookinger, viser den totale distribusjonen stor variasjon fra år til år. Ulike måneder som oktober og november viser høyere bookingvolumer i helgene.
⭐ Kanselleringsrate: Kanselleringsraten står på 32,76%, med lengre opphold (13-16 netter) og måltidsplan 2 som de største bidragsyterne. Romtype 4 med måltidsplan 2 har høyeste kanselleringsrate.
Lærdom og verdiskaping:
Ved å fokusere på perioder med høy etterspørsel (topper i bookingdager), kan hoteller optimalisere prisene og tilby kampanjer for å øke inntektene.
Segmentering av bookinger etter romtyper og måltidsplaner kan gi dypere innsikt i kundepreferanser.
En mer målrettet tilnærming til håndtering av kanselleringer, spesielt for lengre opphold og spesifikke måltidsplaner, kan bidra til å redusere tap.
Link til prosjekt på Github
Analyse av Pixar movie i Power BI
Datasettet inneholder informasjon om Pixar-filmer de siste 30 årene. Det inkluderer egenskaper som filmsjangre, utgivelsesår, vurderinger, billettsalg og regissører. Dataene gir en helhetlig oversikt over Pixars reise, med innsikt i publikums preferanser, kritisk mottakelse og økonomisk suksess.
Struktur og omfang av datasettet:
Datasettet består av 7 CSV-filer med detaljerte innsikter i Pixars filmografi, inntekter, vurderinger og relaterte målinger.
Lisens: www.mavenanalytics.io
Verktøy og teknologier brukt:
🗂️📝Power Query: For datarensing og forberedelse
📊 Power BI: For å lage dynamiske og interaktive visualiseringer av trender og mønstre.




Databehandling og analyse:
Rensing og strukturering av data:
Datasettet ble grundig forberedt for å sikre klarhet og nøyaktighet. Stegene inkluderte:
✨ Standardisering av kolonnenavn for konsistens.
✨ Standardisering av utgivelsesdatoer til et ensartet format.
✨ Filtrering av irrelevante poster for å holde fokuset på Pixar-relaterte innsikter..
Visualisering og utforskning av data:
Ved bruk av Power BI ble en rekke visualiseringer laget, inkludert:
– Diagrammer over sjangerfordeling.
– Trender i vurderinger og inntekter over tid.
– Regissørers bidrag til Pixars suksess.
– Et beslutningstre for å bryte ned ytelsesmålinger basert på filmattributter..
Interaktive Dashboards:
Interaktive dashboards gir brukere muligheten til å navigere i dataene med slicere (f.eks. etter år, vurdering eller regissør) og fokusere på viktige trender som inntektstopper eller popularitet.
Nøkkelfunn:
⭐ Økonomisk ytelse: Avkastning på investering (ROI) inkluderer Toy Story med imponerende 1215 %, Finding Nemo med 827 % og A Bug’s Life med 203 %.
⭐ Inntektstrender viser en markant nedgang mellom 2020 og 2022, noe som reflekterer en utfordrende periode for kinobransjen.
⭐ Kritisk & publikums mottakelse: Selv om Coco og Wall-E oppnådde høye IMDb-poeng (8,4), er de ikke blant de 10 mest lønnsomme Pixar-filmene.
⭐ Produksjonsinnsikt: Andrew Stanton har bidratt mest til Pixar-filmer, både som manusforfatter og regissør. Brad Bird har generert 2,5 milliarder dollar.
⭐ Regional inntektsfordeling: Internasjonale markeder dominerer, og står for 59 % av inntektene, sammenlignet med 41 % fra hjemmemarkedet.
Lærdom og verdiskaping:
Dette prosjektet ga meg praktisk erfaring med datarensing og -analyse i Excel, samt visualisering i Power BI. Jeg lærte å håndtere store, ustrukturerte datasett og trekke ut meningsfylte innsikter som kan brukes til å forstå komplekse mønstre.
Gjennom dette arbeidet har jeg utviklet en dypere forståelse for dataanalyseprosesser, og jeg ser frem til å bruke disse ferdighetene til å løse forretningsproblemer og skape verdi i en profesjonell kontekst.
Link til Power Bi prosjekt
Analyse av UFO-observasjoner i Power BI og Excel
Struktur og omfang av datasettet:
Antall rekorder: 80,332 observasjoner fra 1949 til 2014
Antall felt: 11
Datafelt: By, stat, land, geografiske koordinater, form, varighet, dato/tid og kommentarer
Lisens: Offentlig domene
Verktøy og teknologier brukt:
🗂️📝Excel & Power Query: For datarensing og forberedelse
📊 Power BI: For avansert datavisualisering og innsiktsdeling
Databehandling og analyse:
Rensing og strukturering av data:
Datasettet var svært ustrukturert, med mange manglende verdier og inkonsekvente formater. Jeg utførte følgende:
✨Standardisering av felt som „Form” ved å fjerne ekstra mellomrom
✨harmonisere store og små bokstaver og slå sammen duplikater.
✨Konvertering av tidsdata til ukedager og tidsintervaller for analyse.

✨Opprettelse av kategorier for varighet ved hjelp av spesifikke Excel-formler:Brukte følgende formel for å matche varighet i sekunder med riktig kategori
✨La til sorteringsnumre for hver kategori for å forenkle analyser med denne formelen
Denne metoden sikret konsistens i tidsdata og gjorde det enklere å visualisere kategorier i Power BI:
Check for missing values
sum(!complete.cases(hotel))
colSums(is.na(hotel))
Create date column by combining year, month, and day
hotel$date <- tryCatch(
as.Date(paste(hotel$arrival_year, hotel$arrival_month, hotel$arrival_date, sep = ’-’), format = '%Y-%m-%d’),
error = function(e) NA
)
Correct February 29th for leap years
hotel$arrival_date[hotel$arrival_month == 2 & hotel$arrival_date == 29] <- 28
Visualisering og utforskning av data:
Brukte Power BI-funksjoner som Decomposition Tree, Funnel, Shape Map og Charts for å identifisere mønstre.
Dette var min første erfaring med å bruke Decomposition Tree i Power BI. Jeg brukte litt tid på å forstå hvordan jeg skulle strukturere dataene på best mulig måte for å kunne dele opp observasjonene i forskjellige dimensjoner. Jeg lærte hvordan man kan lage en interaktiv visualisering som lar brukeren utforske dataene i dybden.
Interaktive Dashboards:
Lagde brukervennlige dashboards for interessenter for å utforske data dynamisk.
Slicere og filtre gjorde det mulig å lage tilpassede visninger for spesifikke analysebehov.



Nøkkelfunn:
⭐Mest vanlige form: „Lys” var den hyppigst rapporterte formen, med en typisk varighet på 30 sekunder til 3 minutter.
⭐Geografiske trender: USA hadde den høyeste konsentrasjonen av observasjoner, med en topp i 2012. Andre land som Australia, Canada, Tyskland og Storbritannia viste også betydelige trender.
⭐Ukedagsmønstre: Lørdag hadde flest rapporterte observasjoner, noe som antyder et mønster som kan undersøkes videre.
⭐Tidsmessige trender: Det var en tydelig nedgang i rapporterte observasjoner etter 2014.
⭐Varighetskategorier: Flest observasjoner varte mellom 3–30 sekunder og 3–10 minutter.
Lærdom og verdiskaping:
Dette prosjektet ga meg praktisk erfaring med datarensing og -analyse i Excel, samt visualisering i Power BI. Jeg lærte å håndtere store, ustrukturerte datasett og trekke ut meningsfylte innsikter som kan brukes til å forstå komplekse mønstre.
Gjennom dette arbeidet har jeg utviklet en dypere forståelse for dataanalyseprosesser, og jeg ser frem til å bruke disse ferdighetene til å løse forretningsproblemer og skape verdi i en profesjonell kontekst.
Link til prosjekt på Github
Link til Power Bi prosjekt
Link til NovyPro prosjekt
Purchasing Behavior Analysis Using R
Struktur og omfang av datasettet:
Antall poster: 2240
Antall felter: 29
Datafelter: Id, Year_Birth, Education, Marital_Status, Income, Kidhome, Teenhome, Dt_Customer, Recency, MntWines, MntFruits, MntMeatProducts, MntFishProducts, MntSweetProducts, MntGoldProds, NumDealsPurchases, NumWebPurchases, NumCatalogPurchases, NumStorePurchases, NumWebVisitsMonth, AcceptedCmp3, AcceptedCmp4, AcceptedCmp5, AcceptedCmp1, AcceptedCmp2, Complain, Z_CostContact, Z_Revenue, Response.
Lisens: Offentlig domene
Verktøy og teknologier brukt:
🗂️📝 R (tidyverse, dplyr): For datarensing, forberedelse og analyse
📊 ggplot2: For å lage detaljerte og interaktive visualiseringer
📥readxl: For å importere data fra Excel-filer til R
📊 pastecs: For å generere statistiske sammendrag og beskrivende statistikk
🔄 tidyr: For å endre form og rydde opp i data
🔄 reshape2: For å transformere data fra bred til lang format for lettere analyse
Databehandling og analyse:
Rensing og strukturering av data:
✨ Datasettet inneholdt inkonsistenser, manglende verdier og ustrukturerte formater. Jeg håndterte disse utfordringene ved å:
✨ Standardisere numeriske og kategoriske variabler, for eksempel ved å konvertere inkonsistente formater i kjøpskanaler og demografiske data
✨ Fjerne uteliggere og håndtere manglende verdier ved hjelp av statistisk imputasjon (f.eks. median eller gjennomsnitt)
✨ Omstrukturere datasettet for visualisering ved å pivote og gruppere nøkkelvariabler
Converting variables to „factor” type:
factorType <- c(’Response’, 'Complain’, 'AcceptedCmp1′, 'AcceptedCmp2′, 'AcceptedCmp3′, 'AcceptedCmp4′, 'AcceptedCmp5′)
clients[factorType] <- lapply(clients[factorType], function(x) factor(x, levels = c(0, 1), labels = c(0, 1)))
#Analyzing Correlation
cor_vars <- clients %>%
select(Income, MntWines, MntFruits, MntMeatProducts, MntFishProducts, MntSweetProducts, MntGoldProds, Recency)
correlation_matrix <- cor(cor_vars, use = „complete.obs”, method = „pearson”)
print(correlation_matrix)
Convert the correlation matrix to a long format
cor_melted <- melt(correlation_matrix)
ggplot(cor_melted, aes(Var1, Var2, fill = value)) +
geom_tile() +
geom_text(aes(label = round(value, 2)), color = „black”, size = 4) +
scale_fill_gradient2(low = „white”, high = „#084081”, mid = „white”, midpoint = 0) +
labs(title = „Correlation Heatmap”, x = „”, y = „”) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
Datavisualisering og utforskning:
✨ Brukte R sine kraftige visualiseringsverktøy for å avdekke mønstre, trender og handlingsorienterte innsikter.
✨ Lagde stolpediagrammer og visualiserte demografiske påvirkninger på kjøp (f.eks. barn i husholdninger vs. totale kjøp)
✨ Brukte fargepaletter (f.eks. BuPu og PuBu paletter) for intuitiv differensiering på tvers av kategorier
Nøkkelfunn
⭐ Husholdningsstruktur: Familier uten barn gjør flere kjøp, spesielt i fysiske butikker. Derimot, husholdninger med flere barn viser redusert kjøpsaktivitet, spesielt på nettet.
⭐ Demografiske Innsikter: Singler og høyinntektsgrupper responderer bedre på kampanjer, mens familier viser varierende atferd avhengig av inntekt og husholdningsstørrelse.
⭐ Recency Effekt: Kunder som har handlet nylig, tenderer å bruke mer på høykvalitetsprodukter som vin og kjøtt.
⭐ Kjøpsmønstre: Signifikante trender ble observert i hvordan familier handler, inkludert preferanser for spesifikke produktkategorier og kanaler.
Læring og Verdiskaping
Dette prosjektet forbedret mine praktiske ferdigheter innen datarensing, analyse og visualisering ved bruk av R. Jeg lærte å håndtere komplekse, ustrukturerte datasett og trekke meningsfulle innsikter som samsvarer med forretningsbehov.
Gjennom dette arbeidet har jeg utviklet en dypere forståelse for kjøpsatferd og forbedret min evne til å kommunisere funn på en effektiv måte gjennom datavisualisering. Disse ferdighetene er direkte anvendelige for å løse virkelige forretningsproblemer og drive datadrevne beslutningstaking.
Github Link
Er du interessert i å lære mer om hvordan jeg kan bidra til din organisasjon med mine dataanalyseferdigheter? Jeg er alltid åpen for nye muligheter og utfordringer. Ta gjerne kontakt for videre diskusjon eller hvis du har spørsmål om prosjektene mine.