2. Përmbajtja
2
Nocionet kryesore statistikore
Llojet e variablave dhe bazave të të dhënave
Rëndësia e raportimit të saktë të të dhënave
Mostra
Përcaktimi i madhësisë së mostrës dhe teknikat e
mostrimit
Gabimet e mundshme gjatë mostrimit dhe grumbullimit
të të dhënave
Sigurimi i cilësisë së të dhënave
Zhvillimi i një pyetësori dhe krijimi i një databaze
3. 1.3
Statistika?
“Statistika është mënyrë për të marrë informata nga të
dhënat”
Të dhënat
Statistika
Informatat
Të dhënat: Faktet
numerike, të
grumbulluara me qëllim të
përfitimit të informacionit
Informacioni: Njohuria e
komunikuar lidhur me një
fakt të caktuar.
Statistika është mjet për krijimin e njohurive të reja prej numrave
4. 1.4
Shembull: Statistika për shqetësimin e studentëve…
Një student është i shqetësuar për kursin e statistikës, ngase ka
ndëgjuar që kursi është i vështirë. Profesori ju siguron studentëve
rezultatet e provimit të afatit paraprak. Cka mund të nxirret nga
numrat në vijim?
Të dhënat
Statistika
Informata
Lista e notave nga afati i
fundit.
95
89
70
65
78
57
:
Informatë e re për lëndën
e statistikës.
P.sh. Mesatarja e klasës.
Përqindja e studentëve me
notë mbi 75 pikë .
Nota më e shpeshtë.
5. Nëndarjet e statistikës
1. Statistika përshkruese: në formë tabelare, grafike ose
numerike
2. Statistika analitike: analizën e të dhenave për të
kontrolluar/testuar hipoteza për popullacionin=gjykime
statistikore (cfarë mund të jenë defektet në produkt,
gjasat që një parti të fitojë zgjedhjet, etj).
5
6. Aplikimi i analizes statistikore në biznes
dhe ekonomi
Tani përdorim i pasur statistikor= kyq për suksesin e
bizneseve
Në procesin e vendimarrjes informatat kyqe e që janë
edhe ndër kufizimet kryesore dhe që kushtojnë shumë
Statistika në biznes aplikohet për përshkrimin dhe
analizën e gjendjes në biznese dhe për parashikime.
Në ekonomi parashikimet e inflacionit, rritjes ekonomike
përfshijnë analizë të gjerë statistikore të treguesve
ekonomik.
6
7. 1.7
Konceptet kyqe në statistikë …
Popullacioni: dukuria masive
- popullacioni është grupi i të gjitha informatave me
interes për statisticientin.
Shembull: Të dhëna për gjithë popullsinë e Kosovës.
Mostra
Mostra është grup të dhënash të nxjerra nga popullacioni.
p.sh. Të dhëna për 1% të popullsisë së Kosovës ose për qytete
të caktuara.
8. 1.8
Konceptet kyqe në statistikë
Parametër
Njësi përshkruese e popullacionit
Statistika (njesi statistikore)
Njësi përshkruese e mostrës.
9. 1.9
Konceptet kyqe në statistikë
Popullacioni ka parametra,
Mostrat kanë statistika.
Parametri
Popullacioni
Mostra
Statistika
Pjesë
11. 1.11
Inferenca statistikore …
Ne përdorim statistikat për të nxjerrë përfundime për
parametrat.
Andaj, ne mund të vlerësojmë, parashohim popullacionin
bazuar në të dhënat nga mostra.
Atëherë ne mund të aplikojmë atë që dijmë për mostrën
në popullacion nga i cili është nxjerrë mostra!
12. Të dhënat dhe kuptimet themelore
Elementet janë njësitë për të cilat grumbullohen të
dhëna (për shtete, familje, punëtorë)
Variabla: karakteristikë e përbashkët e elementeve për
të cilat jemi të interesuar (për punëtorë: gjinia, edukimi,
paga, etj.)
Vrojtim: Bashkësia e matjeve të grumbulluara për një
element quhet vrojtim: 12 vrojtime të dhënat për 12
punëtorë.
12
13. Të dhënat
Të dhëna kuantitative: cmimet, të hyrat, shpenzimet, etj..
Të dhëna kualitative: gjinia, i/e punësuar, martuar, shkolluar, etj.
14. Llojet e të dhënave dhe informacioneve
Të dhënat janë tri varibla:
Të dhëna në intervale
Të dhëna nominale
Të dhëna rendore/ordinare
15. Të dhënat intervale…
• Numra real: gjatësia, pesha, cmimet, etj.
• Të referuara si kuantitative/sasiore ose numerike.
16. Të dhënat nominale…
Vlerat e të dhënave nominale janë kategoritë.
P.sh. Përgjigjiet në pyetjet për statusin martesor kodohen:
I/e pamartuar = 1, Martuar = 2, Ndarë = 3, I ve = 4
Të dhënat nominale quhen kualitative/cilësore ose kategorike.
17. Të dhënat ordinare…
Në natyrë janë kategorike por vlerat janë të renditura:
P.sh. Sistemi i renditjes së notave:
dobët = 1,
mjaftueshëm = 2,
mirë= 3,
shumë mirë= 4,
shkëlqyeshëm = 5
18. Llojet e bazave të të dhënave
1. Të dhëna të serive kohore (time series): janë të dhëna
të grumbulluara rregulisht në intervale të rregullta kohore:
ditore, mujore, tremujore, … vjetore.
2. Të dhëna për njësi (cross-section): një ose më shumë të
dhëna të grumbulluara në një moment të caktuar.
3. Të dhëna pooled: Te dhena per 100 familje ne 10 vite por
te familjeve te ndryshme e qe na ofrojne 1,000 familje te
vrojtuara.
4. Të dhëna Panel: disa firma anketohen neper disa periudha
kohore, jane firmat e njejta. Keto te dhena na ofrojne mundesine
te analizohet dallimet ne mes te firmave por edhe ndryshimet qe
firmat pesojne me kalimin e kohes.
19. Të dhënat nëpër seri kohore (time series)
Paga minimale, papunësia dhe të dhena të tjera për Puerto Rico-n
20. Të dhënat cross section
Të dhëna për vende të ndryshme për një vit: rritja ekonomike;
konsumi qeveritar, pjesëmarrja e të rinjëve në popullsi)
21. Të dhënat pooled
Të dhëna për cmimin e shtëpive nëpër dy vite (shtëpi të ndryshme)
22. Të dhënat panel
Të dhëna për statistikat e krimit në dy vite për qytete të njejta
23. 23
Rëndësia e raportimit të saktë të të
dhënave
Në vitin 1986 eksplodimi i anijes kozmike, ku 7
astronautë kanë vdekur, është shembulli më i mirë i
komunikimit të dobët të numrave. Një natë para se të
nisej u udhëzua të mos nisej anija për shkak të
temperaturave të ulta që do të dëmtonin disa pjesë të
anijes. Grafikët e pregatitur në nxitim u fokusuan në
informata selektive (ndikimi i temperaturave të ulta)
duke harruar informata të rëndësishme. NASA (The
National Aeronautics and Space Administration) nuk
u bind nga argumentet dhe anija u lëshua, dhe
eksplodoi brenda 7 sekondave.
24. Shembull: Arsyet për mosinvestim në
Kosovë
Diskutoni nëse të dhënat e paraqitura
janë analizuar sic duhet!
%
1. Të painformuar nga
institucionet e Kosovës lidhur
me kushtet për biznes 16.3
2. Politika fiskale e
pafavorshme 10
3. Korrupcioni 15
4. Burokracia 1.5
5. Arsye të tjera 12.5
9. Pa përgjigjie 44.6
100
24
25. Shembull: Arsyet për mosinvestim në Kosovë
% %
1. Të painformuar nga institucionet e
Kosovës lidhur me kushtet për biznes 16.3 30.50
2. Politika fiskale e pafavorshme 10 18.60
3. Korrupcioni 15 26.00
4. Burokracia 1.5 2.80
5. Arsye të tjera 12.5 22.10
9. Pa përgjigjie 44.6
100
100.00
27. Arsyeshmëria për mostër
27
Jo praktike për të anketuar tërë popullacionin (edhe
pamundësi ngase jo të gjithë pranojnë të
anketohen/intervistohen)
Kufizimet financiare
Kufizimi në kohë
28. Përcaktimi i madhësisë së mostrës
28
Fazat:
1. Identifikimi i kornizës së mostrës
2. Përcaktimi i madhësisë së mostrës
3. Mostrimi/shpërndarja e mostrës
Henry (1990) propozon që për popullacionin me më
pak se 50 raste duhet të mirret i tërë popullacioni
ngase ndikimi i një rasti të vetëm në analiza ka
ndikim më të madh se sa kur mostra e madhe.
29. Mostra…
Cili është popullacioni me interes?
Për cilin grup doni të përgjithësoni rezultatet?
Të gjitha firmat
Nxënësit në shkollën fillore
Femrat e moshës 15-45 vjecare
30. Përcaktimi i madhësisë së mostrës:
Identifikimi i kornizës së mostrës
30
Korniza e mostrës është lista e plotë e të gjitha rasteve
në popullacion nga i cili zgjidhet mostra.
Plotësia dhe saktësia e kornizës së mostrës është me
rëndësi kritike.
Lista jo e plotë dhe e pasaktë nënkupton se disa raste
mungojnë kështuqë nuk kanë gjasa për tu përfshi në
mostër= mostra jo-reprezentative.
31. Përcaktimi i madhësisë së mostrës:
Identifikimi i kornizës së mostrës
31
Familjet: numrat e telefonit (vetëm ata që kanë telefon; të
dhënat mund të jenë të vjetruara).
Individët: e-mail adresat
problemet: ndërrimi i kompanive të internetit; mosha dhe
gjinia (përdoruesit e internetit të rinj dhe më shumë
meshkuj (Heëson et al., 2003))
Të gjithë punëtorët e një firme: mund të gjeneralizojmë
vetëm për punëtorët në atë firmë; nuk mund të themi se
rezultatet do të ishin të njejta në firma të llojit të njejtë.
32. Përcaktimi i madhësisë së mostrës
32
Sa më e madhe mostra më i vogël gabimi në gjeneralizim
për popullacion.
Mostra reprezentative është kompromis në mes të:
Saktësisë së rezultateve, dhe
Kohës dhe shpenzimeve financiare që investohen në
grumbullimin, kontrollën dhe analizën e të dhënave.
33. Përcaktimi i madhësisë së mostrës
33
Faktorët në përkufizimin e madhësisë së mostrës:
1. Besueshmërinë që kërkon nga të dhënat e marra –
niveli i sigurisë që karakteristikat e të dhënave të
grumbulluara të pasyrojnë karakteristikat e
popullacionit
2. Gabimi që lejohet-saktësia që kërkon për vlerësimin e
nxjerrë nga mostra
3. Popullacioni nga i cili duhet nxjerrë mostra
34. 34
Përcaktimi i madhësisë së mostrës
95% niveli i besueshmërisë: nëse mostra caktohet 100
herë atëherë 95 nga këto mostra do të përfaqësonin
karakteristikat e popullacionit. Tregon se sa shpesh
përqindja nga popullacini do të gjindej brenda intervalit
të besimit (për 95% z=1.96, përdoret më së shpeshti).
Intervalit i besimit: tregon precizitetin e vlerësimeve
të popullacionit: nëse 45% e mostrës janë në një
kategori atëherë vlerësimi për popullacionin në atë
këtogori do të jetë 45% plus minus gabimi (p.sh. nëse
mirret 3%), në mes të 42 dhe 48% do të përgjigjeshin
në atë kategori.
35. Përcaktimi i madhësisë së mostrës
35
r 2 x(p x q) (p x q) = (50% x 50%)
M1 = -------------
i 2
M1=>
r => Niveli i besimit
i => intervali I besimit
Mostra e popullacionit
M1
Mp= --------------------------
M1 – 1
1+ --------------------
popullacioni
36. Përcaktimi i madhësisë së mostrës në
internet
36
http://ëëë.surveysystem.com/sscalc.htm
Determine Sample Size
Confidence Level: 95% 99%
Confidence Interval:
Population:
Calculate
37. Llojet e mostrave
37
Mostrimi i bazuar në probabilitet,: është mostrim në të
cilin cdo njësi ka gjasa për të qenë pjesë e mostrës
Mostrimi i pabazuar në probabilitet
38. 06/22/1638
Llojet e mostrave
Bazuar në probabilitet
E thjeshtë: Përzgjedh personat bazuar në metodën e
rastit
Sistematike: Përzgjedh seciln K person
Stratifikuar: Me metodë të rasiti përzgjedh personat në
grupet e përcaktuara
Cluster: Mostra cluster: popullacioni ndahet ne disa
cluster/pjee dhe pastaj disa nga keto perzhgjidhen nga të
cilat nxirret mostra
Mostra e bazuar në probabilitet ofrojnë rezultatet më të
besueshme dhe valide sepse reflektojnë karakteristikat e
popullacionit të cilin e përfaqësojnë
39. 06/22/1639
Llojet e mostrave
Jo bazuar në probabilitet
Mostra qëllimore: varësisht nga qëllimi i studimit zgjedh njësitë për ti
vrojtuar
Snoëball (orteku i borës): kur nuk posedojmë kornizë të mostrës, së
pari identifikojmë një vrojtim dhe ai na shpie tek të tjerët (shembulli me
narkoman; kontrabandist)
Vet-zgjedhje (self selection): vet i anketuari zgjedh të plotësojë një
anketë; anketuesi nuk dërgon anketë tek i anketuari (në faqe interneti
plotësojnë anketa
Mostra kuota: popullacioni ndahet në disa kategori nga e cila përgjidhet
mostra. Megjithatë në krahasim me mostrën e stratifikuar tek mostra e
bazuar në kuota madhësia e mostrës brenda secilës pjesë nuk reflekton
popullacionin si tërësi.
40. Stratifikimi i mostrës: shembull
Matja e standardit jetësor të familjeve kosovare
Popullacion: 300,000 familje në Kosovë
Mostra: 1,064
Stratifikuar në bazë të: 7 regjioneve; fshat qytet
Gjinor dhe mosha: në bazë të ditëlindjes me datë më të
afërt me ditën e anketimit.
41. 41
Mospërgjigjia: norma e përgjigjieve
Arsyet për mospërgjigjie:
1. Refuzimi për tu përgjigjur
2. Paaftësia për tu përgjigjur
3. Pamundësia për të gjetur të anketuarit
4. Respondentët gjinden por pamundësia për ti
kontaktuar.
Nëse nuk përgjigjen atëherë duhet të gjinden të tjerë të
anketuar, gjë që kushton mjete financiare dhe duhet
pasur kujdes gjatë zëvendësimit që të ruhet
përfaqësimi i popullacionit
42. 42
Disa statistika mbi përgjigjien në anketa:
Në vendet e zhvilluara:
Me postë përgjigjen rreth 50%
Me kontakt direkt 75%
43. Sigurimi i cilësisë së të dhënave: kontrolli sasior dhe
cilësor
Kontrolli sasior: verifikimi i përfshirjes së numrit të njësive
statistikore të dukurisë së vrojtuar dhe të të dhënave.
Kontrolli cilësor: saktësinë e të dhënave: kontrolli logjik,
aritmetik dhe fizik.