Szerkesztő:Pallor/Segédletek/Statisztikák a Wikidatából
A Wikidatában tárolt adatokból különféle statisztikákat lehet készíteni. Pontosan számszerűsíthetünk addig csak elnagyoltan emlegetett adatokat, vagy a legkülönbözőbb szempontok szerint szelektálhatjuk, sorbarendezhetjük azokat. Lentebb néhány engem érdeklő összesítés található. A lekérdezések egyszeriek, nem, vagy csak alkalmomszerűen frissülnek, de közzéteszem azokat a lekérdezéseket, amikkel készültek, így bármikor csinálhatsz friss statisztikát, vagy a lekérdezés paramétereinek a módosításával akár más összetételű adathalmazt is vizsgálhatsz.
Fontos szem előtt tartani, hogy a közismert statisztikáktól eltérően a Wikidatában a történelmi Magyarország, sőt, a világ írott történetének kezdete óta ismert (és a Wikidatába felvitt) adataiból készülnek a statisztikák. Tehát pl. míg azt arra a kérdésre, hogy hány magyar állampolgár van, általában a kérdés feltételének időpillanatában élő személyek adatait szokás vizsgálni, a Wikidatában a magyar államiság kezdetétől magyarként számontartott személyekről beszélünk, így például a magyar történészek, görög csillagászok, arab matematikusok stb. szűréséhez további finomítások szükségesek (pl. születési-halálozási paraméterek megadása). Ebből adódóan előfordul, hogy a statisztika nem szolgáltat érdemi adatot semmiféle hipotézishez, csupán azt tükrözi, hogy az adatfelvitel egyenetlenségei milyen torzuláshoz vezetnek a Wikidatán.
Hány magyar van a Wikidatában?
[szerkesztés]Magyarokról többféle vonatkozásban beszélhetünk:
- magyar nemzetiségűek - erről nem lehet információkat nyerni, mert a Wikidata nem tárol adatot a nemzetiségről
- magyar állampolgárságúak - erről találsz információt a lenti táblázatban (magyar állampolgárság = az állampolgárság (P27) tulajdonságnál az alábbi három entitás valamelyike szerepel: Magyarország (Q28), Erdélyi Fejedelemség (Q655621), Magyar Királyság (Q171150)
- magyar anyanyelvűek - ezt az adatot lehetőség lenne felvinni, de nagyon ritkán élünk vele, ezért igen csalóka számok mutatkoznak
2021. január 21-én
|
|
A lekérdezéshez használt kód |
---|
SELECT (COUNT(DISTINCT ?subject) AS ?subjcount )
WHERE
{
?subject wdt:P31 wd:Q5 .
?subject wdt:P103 wd:Q7850
}
|
Akinek magyar az anyanyelve, milyen nyelvet beszél még?
[szerkesztés]Látható, hogy annyira kevés az elemszám, hogy érdemi statisztika nem készíthető. Egyes esetekben ha csak két újabb valamilyen nyelven beszélő kerül a Wikidatába, már megváltozik a sorrend, holott ennél sokkal nagyobb számú idegen nyelven beszélő személyről van adatunk. Látszik egy adatfelviteli hiba is: a640 magyar anyanyelvű személyből csak 585-en beszélnek ténylegesen magyarul - a Wikidata adatai szerint. Nyilvánvaló, hogy az adatfelvitelnél kell jobban odafigyelni. Érdemes átgondolni, hogy hány diplomatánk, műfordítónk, valamilyen idegen nyelv és kultúra művelője az, akiknek van szócikkük, de a Wikidatába a beszélt nyelveik nem kerülnek be adatként.€
A lekérdezéshez használt kód |
---|
SELECT ?country ?countryLabel ?count WHERE {
{
select ?country (COUNT(*) AS ?count) where {
?item wdt:P103 wd:Q9067 .
?item wdt:P31 wd:Q5 .
?item wdt:P1412 ?country .
} group by ?country
}
SERVICE wikibase:label { # ... include the labels
bd:serviceParam wikibase:language "hu" .
}
} ORDER BY DESC (?count)
|
Eszperantóul beszélők anyanyelve
[szerkesztés]Fordítsuk meg a fenti lekérdezést, és nézzük meg, hogy akiknél a beszélt nyelvek egyike az eszperantó (Q143), annak mi az anyanyelve?
nyelv | beszélők száma |
---|---|
magyar (Q9067) | 62 |
cseh (Q9056) | 56 |
francia (Q150) | 52 |
eszperantó (Q143) | 49 |
német (Q188) | 42 |
angol (Q1860) | 33 |
holland (Q7411) | 30 |
orosz (Q7737) | 23 |
lengyel (Q809) | 17 |
svéd (Q9027) | 12 |
spanyol (Q1321) | 12 |
japán (Q5287) | 10 |
szlovák (Q9058) | 9 |
olasz (Q652) | 8 |
portugál (Q5146) | 7 |
bolgár (Q7918) | 4 |
brazíliai portugál (Q750553) | 3 |
dán (Q9035) | 3 |
finn (Q1412) | 3 |
norvég (Q9043) | 3 |
koreai (Q9176) | 3 |
szlovén (Q9063) | 3 |
vietnámi (Q9199) | 2 |
észt (Q9072) | 2 |
görög (Q9129) | 2 |
katalán (Q7026) | 2 |
horvát (Q6654) | 2 |
jiddis (Q8641) | 2 |
udmurt (Q13238) | 1 |
román (Q7913) | 1 |
német jelnyelv (Q33282) | 1 |
gilaki (Q33657) | 1 |
galiciai (Q9307) | 1 |
litván (Q9083) | 1 |
albán (Q8748) | 1 |
sztenderd mandarin (Q727694) | 1 |
ukrán (Q8798) | 1 |
héber (Q9288) | 1 |
török (Q256) | 1 |
kínai (Q7850) | 1 |
izlandi (Q294) | 1 |
bangla (Q9610) | 1 |
brit angol (Q7979) | 1 |
grúz (Q8108) | 1 |
Itt még inkább a kevés elemszám okozta torzulás figyelhető meg: tudható, hogy nem a magyarok közül beszélik a világon a legtöbben az eszperantót, hanem a kínai anyanyelvűek. Ez a lista nem tükröz mást, minthogy a magyaroknál alaposabban jelölve vannak az anyanyelv és beszélt nyelvek tulajdonságok.
A lekérdezéshez használt kód |
---|
SELECT ?country ?countryLabel ?count WHERE {
{
select ?country (COUNT(*) AS ?count) where {
?item wdt:P1412 wd:Q143 .
?item wdt:P31 wd:Q5 .
?item wdt:P103 ?country .
} group by ?country
}
SERVICE wikibase:label { # ... include the labels
bd:serviceParam wikibase:language "hu" .
}
} ORDER BY DESC (?count)
|