Ugrás a tartalomhoz

Wikipédia:AutoWikiBrowser/Database Scanner

A Wikipédiából, a szabad enciklopédiából

A Database Scanner egy kiegészítő program az AutoWikiBrowser nevű félautomata Wikipédia-szerkesztő programhoz. Segítségével listákat készíthetünk azok címétől és/vagy tartalmától függően egy korábbi lementett Wikipédia-adatbázis fájl (dump) segítségével. Ez a Magyar Wikipédia-adatbázisból tölthető le. (A pages-articles.xml.bz2-t vagy a vitalapokkal és szerkesztői oldalakkal bővített pages-meta-current.xml.bz2-t keresd!) A program az AutoWikiBrowser "Tools/Database Scanner" legördülő menüjéből indul.

A Database Scanner kezdő ablaka

A program paraméterei

[szerkesztés]

Database (Adatbázis)

[szerkesztés]
  • Database file - A "Browse" gombbal tudjuk megkeresni a gépünkre letöltött "xml" kiterjeszésű dumpot.
  • Magyar Wikipédia-adatbázis (a pages-articles.xml.bz2-t keresd) · kicsomagolási tanácsok · Az aktuális változat: 2024. november 21.
    • A következő sorok a dump fejrészéből automatikusan kitöltődnek:
      • Site name — Például: "Wikipédia".
      • Base — Az oldal weblapja. Például: "https://hu.wikipedia.org/wiki/Kezdőlap".
      • Generator — A dump fájlt készítő program verziója. Például: "MediaWiki 1.44.0-wmf.4 (a8dd895)".
      • Case — Kötés konfiguráció. Például "first-letter".

Namespaces (Névterek)

[szerkesztés]

Itt választhatók ki a névterek amelyekben keresni szeretnénk. Ha semmit nem választunk ki, akkor a keresés lefut az összes névtéren.

Title matching (Cím egyezés)

[szerkesztés]
  • Title does contain — Adott szöveget a címükben tartalmazó cikkek, sablonok, egyebek kereséséhez.
  • Title does not contain — Adott szöveget a címükben NEM tartalmazó cikkek, sablonok, egyebek kereséséhez.
  • Regex — AWB regex kifejezések használata. (angol nyelvű segítség)
  • Case sensitive — Arra az esetre, ha a minta kis- és nagybetű érzékenynek kell lennie.

Last edited date (Utolsó módisítás)

[szerkesztés]

Itt adhatók meg a cikkek, sablonok, egyebek utolsó módosításának intervalluma.

Text (Szöveges tartalom)

[szerkesztés]

Itt adható meg a kereső minta a cikkek, sablonok, egyebek tartalmához.

Searching (Keresés)

[szerkesztés]
  • Limit results to — A mezőben megadott találati szám elérésekor a keresés hamarabb befejeződik, mintha végig futna a teljes adatbázison.

Teljesítmény

[szerkesztés]

A Database Scanner futási sebessége főleg a futtató számítógép két tényezőjétől függ:

  • CPU teljesítmény
  • merevlemez olvasási sebesség

Az eredmény

[szerkesztés]

Eredményként egy listát kapunk, ami lementhető szöveges fájlba és/vagy automatikusan áttöltődik az AWB program aktuális listájába attól függően, hogy a program indításánál kértük-e a lista áttöltését.

Példák a Database Scanner használatára

[szerkesztés]

Kategória nélküli cikkek keresése

[szerkesztés]

A Wikipédia:Kategorizálatlan szócikkek listáját a következő képpen állíthatjuk össze:

  • A Namespace fül alatt a Main/Article mellettit kipipáljuk,
  • A Title fül alatt a Not contains mezőbe írjuk: „(egyértelműsítő lap)”
  • A Text fül alatt a Regex melletti pipával a Not contains mezőbe írjuk:
    \[\[\s*?([Kk]ategória|[Cc]ategory):

Születési, halálozási és egyéb évfordulók cikkek infoboxaiból

[szerkesztés]
  • Az alábbi keresőmintával kereshetünk 0-val és 5-tel végződő évek február 2-ai eseményeire. A kereső mintát a "Text" fül alatti "Contains" mezőbe adhatjuk meg a "Regex" bepipálásával:
\{\{.*?infobox\s*?\|?\n(.*?\n)*?\s*?\|\n?[^=]+=.*?(\[\[\s*?\d*[05]\s*?\]\]\.\s\[\[[Ff]ebruár\s2\.|\{\{[Éé]letkor-(élő-dátummal|holt)\s*?\|\d*[05]\|0?2\|0?2[\|\}])
  • Az alábbi keresőmintával pedig kereshetünk 0-val és 5-tel végződő évek december 15-ei eseményeire:
\{\{.*?infobox\s*?\|?\n(.*?\n)*?\s*?\|\n?[^=]+=.*?(\[\[\s*?\d*[05]\s*?\]\]\.\s\[\[[Dd]ecember\s15\.|\{\{[Éé]letkor-(élő-dátummal|holt)\s*?\|\d*[05]\|12\|15[\|\}])

Azonos tartalmú jegyzetek és források sablon-duplikátumot tartalmazó cikkek keresése

[szerkesztés]
\{\{\s*?([Jj]egyzetek|[Ff]orrások)\s*?\}\}\s*?\n(.*?\n)*\s*?\{\{\s*?([Jj]egyzetek|[Ff]orrások)\s*?\}\}

LC besorolású állatfajok kigyűjtése

[szerkesztés]
\{\{\s*?[Tt]axobox\s*?\n(.*?\n)*\s*?\|\s*?status\s*?=\s*?(LC|lc)

Nem megbízható forrással rendelkező lapok keresése

[szerkesztés]

(A Wikipédia:Kocsmafal (források)/Nem megbízható források listája oldal felhasználásával)

  • Több, mint 130 db link egyidejű keresése több, mint 2 órán keresztül tarthat!
ajanlom-magamat\.com|aktiv-blog\.com|aktiv-hirek\.net|facebook\.com/bakkecske\.net|best-hir\.com|bizony\.eu|boroskola\.info|cikkelek\.eu|csakneked\.info|csucshatas\.eu|szupcsi\.eu|csumida\.com|dinamikus\.com|egeszsegespont\.hu|eljunkszabadon\.co\.vu|www\.elkepeszto\.net|erdekeshirek\.info|exkluziv-videok\.com|extremblog\.com|ezerdekes\.eu|ezt-figyeld\.com|ezt-figyeld-blog\.com|eznempiti\.eu|eztnezdmeg\.info|eztnezdmeg-blog\.com|ez-zsir\.net|face-nemzedek\.com|figyuzz\.net|fogjunkossze\.com|filmhir\.net|first-video\.net|franko\.info|frenetikus\.com|frissvilag\.com|globire\.info|gonosz-majom\.com|www\.hetperc\.com|hir-24\.info|hir27\.in|hirado\.top|hirek-online\.com|hirek\.top|hirexpressz\.top|hirjarat\.com|hirkalap\.net|hirkert\.info|hirkozlo\.com|hirlexikon\.eu|hirmadar\.com|www\.hirnap\.info|hir-online\.com|hironline24\.net|hirorigo\.net|hirportal\.info|hir-start\.net|hir-start\.com|hirszabadsag\.blogspot\.com|hirtop\.in|hirtrafik\.top|hirvilag\.co|husospizza\.com|index-blog\.net|kiralyvidi\.eu|kiskegyed\.creatorword\.com|kukucs\.info|kutyapisti\.eu|lajkolj\.info|lapzarta\.com|lattadmar\.eu|legfrissebb\.info|legjava\.com|macskajaj\.net|mai-friss\.com|mai-hirek\.net|mediavadasz\.info|megdobbensz\.info|meglepo\.info|hotpixel\.co\.vu|megoszthato\.blogspot\.hu|meteon\.org|mindenegybenblog\.hu|mindenegyben-blog\.com|mindenegybenblog\.net|mindenegyben-blog\.net|mindenegyhelyen\.info|mulato\.info|mokavilag\.com|morickamegpiskota\.housefmradio\.eu|a-nagy-alku\.com|nagyonjoo\.com|napi-friss\.com|napi-hir\.net|napi-hirek\.net|napi-humor\.hu|napi-media\.com|napimigrans\.com|napitrend\.blogspot\.hu|naturahirek\.com|netbetyar\.me|netextra\.hu|erdekesvilag\.eu|nethir\.eu|nyaralok\.net|organikusok\.blogspot\.hu|origo-blog\.com|origo-hirek\.net|origoblog\.net|palyazatfigyelo\.info|pletyka\.eu|pluszcafe\.hu|popec\.net|szupertanacsok\.blog\.hu|skubizd\.info|szabadonebredok\.info|tenyek-online\.com|tophirek\.hu|tricikli\.com|tudasfaja\.com|tudnodkel\.blogspot\.com|ujvilagtudat\.blogspot\.hu|www\.xcore\.in|vakarek\.info|vattacukor\.net|vicces-humoros\.com|vidamsag\.postr\.hu|video-bazis\.com|videojohny\.eu|www\.video-perc\.net|videopista\.eu|vilaghelyzete\.blogspot\.com|vilagpolgarok\.blogspot\.hu|tutilapok\.hu|starity\.hu

Elhunyt személyek cikkei életkor-élő sablonnal

[szerkesztés]
\{\{\s*?[Éé]letkor-élő(.*?\n)+\s*?\[\[\s*?([Cc]ategory|[Kk]ategória):\s*?\d{1,4}-b[ae]n\selhunyt\sszemélyek

Egyéb regexp példák

[szerkesztés]

Az alábbi fordítást, mely az útvonalsablonok esetében fordulhat elő, az alábbi regexp cseréli:

{{BS2|STR||||[[Bahnstrecke Paris–Marseille|von Paris]]}} -> {{BS2|STR||||[[Paris–Marseille-vasútvonal|Paris felől]]}}

(\{\{BS2\|STR\|\|\|\|\[\[)Bahnstrecke\s([^\|]+)\|von\s([^\]]+)(\]\]\}\}) -> $1$2-vasútvonal|$3 felől$4