Adatbányászat

Az adatbányászat a nagy mennyiségű adatokban rejlő információk félautomatikus feltárása különféle algoritmusok alkalmazásával. Több definíciója is ismert és elfogadott. Magyarországon leggyakrabban adatbányászat alatt újszerű, érvényes, nem triviális, vélhetően hasznos és magyarázható összefüggések keresését értik nagy adathalmazban.^[1]

Az újszerűség azt foglalja magában, hogy jelenleg a területi szakértők által még nem ismert összefüggések feltárására törekszünk, meglévő tudás kinyerése, bizonyítása ugyan lehet mellékhatás, de sosem cél. Érvényesnek kell lennie a felmérésnek, azaz vizsgálni kell azt a kérdést is, hogy a kinyert összefüggés a valósággal összhangban van-e, más jelenségek is alátámasztják az összefüggést, nem csak az adatok valamilyen sajátos rendezése folytán jutottunk-e az adott következtetésre. Végezetül magyarázhatónak kell lenni az összefüggésnek, azaz fel kell tárni azt, hogy miért és hogyan jutottunk egy következtetésre.

Az adatbányászat egy olyan tudományos szakterület, amely a valós életben jól megfigyelhető (értsd egzakt, zárt alakban, egyértelműen leírható) jelenségek és a jól mérhető, numerikus adatok és adathalmazok közötti összefüggéseket keresi és elemzi. Fontos kiemelni, hogy az adatbányászat e megfogalmazásban (az összefüggések keresésével) eleve kizárja a statisztikai jellemzést, hiszen az lényegében csak egy állapot leírására szolgál. Statisztikai jellemzések sokaságát, illetve az abból levonható általánosabb következtetések sokaságát ugyanakkor nem zárja ki (nagyon helyesen). A megfigyelhetőség kritériuma a definícióban azért fontos, mert egyértelműen el kell tudnunk dönteni, illetve ellenőrizni kell tudnunk, hogy a következtetés adott esetben helytálló-e. Szubjektív vagy nem egyértelműen eldönthető, esetleg vitatható dolgokat az adatbányászati módszerek legfeljebb közelítéssel tudnak megoldani, de a közelítés pontossága, jósága sosem tárható fel; azaz használhatatlan eredményeket kapnánk. A megfogalmazás másik erőssége, hogy ebbe az adatbányászat számos ága belefér, így pl. szövegbányászat és a génkutatás is. Szűk értelemben azonban adatbányászat alatt a strukturált, adatbázisokban tárolható adatokon értelmezett összefüggés-kereső tevékenységeket értjük.

Az adatbányászat egyes elemeit több szempont alapján szokás osztályozni. Adattípusok alapján beszélhetünk:

Strukturált adatok esetében
- strukturált adatbányászatról
- folyamjellegű (strukturált) adatbányászatáról (web kattintások, idősorok, gének, gráfok és hang – ami egy speciális idősor – tartozik jellemzően ide)
Nem strukturált adatok esetében
- szövegbányászatról
- képanalízisről (kép alapú adatbányászatról)
- videó analitikáról (videó alapú adatbányászatról)

Éppennyire gyakori azonban a cél szerinti osztályozás is, amely értelemszerűen valamely adattípushoz inkább kötődik, de a sajátos feladat határozza meg az alkalmazható eljárások körét. Ilyen például – a teljesség igénye nélkül:

(web-, kép-, videó-, név- stb.) keresés
webbányászat
ajánló rendszerek
érzelemdetekció (szentiment elemzés)
génkutatás
gépi látás
biometrikus azonosítás (aláírás, arcfelismerés, hangfelismerés, mozgásfelismerés stb.)

Története

Az adatbányászat különböző tudományterületek „keresztezéséből” jött létre, a matematika, ezen belül a statisztika és a mesterséges intelligencia módszereit használja fel nagy adatbázisokból való, nem-triviális információk kinyerésére.

A tárolókapacitás növekedésével egyre több területen kezdték el adatbázisokban tárolni az adatokat, főként a pénzügyi, telekommunikációs és kereskedelmi szektorban. A gépi tanuló algoritmusok fejlődésével lehetőség nyílt arra, hogy a nagy adathalmazokat elemezzék, ezzel támogatva a döntéshozást, értékesítést, vagy akár optimalizálják az egyéb üzleti folyamatokat. Az adatbányászat mint önálló tudományterület az 1980-as években jött létre.

Az adatbányászati piacnak két fő szereplőtípusa van Magyarországon: szoftvergyártó cégek, mint a SAS, IBM, Oracle és az adatbányászati fejlesztő/tanácsadó cégek. Ezen túlmenően megjelentek az nyílt forráskódú adatbányászati eszközök is, mint például a RapidMiner, a Konstanz Information Miner (KNIME), az Orange Canvas vagy az R programozási nyelv. Magyarországon az első adatbányászati tanácsadó cégek a 90-es évek végén alakultak.

Az adatbányászat mint folyamat

Az adatbányászati folyamatnak több kidolgozott eljárása is létezik, amely többnyire valamilyen termékhez kapcsolódik. A legismertebbek Magyarországon az SPSS (ma IBM) 5A (Assess, Access, Analyze, Act, Automate), a SAS SEMMA^[2] (Sample, Explore, Modify, Model, Assess) eljárása, a KDD Process^[3] és a CRISP-DM^[4] (CRoss Industry Standard Process for Data Mining), ami egy ipari szabvány; de a legtöbben saját módszertant használnak. Bár ezek a módszertanok különböző részelemekre fókuszálnak attól függően, hogy milyen termék vagy a létrehozását támogató kör támogatta, összességében nagyon hasonló eljárásokról beszélünk. Az 5A és a SEMMA elsősorban magára az elemzésre fókuszál, a CRISP-DM pedig az üzleti környezetbe való beágyazást tekinti a kiindulási állapotnak.

Egy sikeres adatbányászati projekt legfontosabb lépcsői:

Üzleti környezet, kiindulási állapotok megismerése, a célok pontos megfogalmazása és finomítása.
Általános etikai kérdések tisztázása: a rendelkezésre álló adatok üzleti és személyi érzékenységének felmérése, szükség esetén anonimizálása.
Adatok felmérése: az adatbázisban tárolt adatok, a keletkezésük, változásuk, értékük, eltérésük, pontosságuk, valamint az adatokban kódolt információk megértése.
Tesztelési környezet kialakítása: meg kell határozni, hogy mely adatokon lehet/szabad a modelleket felépíteni és melyeken kell, illetve hogyan kell az ellenőrzést elvégezni.
Adatok módosítása, értékelése, előkészítése (módszertanonként eltérő névvel illetik ezt a szakaszt): számos származtatott, normalizált, vagy másképpen módosított adatokra van szükség egy ideális modell kialakításához; esetlegesen pedig szükség lehet jellemzők (attribútumok) elhagyására is.
Modellezés: a megfelelő algoritmus (hipotézis) kiválasztása és a modell paramétereinek kiszámítása, a létrehozott modellek hangolása
Értékelés: a modell jóságát, helyességét ellenőrizni kell, meg kell vizsgálni, hogy a meghatározott célokkal mennyiben van összhangban, hol biztos és bizonytalan a modell, és fel kell mérni, hogy alkalmazható-e a modell (bonyolultság, megtérülés)
Alkalmazás (Hadrendbe állítás): integrálás az üzleti folyamatokba, kommunikáció (a működés hátoldalainak és előnyeinek tárgyalása, az eredmények terjesztése), oktatás.

Az egyes lépéseken sorban haladnak végig a projektek során, alkalmazásuk azonban több iterációban történik. Minden szakaszban új ismeretre lehet szert tenni – ha másért nem, hát azért, mert látjuk, hogy helyes-e egy-egy hipotézis vagy sem -, amelyet a megelőző szakaszokba integrálva új optimumpont keresését és kiválasztását teszi lehetővé.

Algoritmuscsaládok, modellezési technikák

Előrejelzés: jelenleg még nem ismert / nem létező érték becslése, közelítése múltbéli tapasztalatok alapján.
Osztályozás: felügyelt tanulás – a rendelkezésre álló elemek előre meghatározott osztályokba való sorolása, amelynek során azt tanulja meg az algoritmus folyamatos pozitív és negatív megerősítések segítségével, hogy mi alapján lehet az egyes elemeket a megfelelő csoportba, osztályba tenni. Tipikusan felismerési feladatok tartoznak ide.
Regresszió: általában létező, megismerhető, de hiányzó értékek becslése más paraméterek segítségével (pl. valakinek a korát becsüljük egyéb jellemzőiből)
Szegmentálás/klaszterezés: felügyelet nélküli tanulás – a rendelkezésre álló elemek csoportosítása valamilyen tulajdonság alapján. Az osztályozással szemben itt nincs megerősítés, az algoritmus maga keres kohéziót az adatok között, illetve közvetlenül nem befolyásolható, hogy milyen tulajdonság alapján alakuljon ki a csoport. Tipikusan az ügyfélkör pontosabb megismerésére használt eljárási technika.
Idősorelemzés: sorrendfüggő, vagy egymást követő adatsorok elemzése, pl. EKG görbék, hangok, tőzsdei árfolyamok, génszekvenciák tartoznak ide. Kevésbé nyilvánvaló, de pl. az aláírás-felismerés egyes esetei is ide sorolhatóak.
Gráfmintázok keresése vagy gráfbányászat: hálózatok- és azokban szereplő személyek viselkedésének elemzése, pl. véleményvezérek, kulcsoldalak (webkeresés) azonosítására.
Gyakori mintázatok és asszociációs szabályok kinyerése: előre nem ismert, de jellemző összefüggések vagy viselkedési minta feltárása a feladat.

Alkalmazási területek

Az adatbányászati eszköztárat és módszertant mindenhol lehet alkalmazni, ahol adatok keletkeznek. Az alkalmazási technikák terjedése a legjobban fizetett területektől terjed a kevéssé tőkeképes területek felé; éppen ezért megfigyelhető, hogy a banki és gyógyszerészeti alkalmazásoktól az autógyártáson át vezet az út a mezőgazdaság és az oktatás felé. Példák alkalmazási területekre:

Telekommunikáció: Elvándorlás előrejelzés; Díjcsomagok ajánlása; Keresztértékesítési ajánlatok; Közösségképzés; Árazás; Ügyfélszolgálat optimalizálása
Pénzügy: Kockázatkezelés; Hitelbírálat; Biztonsági pénzkihelyezési (pl. BASEL II/III) követelményeinek való megfelelés; Tőzsdei előrejelzés
Kereskedelem: Kampányoptimalizáció; Vásárlói kosár elemzése; Direkt reklámok; Vásárlói útvonalak feltérképezése; Vásárlói viselkedés-feltárás
Orvostudományok: Gépi diagnosztika (betegség-feltárás); Génkutatás
Gyógyszeripar: Gyógyszerkutatás; DNS elemzése; Hatásfokkutatás; Gyógyszerterítési és -fogyasztási predikció
Állatorvosi alkalmazások: Félautomatikus etológiai vizsgálatok (mintázatkeresés); Betegség-felderítés
Biztonságtechnika: Epizódkutatás; Csalásdetekció; Bűncselekmény-felismerés; Arcfelismerés
Mezőgazdaság: Viselkedés-elemzés; Távérzékelés; Génjavítás; Élőkörnyezeti hatáselemzés
Autóipar: Gyalogos-felismerés; Táblafelismerés; Baleseti helyzet-felismerés
Sport: Teljesítmény-elemzés
Katonai alkalmazások: Objektumazonosítás (pl. barát-ellenség)
Oktatás: Ideális tanulási menetrend készítése; Teljesítmény-predikció
Régészet: Lelőhely-keresés; Tárgydetekció; Korbecslés

Adatbányászati szoftverek

A leggyakrabban használt adatbányászati szoftverek:

IBM SPSS MODELLER
SAS
Microsoft Analyis Server
RapidMiner
Konstanz Information Miner (KNIME)
Orange Canvas
Weka
Oracle Data Miner (ODM)
R
Python
Voice Analytics^[5]

Etika, adatvédelem

Az adatbányászat rengeteg etikai gondot vet fel lényegéből adódóan. Az adatok tárolásához az ügyfelek hozzájárulnak általában, mert enélkül sok helyen nem is kaphatnak szolgáltatást (pl. telekommunikációs vagy pénzügyi szektorban a számlázás, tranzakciók követése az ügyfél számára is elengedhetetlen). Azonban azt is tudatni kell velük, hogy mire lesz pontosan felhasználva a tárolt adat. Ez az adatbányászat esetében csak ritkán teljesíthető, mivel a folyamat során talált minták alapján derül ki a felhasználási terület. A másik lehetséges út, hogy ha az illető nem járul hozzá, hogy adatait adatbányászatra felhasználják, ekkor azonban amíg sok ember fog hozzájárulni adatai általános, adatbányászati célú felhasználásához, úgy mindig elég adat lesz, hogy az egyén adatait a tanító adatbázisból kihagyva rá is érvényes modellt kapjunk, amit aztán az üzleti logikába implementáljunk.

Jegyzetek

↑ Frawley, W. J., Piatetsky-Shapiro, G., & Matheus, C. J. (1992). „Knowledge Discovery in Databases: An Overview”. AI Magazine 13 (3), 57-70. o.
↑ SAS Institute; SAS Enterprise Miner - SEMMA, 2010
↑ Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). „From Data Mining to Knowledge Discovery in Databases”. AI Magazine 17, 37-54. o.
↑ Shearer, C. (2000). „The CRISP-DM Model: The New Blueprint for Data Mining”. Journal of Data Warehousing 5 (4), 13-22. o.
↑ Hivatalos oldala

További információk

http://adatbanyaszat.lap.hu/
Dr. Bodon Ferenc Adatbányászati algoritmusok. Szabadon letölthető egyetemi jegyzet: http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/index.html
https://web.archive.org/web/20050828235330/http://www.spss.hu/
Fajszi B., Zimmer M.: Adatbányászat: A rejtőzködő lehetőségek tudománya, KFKI dokumentum (letölthető – PDF)
Jiawei Han és Micheline Kamber "Data Mining" című könyvének weboldala. A könyv megjelent magyarul is
Lukács András előadásának (ELTE) fóliái és kéziratai: [1]
http://adatbanyaszat.blog.hu/ – Hazai blog az adatbányászatról
Takács Dániel előadása
http://www.rapid-i.com – Rapid Miner
http://www.knime.org – Konstanz Information Miner (KNIME)
Pang-Ning Tan–Michael Steinbach–Vipin Kumar: Adatbányászat. Alapvetés; Panem Könyvek, Budapest, 2012
Kvantitatív szövegelemzés és szövegbányászat a politikatudományban; szerk. Sebők Miklós; L'Harmattan, Budapest, 2016
Sebők Miklós–Ring Orsolya–Máté Ákos: Szövegbányászat és mesterséges intelligencia R-ben; Typotex, Budapest, 2021

Informatikai portál • összefoglaló, színes tartalomajánló lap

[1] Frawley, W. J., Piatetsky-Shapiro, G., & Matheus, C. J. (1992). „Knowledge Discovery in Databases: An Overview”. AI Magazine 13 (3), 57-70. o.

[2] SAS Institute; SAS Enterprise Miner - SEMMA, 2010

[3] Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). „From Data Mining to Knowledge Discovery in Databases”. AI Magazine 17, 37-54. o.

[4] Shearer, C. (2000). „The CRISP-DM Model: The New Blueprint for Data Mining”. Journal of Data Warehousing 5 (4), 13-22. o.

[5] Hivatalos oldala

[1]

[2]

[3]

[4]

[5]