V minulém čísle softwarového Quasu jsme se podívali na zoubek způsobům, jimiž se dají prezentovat data BI. Tomu předcházelo povídání o nástrojích SQL Serveru pro analýzy dat. Všechny články našeho nevyhlášeného seriálu na téma Business Intelligence najdete na www.daquas.cz (zkuste hledat pod heslem BI experts). A o čem bude páté setkání?

externí autořiexterní autoři
SoftwareSoftware
21.6.2011 11:27:0021.6.2011 11:27:00

externí autoři

externí přispěvatelé magazínu softwarový QUAS

Microsoft

Články o různých produktech Microsoft, které nemají vlastní seriály
  1. Sedm důvodů pro Microsoft Office 2007 SB Edition
  2. Správný čas pro Microsoft Office 2007!
  3. Windows Product Activation
  4. Microsoft Expression 2
  5. SBS, EBS… aneb naše malé už i pro velké
  6. Jak dlouho si vystačíte se starými verzemi
  7. Migrace ze SourceSafe na Team Foundation Server
  8. Fenomén Windows 7
  9. Office 2007 a Vy
  10. Windows Vista a Visual Studio
  11. Dobře upletená síť
  12. SQL Server – mozek vaší organizace: Postarejte se o něj!
  13. Windows 7? Teď je ještě stihnete!
  14. Windows 7 - další dotek...
  15. Co to pořád s těmi licencemi máte?!
  16. Dokonalá komunikace
  17. Windows Essential Business Server
  18. Virtualizace ve sféře Small Businessu
  19. Windows Server 2008 R2
  20. Instalace Exchange Serveru 2010
  21. Exchange Server 2010
  22. Group Policy Preferences: báječný doplněk vašich politik!
  23. Novinky v Team Foundation Serveru 2010
  24. SharePoint – velká posila vašeho týmu
  25. BPOS: vskutku atraktivní hostitel
  26. Office 2010 ve firmě i doma,zadarmo i za peníze
  27. Expression Studio 4 Web Professional skoro zadarmo?
  28. Už není proč čekat: SharePoint 2010
  29. Nový způsob komunikace – Office Communicator, Live Meeting
  30. Licence pro desktopy v datacentrech: VDA, VDI, VECD
  31. Visual Studio Team Foundation Server 2010
  32. Business Inteligence pro každého: PowerPivot
  33. Visual Studio Test Professional 2010
  34. Software Assurance for IT
  35. Aktuality společnosti Microsoft
  36. VDI Standard Suite a CITRIX
  37. Expression Studio 4 ULTIMATE
  38. Enrollment for Education Solutions (EES)
  39. WINDOWS 7 Upgrade s SA
  40. Internet Explorer 9
  41. SP1 pro WINDOWS je tady!
  42. Forefront Endpoint Protection 2010 - cesta k optimalizaci provozu desktopů
  43. Zcela jiný pohled na zabezpečení dat
  44. Bezpečnost, dostupnost, výkon
  45. Mějte informace po ruce. V SharePointu.
  46. Průvodce městem E CAL Town
  47. Aktuality společnosti Microsoft
  48. Aplikační servery v cloudu – vítaná změna podmínek
  49. Produkty System Center pro vaše pohodlí
  50. Opalis(ace)
  51. Úspory v datových centrech
  52. Office 365 aneb produktivita mezi nebem a zemí
  53. Jak vybrat licenční model pro poskytování IT služeb?
  54. Data mining aneb dolování dat
  55. Požadavky v organizaci a jejich vyřízení
  56. Dodejte své firmě energii jádra!
  57. Windows Server 2008 R2
  58. Exchange Server 2010 – víc než jen Mail Server
  59. Microsoft SharePoint 2010
  60. LYNC Standard CAL jako součást CORE CAL
  61. Forefront Endpoint Protection 2010
  62. SCCM: Chodí to dobře. A seje to!
  63. Aktuality společnosti Microsoft
  64. Kam míří Microsoft SQL Server 2012
  65. SQL Server 2012: chystané licenční novinky
  66. Windows Intune
  67. Microsoft Product Activation
  68. Konečně konec licencím? Aneb jasná zpráva o licencích v mracích.
  69. Konečně konec licencím? Aneb jasná zpráva o licencích v mracích PODRUHÉ.
  70. Konečně konec licencím? Aneb jasná zpráva o licencích v mracích POTŘETÍ.
  71. Konečně konec licencím? Aneb jasná zpráva o licencích v mracích POČTVRTÉ.
  72. Konečně konec licencím? Aneb jasná zpráva o licencích v mracích Q & A.
  73. Sleva 15 % na licence Office 2010
  74. Síla mraku výhodně
  75. Office 365 s ostružinkou
  76. Studenti a legální software
  77. Mráčky a zase mráčky
  78. System Center 2012: licenční změny
  79. CRM? Zapomeňte na písmeno C
  80. Komunikace 21. století pro všechny…
  81. Co nikdy nedělat s SBS 2008/2011
  82. Slevy pro vývojáře
DAQUAS
+420 222 512 201
+420 603 442 434
daquas@daquas.cz
Anny Letenské 7, Praha 2

Data mining aneb dolování dat

V minulém čísle softwarového Quasu jsme se podívali na zoubek způsobům, jimiž se dají prezentovat data BI. Tomu předcházelo povídání o nástrojích SQL Serveru pro analýzy dat. Všechny články našeho nevyhlášeného seriálu na téma Business Intelligence najdete na www.daquas.cz (zkuste hledat pod heslem BI experts). A o čem bude páté setkání?

Analytické služby SQL Serveru obsahují nástroje pro data mining. Tento pojem je však do značné míry opředen závojem tajemství. Normální člověk si pod dolováním dat, což je doslovný překlad slovního spojení data mining, může představit prakticky cokoliv od ad hoc dotazu přes řezání dat z OLAP (Online Analytical Processing) v kontingenčních tabulkách až po plně automatizovanou pokročilou statistickou analýzu. Vezměme si tedy krumpáč, plivněme si do dlaní a pojďme se na to dolování trošičku podívat.
Pojem data mining se prvně vyskytl již v 60. letech minulého století s rozvojem výpočetní techniky. Jednalo se o využívání regresní analýzy a o první rozhodovací stromy. Od té doby data mining, stejně jako celá oblast IT, prošel značným vývojem.
Co tedy tento pojem znamená ve světě Microsoft SQL Serveru? Jedná se o proces analýzy dat za účelem objevování skrytých souvislostí. Tomuto typu data miningu se někdy říká „dobývání znalostí z databází“ (anglicky KDD, knowledge discovery in databases) nebo prediktivní analýza.

K čemu se dá data mining použít? 

Techniky data miningu se dají použít u téměř všech typů firemních aplikací a mohou odpovídat na různé typy otázek. Aplikací data miningu může být řízení rizika, rozdělení zákazníků do skupin, cílená reklama, předvídání budoucího vývoje, hledání anomálií (např. hledání pojistných podvodů), tvorba doporučení (nabídka zboží, o které by mohl mít klient zájem v online obchodech) a další. 
Základem je tzv. dataminingová struktura. Ta se skládá z tabulky dat, která chceme analyzovat (tzv. „case table“), a z dataminingových modelů, což jsou algoritmy, které se dělí do skupin podle použití. 
Klasifikační algoritmy předvídají jednu nebo více diskrétních veličin na základě vstupních atributů. Příkladem může být potřeba marketingového oddělení identifikovat charakteristiky současných zákazníků, zda si koupí produkt v budoucnosti. Na takovéto zákazníky potom může firma efektivněji zacílit reklamu. Na obrázku 1 vidíte možný výstup práce takovéhoto algoritmu: rozhodovací strom atributů, jež měly vazbu na nákup produktu, a na obrázku 2 síť návazností pro zobrazení síly vazby na nákup.

Regresní algoritmy na základě atributů předvídají jednu nebo více spojitých veličin, jako je například zisk či ztráta. Příkladem může být potřeba managementu předvídat měsíční prodeje produktu pro nadcházející rok. Pokud má management k dispozici informace o prodejnosti produktu za posledních pár let, dají se předvídat prodeje budoucí. V průběhu roku je možné předvídané hodnoty zpřesňovat na základě nově získaných informací. Na obrázku 3 vidíte graf předvídání budoucích prodejů vygenerovaný v Excelovém doplňku pro data mining.

Segmentační algoritmy rozdělují data do skupin s podobnými charakteristikami. Představte si skupinu zákazníků s podobnými demografickými vlastnostmi, kteří kupují podobné produkty. Tato skupina představuje tzv. „trs“ dat. V datech může existovat několik takovýchto „trsů“. Pokud se podíváme na atributy, které dohromady tvoří tento trs, můžeme lépe porozumět jednotlivým záznamům a pochopit souvislosti.
Asociační algoritmy hledají souvislosti mezi různými atributy v souhrnu dat. Nejčastějším použitím takovéhoto typu algoritmu může být analýza nákupního koše. Představte si online obchod sbírající informace, které produkty kupují uživatelé pohromadě. A když přijde zákazník nový a hází věci do košíku, nabídneme mu nevtíravou reklamou produkt, o který měli zájem zákazníci před ním. Co kdyby jej náhodou koupil? No, to by bylo príma.
Sekvenční algoritmy hledají a sumarizují sekvence v datech. Opět příklad s online obchodem. Provozovatel obchodu sbírá informace o uživatelích, zajímá ho, které stránky a v jakém pořadí uživatel navštíví. Může pak z nasbíraných informací vytvořit skupiny uživatelů s podobnými nakupovacími návyky, vytipovat stránky, které mají nejsilnější vazby na nákup konkrétních produktů, a pak s těmito informacemi dále pracovat.

Jak vidíte, využití pro data mining je značné. Kde tedy začít?

Na začátku je zapotřebí formulovat problém a zamyslet se nad možnými řešeními. Pro některé aplikace by mohla být lepší cestou OLAP databáze s reportováním. 
Dále je nutné posbírat vhodná data pro dolování. Většina společností už má v databázích spoustu obchodních informací, ze kterých by mohla těžit. Ať už to jsou systémy finanční, systémy plánování zdrojů (ERP – Enterprise Resource Planning), systémy řízení vztahu se zákazníkem (CRM – Customer Relationship Management), serverové logy, webové servery či jiné systémy.
Data bychom tedy měli. Jak ale praví lidová moudrost: „Co zaseješ, to sklidíš.“ Vstupní data by měla mít patřičnou kvalitu a měla by být vypovídající! Následují tedy úlohy čištění a transformací dat. 
Pokračuje se tvorbou a hodnocením modelu. Poté je potřeba výstupy předat kompetentním lidem (jako ostatně všechny výstupy BI analýz), tedy vytvořit různé reporty.
Jakmile je model hotový, je potřeba jej spravovat, aby reagoval na změny v datech a odrážel aktuální stav. O tyto náležitosti se mohou starat automatizované úlohy v podobě balíčků integračních služeb.
Data mining je rozsáhlá oblast technologií, která může pomoci získat z dat opravdové poklady lidem, kteří rozumí svému problému, rozumí svým datům, vědí, co chtějí získat, a vědí, jak na to.

J i ř í   N e o r a l   |   B I   e x p e r t s 
Společnost BI Experts, s.r.o. se stala první a doposud jedinou firmou působící v oblasti BI na českém trhu, která je držitelem kompetence Gold Business Intelligence.