Monday 16 October 2017

Glidande Medelvärde Orakel Funktion


Om du ser det här meddelandet har din webbläsare antingen inaktiverat eller stöder inte JavaScript. För att kunna använda de fullständiga funktionerna i det här hjälpsystemet, t. ex. sökning, måste din webbläsare ha JavaScript-stöd aktiverat. Vägda rörliga medelvärden med enkla rörliga medelvärden, varje data värde i kvotindotot där beräkningen utförs har samma betydelse eller vikt. Det är ofta fallet, särskilt i finansiell prisdataanalys, att mer kronologiskt aktuella data borde ha större vikt. I dessa fall är det ofta föredraget att väga rörligt medelvärde (eller exponentiellt rörligt medelvärde - se följande ämne). Tänk på samma tabell med försäljningsdatavärden i tolv månader: Att beräkna ett viktat rörligt medelvärde: Beräkna hur många dataintervaller som deltar i beräkningsrörelsens genomsnittliga beräkning (dvs storleken på beräkningskvoten). Om beräkningsfönstret sägs vara n, multipliceras det senaste datavärdet i fönstret med n, nästa senast multiplicerat med n-1, värdet före det multiplicerat med n-2 och så vidare för alla värden i fönstret. Dela summan av alla multiplicerade värden med summan av vikterna för att ge det vägda rörliga genomsnittet över det här fönstret. Placera det viktade rörliga genomsnittsvärdet i en ny kolumn i enlighet med den ovan angivna efterföljande positionen. För att illustrera dessa steg, överväga om ett 3 månaders vägt rörligt genomsnittligt försäljningsbehov i december är nödvändigt (med ovanstående tabell med försäljningsvärden). Termen quot3-monthquot innebär att beräkningen quotwindowquot är 3, därför att den beräknade väga genomsnittliga beräkningsalgoritmen för det här fallet ska vara: Eller om ett 3-månatviktat rörligt medelvärde utvärderades över hela det ursprungliga dataintervallet, skulle resultaten bli : 3 månaders viktad rörlig genomsnittlig Tidigare diskuterade vi hur man skriver rullande medelvärden i Postgres. Med populära efterfrågan visade du hur du gör detsamma i MySQL och SQL Server. Väl täcka hur du kommenterar bullrig diagram så här: Med en 7-dagars föregående medellinje så här: The Big Idea Vår första graf ovan är ganska bullriga och svår att få användbar information från. Vi kan släta ut det genom att planera ett 7-dagars medelvärde ovanpå de underliggande data. Detta kan göras med fönsterfunktioner, självförbindelser eller korrelerade undersökningar - väl täcka de första två. Bra start med föregående medelvärde, vilket innebär att medelvärdet på den 7: e månaden är genomsnittet för de första sju dagarna. Visuellt växlar detta spikarna i diagrammet till höger, eftersom en stor spik är medeltal under de följande sju dagarna. Först Skapa ett mellantalstabell Vi vill beräkna ett genomsnitt över de totala registreringarna för varje dag. Om vi ​​antar att vi har ett typiskt användartabell med en rad per ny användare och en tidsstämpel skapad, kan vi skapa vårt aggregat vårt anmälningsbord enligt följande: I Postgres och SQL Server kan du använda detta som en CTE. I MySQL kan du spara det som en tillfällig tabell. Postgres Rolling Average Lyckligtvis har Postgres fönsterfunktioner som är det enklaste sättet att beräkna ett löpande medelvärde. Denna fråga förutsätter att datumen inte har några luckor. Frågan är genomsnittlig under de senaste sju raderna, inte de senaste sju dagarna. Om dina data har luckor, fyll i dem med generateseries eller gå med i ett bord med täta datumrader. MySQL Rolling Average MySQL saknar fönsterfunktioner, men vi kan göra en liknande beräkning med hjälp av självförbindelser. För varje rad i vår räknatabell, går vi med i varje rad som var under de senaste sju dagarna och tar medeltalet. Den här frågan hanterar automatiskt datumluckor, eftersom vi tittar på rader inom ett datumintervall snarare än föregående N-rader. SQL Server Rolling Average SQL Server har fönsterfunktioner, så beräkning av rullande medel kan göras i antingen Postgres-stilen eller MySQL-stilen. För enkelhet, använde MySQL-versionen med en självförening. Detta är konceptuellt detsamma som i MySQL. De enda översättningarna är datumaddfunktionen och uttryckligen namngiven grupp efter kolumner. Andra medelvärden Vi fokuserade på 7-dagars efterföljande genomsnitt i detta inlägg. Om vi ​​ville titta på det 7-dagars ledande genomsnittet är det så enkelt att sortera datumen i andra riktningen. Om vi ​​ville titta på ett centrerat medelvärde, bruka vi: Postgres: rader mellan 3 föregående och 3 efter MySql: mellan signups. date - 3 och signups. date 3 i MySQL SQL Server: mellan dateadd (dag, -3, registreringar. Datum) och dateadd (dag, 3, signups. date) Jag kan enkelt beräkna MA200. Min aktuella fråga ser så här ut med basen som (välj ROWNUMBER () OVER (partition med STOCKCODE ORDER BY pxDate) rowno. A. Från pris a), base2 as (välj MA200160160160160160 fall då rowno gt 200 sedan avg delning av STOCKCODE ORDER BY pxDate ROWS MELLAN 200 PRECEDING OCH CURRENT ROW) annat null ände som MA200, MA100160160160160160 fall då rowno gt 100 sedan avg (stäng) ÖVER (delning av STOCKCODE ORDER BY pxDate ROWS MELLAN 100 PRECEDING OCH CURRENT ROW) annat null ände som MA100, MA50160160160160160 fall då rowno gt 50 sedan avg (stäng) ÖVER (partition med STOCKCODE ORDER BY pxDate ROWS MELLAN 50 PRECEDING AND CURRENT ROW) annat null ände som MA50, b. från bas b) välj från bas2. : 6 Vilken funktion som helst för att beräkna exponentiell glidande medelvärde i oracle. Inte det jag är medveten om. Om du beräknar en 5-årig EMA något som nedan skulle det vara lätt att skriva ett skript som returnerar koden för att beräkna EMA 200 Hälsningar Redigerad av: Etbin den 30.5.2010 18:29 om de senaste värdena borde ha större vikt, kraften ( (1 -: faktor), n) ska tillämpas tvärtom Tyvärr förstår jag inte vad din fråga är. När du har problem, skicka ett litet provdata (CREATE TABLE och INSERT-meddelanden) och de resultat du vill ha från den data. Anmäl alltid vilken version av Oracle du använder. Förenkla så mycket som möjligt. Till exempel, istället för att beräkna över 200 rader, lägger du till ett problem där du genomsnittligt över kanske 3 rader. datum Close stockname SMA (kunna använda avg, partition fråga och fönster att beräkna enkel rörlig avg) 03-MAJ-101601601601601603.69160160160160160CAPITALAND LIMITED null 04-MAJ-101601601601601603.66160160160160160CAPITALAND LIMITED null 05-MAJ-101601601601601603.63160160160160160CAPITALAND LIMITED null 06-MAJ-101601601601601603.6160160160160160CAPITALAND LIMITED null 07-MAJ-101601601601601603.63160160160160160CAPITALAND LIMITED 3,642 10-MAJ-101601601601601603.7160160160160160CAPITALAND LIMITED 3,644 03-MAJ-101601601601601601.68160160160160160YANLORD LAND GROUP LIMITED null 04-MAJ-101601601601601601.64160160160160160YANLORD LAND GROUP LIMITED null 05-MAJ-101601601601601601.61160160160160160YANLORD LAND GROUP LIMITED null 06- MAY-101601601601601601.6160160160160160YANLORD LAND GROUP LIMITED null 07-MAY-101601601601601601.61160160160160160YANLORD LAND GROUP LIMITED 1.628 10-MAY-101601601601601601.67160160160160160YANLORD LAND GROUP LIMITED 1.626 Med tanke på 2 aktieägare och yanlord för period mellan maj 3 till maj 10. Jag kan beräkna enkla 5 dagars glidande medelvärde med avg funktion. Problemet är att jag har problem med att hitta 5 dagars exponentiell glidande medelvärde. Obs! Min databas har för närvarande 1000 över lagringsdata i några år och jag har olika period av exponentiell glidande medelvärde att beräknas, det är därför jag frågar om det finns en funktion tillgänglig som jag inte är medveten om. Det finns ingen standardfunktion tillgänglig för att beräkna exponentiell glidande medelvärde. Men det här är typen av beräkning där modellklausulen verkligen lyser: Jag använde formeln som beskrivs här: download. oracledocscdE1203201docepm.921htmlirstudioframeset. htmdocscdE1203201docepm.921htmlirstudioirstudio-15-74.html 1 wow (0) wow. det är coolt. Jag visste inte att det var så kallt modell. Jag ska göra mer forskning på det och se om jag kan genomföra det. Tack så mycket21 SQL för analys och rapportering Behandling av NULLs som inmatning till fönsterfunktioner Fönsterfunktioner NULL semantik matchar NULL-semantiken för SQL-aggregatfunktioner. Annan semantik kan erhållas med användardefinierade funktioner, eller genom att använda DECODE - eller CASE-uttrycket i fönstret. Windowing funktioner med logisk offset En logisk offset kan specificeras med konstanter som RANGE 10 PRECEDING. Eller ett uttryck som utvärderas till en konstant, eller genom en intervallspecifikation som RANGE INTERVAL N DAY MONTH YEAR PRECEDING eller ett uttryck som utvärderas till ett intervall. Med logisk förskjutning kan det bara finnas ett uttryck i ordningsordlistan ORDER BY i funktionen, med typ som är kompatibel med NUMERIC om offset är numeriskt eller DATE om ett intervall är angivet. Exempel 21-7 Kumulativ aggregerad funktion Följande är ett exempel på kumulativa mängder enligt kund-ID per kvartal 1999: I det här exemplet definierar den analytiska funktionen SUM för varje rad ett fönster som börjar i början av partitionen (UNBOUNDED PRECEDING ) Och slutar som standard vid den aktuella raden. Nested SUM s behövs i det här exemplet eftersom vi utför ett SUM över ett värde som i sig är ett SUM. Nested aggregations används ofta i analytiska aggregatfunktioner. Exempel 21-8 Flytta aggregatfunktion Detta exempel på ett tidsbaserat fönster visar för en kund det glidande genomsnittet av försäljningen för den aktuella månaden och föregående två månader: Observera att de två första raderna för den tre månaders glidande genomsnittliga beräkningen i Utdatadata baseras på en mindre intervallstorlek än vad som anges eftersom fönsterberäkningen inte kan nå förbi data som hämtats av frågan. Du måste överväga de olika fönsterstorlekarna som finns vid gränserna för resultatuppsättningarna. Med andra ord kan du behöva ändra sökfrågan för att inkludera exakt vad du vill ha. Centrerad aggregatfunktion Beräkna fönsterfunktionsfunktioner centrerad runt den aktuella raden är rakt framåt. Detta exempel beräknar för alla kunder ett centrerat glidande medelvärde av försäljningen i en vecka i slutet av december 1999. Det finner ett genomsnitt av försäljningsvärdet för en dag före den aktuella raden och en dag efter den aktuella raden inklusive den aktuella raden också. Exempel 21-9 Centrerad aggregat Start - och slutraderna för varje produkts centrerad glidande medelberäkning i utgångsdata baseras på bara två dagar, eftersom fönsterberäkningen inte kan nå förbi data som hämtats av frågan. Användare måste överväga de olika fönsterstorlekarna som finns vid gränserna för resultatuppsättningar: Frågan kan behöva justeras. Windowing Aggregate Funktioner i Duplicates Närvaro Följande exempel illustrerar hur fönstergasfunktioner beräknar värden när det finns dubbletter, det vill säga när flera rader returneras för ett enda ordervärde. Frågan hämtar kvantiteten som säljs till flera kunder under ett visst tidsintervall. (Även om vi använder en inline-vy för att definiera vår basdatasats har den ingen särskild betydelse och kan ignoreras.) Frågan definierar ett rörligt fönster som löper från datumet för den aktuella raden till 10 dagar tidigare. Notera att RANGE-nyckelordet Används för att definiera fönsterklausulen i detta exempel. Det betyder att fönstret kan innehålla många rader för varje värde i intervallet. I det här fallet finns tre par rader med dubbla datumvärden. Exempel 21-10 Vridning av aggregatfunktioner med logiska förskjutningar I utgången i detta exempel returnerar alla datum utom 6 maj och 12 maj två rader med dubbla datum. Undersök de kommenterade numren till höger om utgången för att se hur värdena beräknas. Observera att varje grupp inom parentes representerar värdena som returneras för en enda dag. Observera att det här exemplet endast gäller när du använder RANGE-sökordet istället för ROWS-sökordet. Det är också viktigt att komma ihåg det med RANGE. du kan bara använda 1 ORDER BY-uttryck i den analytiska funktionen ORDER BY-klausulen. Med ROWS-sökordet kan du använda flera order genom uttryck i den analytiska funktionen ORDER BY-klausulen. Varierande fönsterstorlek för varje rad Det finns situationer där det är användbart att variera storleken på ett fönster för varje rad, baserat på ett angivet villkor. Till exempel kanske du vill göra fönstret större för vissa datum och mindre för andra. Antag att du vill beräkna det rörliga genomsnittet av aktiekursen under tre arbetsdagar. Om du har lika många rader för varje dag för alla arbetsdagar och inga arbetsdagar sparas, kan du använda en fysisk fönsterfunktion. Om de angivna villkoren inte är uppfyllda kan du dock beräkna ett glidande medelvärde genom att använda ett uttryck i parametrarna för fönsterstorlek. Uttryck i en fönsterstorlek kan göras i flera olika källor. uttrycket kan vara en referens till en kolumn i ett bord, såsom ett tidtabell. Det kan också vara en funktion som returnerar den lämpliga gränsen för fönstret baserat på värden i den aktuella raden. Följande uttalande om en hypotetisk aktiekursdatabas använder en användardefinierad funktion i sin RANGE-klausul för att ställa in fönsterstorlek: i detta uttalande är ttimekey ett datumfält. Här kan fn vara en PLSQL-funktion med följande specifikation: 4 om ttimekey är måndag, tisdag Om någon av de föregående dagarna är semester anpassar den räkningen på lämpligt sätt. Observera att när ett fönster anges med ett nummer i en fönsterfunktion med ORDER BY på en datumkolumn, omvandlas det till antalet dagar. Du kan också ha använt intervallet bokstavlig omvandlingsfunktion, som NUMTODSINTERVAL (fn (ttimekey), DAY) istället för bara fn (ttimekey) för att betyda samma sak. Du kan också skriva en PLSQL-funktion som returnerar ett INTERVAL datatypsvärde. Windowing Aggregate Functions With Physical Offsets För fönster uttryckta i rader, bör orderuttryck vara unika för att producera deterministiska resultat. Följande fråga är till exempel inte deterministisk eftersom tidpunkten inte är unik i denna resultatuppsättning. Exempel 21-11 Vridning av aggregatfunktioner med fysiska förskjutningar Ett sätt att hantera detta problem skulle vara att lägga till prodidkolumnen i resultatuppsättningen och ordern på både timeid och prodid. FIRSTVALUE och LASTVALUE Funktioner Funktionerna FIRSTVALUE och LASTVALUE gör att du kan välja de första och sista raderna från ett fönster. Dessa rader är särskilt värdefulla eftersom de ofta används som baslinjer i beräkningarna. Till exempel, med en partitionsinnehållande försäljningsdata beställd efter dag, kanske du frågar hur mycket var försäljningen per dag jämfört med periodens första försäljningsdag (FIRSTVALUE) eller kanske du vill veta, för en rad rader i ökande försäljningsorder , Vad var procentsatsen för varje försäljning i regionen jämfört med den största försäljningen (LASTVALUE) i regionen Om alternativet IGNORE NULLS används med FIRSTVALUE. det kommer att returnera det första icke-nullvärdet i uppsättningen, eller NULL om alla värden är NULL. Om IGNORE NULLS används med LASTVALUE. Det kommer att returnera det sista icke-nullvärdet i uppsättningen, eller NULL om alla värden är NULL. IGNORE NULLS-alternativet är särskilt användbart för att fylla ett inventeringsbord korrekt. Rapportera aggregatfunktioner När en fråga har bearbetats kan aggregerade värden som antalet resulterande rader eller ett medelvärde i en kolumn lätt beräknas inom en partition och görs tillgänglig för andra rapporteringsfunktioner. Rapporteringsaggregatfunktioner returnerar samma aggregeringsvärde för varje rad i en partition. Deras beteende med avseende på NULLs är detsamma som SQL-aggregatfunktionerna. Syntaxen är: Dessutom gäller följande villkor: En stjärna () är endast tillåten i COUNT () DISTINCT stöds endast om motsvarande aggregerade funktioner gör det möjligt att värdera expression1 och värdet expression2 kan vara något giltigt uttryck som innefattar kolumnreferenser eller aggregat. PARTITION BY-klausulen definierar de grupper som fönsterfunktionerna skulle beräknas på. Om PARTITION BY-klausulen är frånvarande beräknas funktionen över hela sökresultatet. Rapporteringsfunktioner kan bara visas i SELECT-klausulen eller BESTÄLLNINGS-klausulen. Den största fördelen med rapporteringsfunktioner är deras förmåga att göra flera dataöverföringar i ett enkelt sökblock och påskynda sökprestanda. Frågor som t ex antalet försäljare med försäljning mer än 10 av försäljningen av städer kräver inte kopplingar mellan separata sökblock. Tänk på frågan För varje produktkategori, hitta den region där den hade maximal försäljning. Den ekvivalenta SQL-frågan med funktionen MAX-rapporteringsaggregat skulle vara: Den inre frågan med den rapporterande aggregatfunktionen MAX (SUM (summa)): De fullständiga sökresultaten är: Exempel 21-12 Rapportering av aggregerat exempel Rapporteringsaggregat kombinerat med kapslade frågor aktiveras du svarar effektivt på komplexa frågor. Till exempel, om du vill veta de bästsäljande produkterna i dina mest betydande produktunderkategorier Följande är en fråga som hittar de 5 mest sålda produkterna för varje produktunderkategori som bidrar med mer än 20 av försäljningen inom produktkategorin: RATIOTOREPORT Funktion Funktionen RATIOTOREPORT beräknar förhållandet mellan ett värde och summan av en uppsättning värden. Om uttrycksvärdesuttrycket utvärderas till NULL. RATIOTOREPORT utvärderar även till NULL. Men det behandlas som noll för att beräkna summan av värden för nämnaren. Dess syntax är: I detta gäller följande: expr kan vara något giltigt uttryck som innefattar kolumnreferenser eller aggregat. PARTITION BY-klausulen definierar de grupper som RATIOTOREPORT-funktionen ska beräknas till. Om PARTITION BY-klausulen är frånvarande beräknas funktionen över hela sökresultatet. För att beräkna RATIOTOREPORT av försäljningen för varje kanal kan du använda följande syntax: LAGLEAD-funktioner LAG - och LEAD-funktionerna är användbara för att jämföra värden när relativa positioner av rader kan vara kända på ett tillförlitligt sätt. De arbetar genom att ange räkningen av rader som skiljer målraden från den aktuella raden. Eftersom funktionerna ger åtkomst till mer än en rad av ett bord samtidigt utan självförening, kan de förbättra bearbetningshastigheten. LAG-funktionen ger tillgång till en rad vid en given förskjutning före den aktuella positionen, och LEAD-funktionen ger åtkomst till en rad vid en given förskjutning efter nuvarande position. LAGLEAD Syntax Dessa funktioner har följande syntax: offset är en valfri parameter och standardvärden till 1. default är en valfri parameter och värdet returneras om offset faller utanför gränserna för tabellen eller partitionen. Se Data Densification for Reporting för information som visar hur man använder LAG LEAD-funktionerna för att göra jämförelsefrågor från period till period på glesdata. FIRSTLAST-funktioner FIRSTLAST-aggregatfunktionerna gör det möjligt att rangordna en dataset och arbeta med sina topprankade eller nedre rangerade rader. Efter att ha hittat raderna översta eller nedre, appliceras en aggregatfunktion till vilken som helst önskad kolumn. Det vill säga, FIRST LAST kan du rangera på kolumn A men returnera resultatet av ett aggregat som tillämpas på de först rankade eller senast rankade raderna i kolumn B. Detta är värdefullt eftersom det undviker behovet av självförening eller underfråga förbättra prestanda. Syntaxen för dessa funktioner börjar med en vanlig aggregatfunktion (MIN. MAX. SUM. AVG. COUNT. VARIANCE. STDDEV) som ger ett enda returvärde per grupp. För att ange vilken rankning som används, lägger FIRST LAST-funktionerna till en ny klausul som börjar med ordet KEEP. FIRSTLAST-syntax Dessa funktioner har följande syntax: Observera att orden ORDER BY kan ta flera uttryck. FIRSTLAST Som regelbundna aggregat Du kan använda FIRST LAST-familjen av aggregat som vanliga aggregatfunktioner. Exempel 21-15 FIRSTLAST Exempel 1 Följande fråga låter oss jämföra lägsta pris och listpris på våra produkter. För varje produktkategori inom kategorin Herrkläder returnerar den följande: Listpriset på produkten med lägsta minimipris Lägsta minimipris Listpriset på produkten med högsta minimipris Högsta minimipris FIRSTLAST Som rapporteringsaggregat Du kan också använda Första familjen aggregat som rapporterande aggregatfunktioner. Ett exempel är att beräkna vilka månader som hade störst och minsta ökning av huvudantalet under hela året. Syntaxen för dessa funktioner liknar syntaxen för något annat rapporteringsaggregat. Tänk på exemplet i exempel 21-15 för FIRSTLAST. Vad händer om vi ville hitta listpriserna på enskilda produkter och jämföra dem med listpriserna för produkterna i deras underkategori som hade högsta och lägsta minimipriser Följande fråga låter oss hitta den informationen för dokumentationsunderkategori med hjälp av FIRSTLAST som rapportering aggregat. Exempel 21-16 FIRSTLAST Exempel 2 Användning av FIRST och LAST-funktionerna som rapporteringsaggregat gör det enkelt att inkludera resultaten i beräkningar, sådan Lön som en procent av den högsta lönen. Omvända procentuella funktioner Med CUMEDIST-funktionen kan du hitta den kumulativa fördelningen (percentil) för en uppsättning värden. Emellertid är den inversa operationen (att hitta vilket värde som beräknas till en viss percentil) inte lätt att göra eller effektivt beräknat. För att lösa detta problem infördes PERCENTILECONT och PERCENTILEDISC-funktionerna. Dessa kan användas både som fönsterrapporteringsfunktioner såväl som normala aggregatfunktioner. Dessa funktioner behöver en sorteringsspecifikation och en parameter som tar ett percentilvärde mellan 0 och 1. Sortspecifikationen hanteras med hjälp av en ORDER BY-klausul med ett uttryck. När den används som en normal aggregatfunktion returnerar det ett enda värde för varje beställd set. PERCENTILECONT. vilken är en kontinuerlig funktion beräknad genom interpolering och PERCENTILEDISC. vilken är en stegfunktion som antar diskreta värden. Liksom andra aggregat fungerar PERCENTILECONT och PERCENTILEDISC på en grupp rader i en grupperad fråga, men med följande skillnader: De kräver en parameter mellan 0 och 1 (inklusive). En parameter som anges utanför detta intervall kommer att resultera i ett fel. Denna parameter ska anges som ett uttryck som utvärderas till en konstant. De kräver en sortspecifikation. Denna sortspecifikation är en ORDER BY-klausul med ett enda uttryck. Flera uttryck är inte tillåtna. Normal Aggregate Syntax Inverse Percentile Exempel Basis Vi använder följande fråga för att returnera de 17 raderna data som används i exemplen i det här avsnittet: PERCENTILEDISC (x) beräknas genom att skanna upp CUMEDIST-värdena i varje grupp tills du hittar den första som är större än eller lika med x. där x är det angivna percentilvärdet. För exempelsökningen där PERCENTILEDISC (0.5) är resultatet 5 000, vilket illustrerar följande: Resultatet av PERCENTILECONT beräknas genom linjär interpolering mellan raderna efter beställning. Att beräkna PERCENTILECONT (x). vi beräknar först radenummeret RN (1x (n-1)), där n är antalet rader i gruppen och x är det angivna procentila värdet. Slutresultatet av aggregatfunktionen beräknas genom linjär interpolering mellan värdena från rader vid radnummer CRN CEIL (RN) och FRN FLOOR (RN). Slutresultatet blir: PERCENTILECONT (X) if (CRN FRN RN), då (värdet av uttrycket från rad vid RN) annars (CRN - RN) (värdet på uttryck för rad vid FRN) (RN - FRN) uttryck för rad vid CRN). Tänk på föregående exempelfråga, där vi beräknar PERCENTILECONT (0.5). Här n är 17. Radnumret RN (1 0,5 (n-1)) 9 för båda grupperna. När vi lägger in detta i formeln, (FRNCRN9) returnerar vi värdet från rad 9 som resultat. Ett annat exempel är om du vill beräkna PERCENTILECONT (0.66). Det beräknade radnumret RN (1 0,66 (n-1)) (1 0,6616) 11,67. PERCENTILECONT (0.66) (12-11.67) (värdet av rad 11) (11.67-11) (värdet av rad 12). Dessa resultat är: Inverse percentileaggregatfunktioner kan visas i HAVING-klausulen av en fråga som andra befintliga aggregatfunktioner. Som rapporteringsaggregat Du kan också använda aggregatfunktionerna PERCENTILECONT. PERCENTILEDISC som rapporterande aggregatfunktioner. När den används som rapporteringsaggregatfunktioner, liknar syntaxen som andra rapporteringsaggregat. Denna fråga beräknar samma sak (median kreditgräns för kunder i denna resultatuppsättning, men rapporterar resultatet för varje rad i resultatuppsättningen, som visas i följande utmatning: Omvänd procentuella begränsningar för PERCENTILEDISC. Uttrycket i BESTÄLLNINGS-klausulen kan vara av någon datatyp som du kan sortera (numerisk, sträng, datum osv.). Men uttrycket i ORDER BY-klausulen måste vara en numerisk eller datetime-typ (inklusive intervaller) eftersom linjär interpolering används för att utvärdera PERCENTILECONT. Om uttrycket är av typ DATE, avrundas det interpolerade resultatet till den minsta enheten för typen. För en DATE-typ avrundas det interpolerade värdet till närmaste sekund, för intervalltyper till närmaste sekund (INTERVAL DAG TILL ANDRA) eller till månaden (INTERVALÅR TILL MÅNAD). I likhet med andra aggregat ignorerar de inverse percentilfunktionerna NULLs vid utvärdering av resultatet. Till exempel, när du vill hitta medianvärdet i en uppsättning, ignorerar Oracle Database NUL Ls och finner medianen bland icke-nullvärdena. Du kan använda NULLS FIRST NULLS LAST-alternativet i ORDER BY-klausulen, men de kommer att ignoreras eftersom NULLs ignoreras. Hypotetiska Rank - och Distributionsfunktioner Dessa funktioner ger funktionalitet användbar för vad-om-analys. Som ett exempel, vad skulle rankningen av en rad, om raden hypotetiskt infördes i en uppsättning andra rader Denna familj av aggregat tar ett eller flera argument av en hypotetisk rad och en ordnad grupp rader, som returnerar RANKEN. DENSERANK. PERCENTRANK eller CUMEDIST i raden som om den hypotetiskt infördes i gruppen. Hypotetisk Rank och Distributionssyntax Här avser konstant uttryck ett uttryck som utvärderas till en konstant, och det kan finnas mer än ett sådant uttryck som överförs som argument till funktionen. ORDER BY-klausulen kan innehålla ett eller flera uttryck som definierar sorteringsordningen som rankningen ska baseras på. ASC. DESC. NULLS FIRST. NULLS LAST-alternativen kommer att finnas tillgängliga för varje uttryck i ORDER BY. Exempel 21-17 Hypotetisk Rank och Distributionsexempel 1 Med hjälp av listprisdata från produkttabellen som används i hela detta avsnitt kan du beräkna RANK. PERCENTRANK och CUMEDIST för en hypotetisk tröja med ett pris på 50 för hur det passar inom var och en av tröjens underkategorier. Frågan och resultaten är: Till skillnad från de inversa percentilaggregaten kan ORDER BY-klausulen i sortspecifikationen för hypotetiska rang - och distributionsfunktioner ta flera uttryck. Antalet argument och uttryck i ORDER BY-klausulen ska vara desamma och argumenten måste vara konstanta uttryck av samma eller kompatibla typ till motsvarande ORDER BY-uttryck. Följande är ett exempel med två argument i flera hypotetiska rankningsfunktioner. Exempel 21-18 Hypotetisk Rank och Distribution Exempel 2 Dessa funktioner kan visas i HAVING-klausulen i en fråga precis som andra aggregatfunktioner. De kan inte användas som antingen rapportera aggregatfunktioner eller fönsterfunktionsfunktioner. Linjära regressionsfunktioner Regressionsfunktionerna stöder montering av en regressionslinje med vanliga minsta kvadrater till en uppsättning nummerpar. Du kan använda dem som både aggregatfunktioner eller fönsterfönster eller rapporteringsfunktioner. Funktionerna är följande: Oracle tillämpar funktionen på uppsättningen av (e1. E2) paren efter att ha eliminerat alla par för vilka någon av e1 eller e2 är null. e1 tolkas som ett värde av den beroende variabeln (a y-värde) och e2 tolkas som ett värde för den oberoende variabeln (ett x-värde). Båda uttrycken måste vara siffror. Regressionsfunktionerna beräknas alla samtidigt under ett enda pass genom data. De kombineras ofta med COVARPOP. COVARSAMP. och CORR funktioner. REGRCOUNT Funktion REGRCOUNT returnerar antalet icke-nollnummerpar som används för att passa regressionslinjen. Om den tillämpas på en tom uppsättning (eller om det inte finns några (e1, e2) par där ingen av e1 eller e2 är null) returnerar funktionen 0. REGRAVGY och REGRAVGX Funktioner REGRAVGY och REGRAVGX beräknar medelvärdena för den beroende variabeln och den oberoende variabel av regressionslinjen respektive. REGRAVGY beräknar medelvärdet av sitt första argument (e1) efter eliminering av (e1. E2) par där någon av e1 eller e2 är null. På liknande sätt beräknar REGRAVGX genomsnittet av sitt andra argument (e2) efter null eliminering. Båda funktionerna returnerar NULL om de tillämpas på en tom uppsättning. REGRSLOPE och REGRINTERCEPT Funktioner REGRSLOPE-funktionen beräknar lutningen på regressionslinjen anpassad till icke-null (e1, e2) par. REGRINTERCEPT-funktionen beräknar y-avsnitten för regressionslinjen. REGRINTERCEPT returnerar NULL när lutningen eller regressionsgenomsnittet är NULL. REGRR2 Funktion REGRR2-funktionen beräknar bestämningskoefficienten (vanligen kallad R-kvadrat eller godhet) för regressionslinjen. REGRR2 returnerar värden mellan 0 och 1 när regressionslinjen är definierad (linjens lutning är inte null), och den returnerar NULL annars. Ju närmare värdet är till 1, desto bättre passar regressionslinjen data. REGRSXX, REGRSYY och REGRSXY Funktioner REGRSXX. REGRSYY och REGRSXY funktioner används för att beräkna olika diagnostiska statistik för regressionsanalys. Efter eliminering av (e1, e2) par där någon av e1 eller e2 är null, gör dessa funktioner följande beräkningar: Exempel på linjär regressionstatistik Vissa vanliga diagnostiska statistik som åtföljer linjär regressionsanalys finns i Tabell 21-2, Gemensam diagnostikstatistik och deras Uttryck. Observera att det här släpper nya funktioner kan du beräkna alla dessa. Tabell 21-2 Gemensam diagnostisk statistik och deras uttryck Exempel på linjär regressionsberäkning I det här exemplet beräknar vi en regressionslinje med vanliga minsta kvadrater som uttrycker den mängd som säljs av en produkt som en linjär funktion av produktlistans pris. Beräkningarna grupperas av försäljningskanal. Värdena SLOPE. INTCPT. RSQR är lutning, avlyssning och bestämningskoefficient för regressionslinjen. Värdet (heltal) COUNT är antalet produkter i varje kanal för vilka både såld kvantitet och listprisdata finns tillgängliga. Frekventa objektsatser Istället för att räkna hur ofta en given händelse inträffar (till exempel hur ofta någon har köpt mjölk i livsmedelsbutiken), ger ofta föremål en mekanism för att räkna hur ofta flera händelser uppstår tillsammans (till exempel hur ofta någon har köpt både mjölk och spannmål tillsammans i mataffären). Inmatningen till funktionen Frequent-Itemsets är en uppsättning data som representerar samlingar av objekt (objektenheter). Några exempel på objekt kan vara alla produkter som en given kund köpte på en enda resa till mataffären (vanligtvis kallad en marknadskorg), de webbsidor som en användare åtkomst till under en enda session eller de finansiella tjänster som en Givet kunden använder. Begreppet vanligt förekommer är att hitta de föremål som oftast förekommer. Om du applicerar operatören med frequent-itemset till en matbutiks försäljningsdata, kan du till exempel upptäcka att mjölk och bananer är det vanligaste köpta paret. Frekventa föremål har därmed använts i affärsunderrättelsemiljöer under många år, med den vanligaste för marknadsanalysanalys i detaljhandeln. Frekventa objekt är integrerade med databasen, som fungerar ovanpå relationsdatabaser och nås via SQL. Denna integration ger ett antal viktiga fördelar: Program som tidigare berodde på frekventa objektet-operationer dra nytta av avsevärt förbättrad prestanda och enklare implementering. SQL-baserade program som inte tidigare använde vanliga föremål kan nu enkelt utökas för att utnyttja denna funktion. Frequent itemsets analys utförs med PLSQL-paketet DBMSFREQUENTITEMSETS. Se PLSQL-paket och typer referens för mer information. Övriga statistiska funktioner Oracle introducerar en uppsättning SQL-statistiska funktioner och ett statistikpaket, DBMSSTATFUNCS. I det här avsnittet visas några av de nya funktionerna tillsammans med grundläggande syntax. See PLSQL Packages and Types Reference for detailed information about the DBMSSTATFUNCS package and Oracle Database SQL Reference for syntax and semantics. Descriptive Statistics You can calculate the following descriptive statistics: Median of a Data Set Mode of a Data Set You can calculate the following parametric statistics: Spearmans rho Coefficient Kendalls tau-b Coefficient In addition to the functions, this release has a new PLSQL package, DBMSSTATFUNCS. It contains the descriptive statistical function SUMMARY along with functions to support distribution fitting. The SUMMARY function summarizes a numerical column of a table with a variety of descriptive statistics. The five distribution fitting functions support normal, uniform, Weibull, Poisson, and exponential distributions. WIDTHBUCKET Function For a given expression, the WIDTHBUCKET function returns the bucket number that the result of this expression will be assigned after it is evaluated. You can generate equiwidth histograms with this function. Equiwidth histograms divide data sets into buckets whose interval size (highest value to lowest value) is equal. The number of rows held by each bucket will vary. A related function, NTILE. creates equiheight buckets. Equiwidth histograms can be generated only for numeric, date or datetime types. So the first three parameters should be all numeric expressions or all date expressions. Other types of expressions are not allowed. If the first parameter is NULL. the result is NULL. If the second or the third parameter is NULL. an error message is returned, as a NULL value cannot denote any end point (or any point) for a range in a date or numeric value dimension. The last parameter (number of buckets) should be a numeric expression that evaluates to a positive integer value 0, NULL. or a negative value will result in an error. Buckets are numbered from 0 to ( n 1). Bucket 0 holds the count of values less than the minimum. Bucket( n 1) holds the count of values greater than or equal to the maximum specified value. WIDTHBUCKET Syntax The WIDTHBUCKET takes four expressions as parameters. The first parameter is the expression that the equiwidth histogram is for. The second and third parameters are expressions that denote the end points of the acceptable range for the first parameter. The fourth parameter denotes the number of buckets. Consider the following data from table customers. that shows the credit limits of 17 customers. This data is gathered in the query shown in Example 21-19 . In the table customers. the column custcreditlimit contains values between 1500 and 15000, and we can assign the values to four equiwidth buckets, numbered from 1 to 4, by using WIDTHBUCKET (custcreditlimit, 0, 20000, 4). Ideally each bucket is a closed-open interval of the real number line, for example, bucket number 2 is assigned to scores between 5000.0000 and 9999.9999. sometimes denoted 5000, 10000) to indicate that 5,000 is included in the interval and 10,000 is excluded. To accommodate values outside the range 0, 20,000), values less than 0 are assigned to a designated underflow bucket which is numbered 0, and values greater than or equal to 20,000 are assigned to a designated overflow bucket which is numbered 5 (num buckets 1 in general). See Figure 21-3 for a graphical illustration of how the buckets are assigned. You can specify the bounds in the reverse order, for example, WIDTHBUCKET ( custcreditlimit. 20000. 0. 4 ). When the bounds are reversed, the buckets will be open-closed intervals. In this example, bucket number 1 is ( 15000,20000 , bucket number 2 is ( 10000,15000 , and bucket number 4, is ( 0 ,5000. The overflow bucket will be numbered 0 ( 20000. infinity ), and the underflow bucket will be numbered 5 (- infinity. 0 . It is an error if the bucket count parameter is 0 or negative. The followin g query shows the bucket numbers for the credit limits in the customers table for both cases where the boundaries are specified in regular or reverse order. We use a range of 0 to 20,000. User-Defined Aggregate Functions Oracle offers a facility for creating your own functions, called user-defined aggregate functions. These functions are written in programming languages such as PLSQL, Java, and C, and can be used as analytic functions or aggregates in materialized views. See Oracle Data Cartridge Developers Guide for further information regarding syntax and restrictions. The advantages of these functions are: Highly complex functions can be programmed using a fully proced ural language. Higher scalability than other techniques when user-defined functions are programmed for parallel processing. Object datatypes can be processed. As a simple example of a user-defined aggregate function, consider the skew statistic. This calculation measures if a data set has a lopsided distribution about its mean. It will tell you if one tail of the distribution is significantly larger than the other. If you created a user-defined aggregate called udskew and applied it to the credit limit data in the prior example, the SQL statement and results might look like this: Before building user-defined aggregate functions, you should consider if your needs can be met in regular SQL. Many complex calculations are possible directly in SQL, particularly by using the CASE expression. Staying with regular SQL will enable simpler development, and many query operations are already well-parallelized in SQL. Even the earlier example, the skew statistic, can be created using standard, albeit lengthy, SQL. CASE Expressions Oracle now supports simple and searched CASE statements. CASE statements are similar in purpose to the DECODE statement, but they offer more flexibility and logical power. They are also easier to read than traditional DECODE statements, and offer better performance as well. They are commonly used when breaking categories into buckets like age (for example, 20-29, 30-39, and so on). The syntax for simple statements is: The syntax for searched statements is: You can specify only 255 arguments and each WHEN. THEN pair counts as two arguments. For a workaround to this limit, see Oracle Database SQL Reference . Suppose you wanted to find the average salary of all employees in the company. If an employees salary is less than 2000, you want the query to use 2000 instead. Without a CASE statement, you would have to write this query as follows, In this, foo is a function that returns its input if the input is greater than 2000, and returns 2000 otherwise. The query has performance implications because it needs to invoke a function for each row. Writing custom functions can also add to the development load. Using CASE expressions in the database without PLSQL, this query can be rewritten as: Using a CASE expression lets you avoid developing custom functions and can also perform faster. Creating Histograms With User-Defined Buckets You can use the CASE statement when you want to obtain histograms with user-defined buckets (both in number of buckets and width of each bucket). The following are two examples of histograms created with CASE statements. In the first example, the histogram totals are shown in multiple columns and a single row is returned. In the second example, the histogram is shown with a label column and a single column for totals, and multiple rows are returned. Example 21-21 Histogram Example 1 Example 21-22 Histogram Example 2 Data Densification for Reporting Data is normally stored in sparse form. That is, if no value exists for a given combination of dimension values, no row exists in the fact table. However, you may want to view the data in dense form, with rows for all combination of dimension values displayed even when no fact data exist for them. For example, if a product did not sell during a particular time period, you may still want to see the product for that time period with zero sales value next to it. Moreover, time series calculations can be performed most easily when data is dense along the time dimension. This is because dense data will fill a consistent number of rows for each period, which in turn makes it simple to use the analytic windowing functions with physical offsets. Data densification is the process of converting spare data into dense form. To overcome the problem of sparsity, you can use a partitioned outer join to fill the gaps in a time series or any other dimension. Such a join extends the conventional outer join syntax by applying the outer join to each logical partition defined in a query. Oracle logically partitions the rows in your query based on the expression you specify in the PARTITION BY clause. The result of a partitioned outer join is a UNION of the outer joins of each of the partitions in the logically partitioned table with the table on the other side of the join. Note that you can use this type of join to fill the gaps in any dimension, not just the time dimension. Most of the examples here focus on the time dimension because it is the dimension most frequently used as a basis for comparisons. Partition Join Syntax The syntax for partitioned outer join extends the ANSI SQL JOIN clause with the phrase PARTITION BY followed by an expression list. The expressions in the list specify the group to which the outer join is applied. The following are the two forms of syntax normally used for partitioned outer join: Note that FULL OUTER JOIN is not supported with a partitioned outer join. Sample of Sparse Data A typi cal situation with a sparse dimension is shown in the following example, which computes the weekly sales and year-to-date sales for the product Bounce for weeks 20-30 in 2000 and 2001: In this example, we would expect 22 rows of data (11 weeks each from 2 years) if the data were dense. However we get only 18 rows because weeks 25 and 26 are missing in 2000, and weeks 26 and 28 in 2001. Filling Gaps in Data We can take the sparse data of the preceding query and do a partitioned outer join with a dense set of time data. In the following query, we alias our original query as v and we select data from the times table, which we alias as t. Here we retrieve 22 rows because there are no gaps in the series. The four added rows each have 0 as their Sales value set to 0 by using the NVL function. Note that in this query, a WHERE condition was placed for weeks between 20 and 30 in the inline view for the time dimension. This was introduced to keep the result set small. Filling Gaps in Two Dimensions N-dimensional data is typically displayed as a dense 2-dimensional cross tab of (n - 2) page dimensions. This requires that all dimension values for the two dimensions appearing in the cross tab be filled in. The following is another example where the partitioned outer join capability can be used for filling the gaps on two dimensions: In this query, the WITH sub-query factoring clause v1. summarizes sales data at the product, country, and year level. This result is sparse but users may want to see all the country, year combinations for each product. To achieve this, we take each partition of v1 based on product values and outer join it on the country dimension first. This will give us all values of country for each product. We then take that result and partition it on product and country values and then outer join it on time dimension. This will give us all time values for each product and country combination. Filling Gaps in an Inventory Table An inventory table typically tracks quantity of units available for various products. This table is sparse: it only stores a row for a product when there is an event. For a sales table, the event is a sale, and for the inventory table, the event is a change in quantity available for a product. For example, consider the following inventory table: The inventory table now has the following rows: For reporting purposes, users may want to see this inventory data differently. For example, they may want to see all values of time for each product. This can be accomplished using partitioned outer join. In addition, for the newly inserted rows of missing time periods, users may want to see the values for quantity of units column to be carried over from the most recent existing time period. The latter can be accomplished using analytic window function LASTVALUE value. Here is the query and the desired output: The inner query computes a partitioned outer join on time within each product. The inner query densifies the data on the time dimension (meaning the time dimension will now have a row for each day of the week). However, the measure column quantity will have nulls for the newly added rows (see the output in the column quantity in the following results. The outer query uses the analytic function LASTVALUE. Applying this function partitions the data by product and orders the data on the time dimension column ( timeid ). For each row, the function finds the last non-null value in the window due to the option IGNORE NULLS. which you can use with both LASTVALUE and FIRSTVALUE. We see the desired output in the column repeatedquantity in the following output: Computing Data Values to Fill Gaps Examples in previous section illustrate how to use partitioned outer join to fill gaps in one or more dimensions. However, the result sets produced by partitioned outer join have null values for columns that are not included in the PARTITION BY list. Typically, these are measure columns. Users can make use of analytic SQL functions to replace those null values with a non-null value. For example, the following q uery computes monthly totals for products 64MB Memory card and DVD-R Discs (product IDs 122 and 136) for the year 2000. It uses partitioned outer join to densify data for all months. For the missing months, it then uses the analytic SQL function AVG to compute the sales and units to be the average of the months when the product was sold. If working in SQLPlus, the following two commands will wrap the column headings for greater readability of results: Time Series Calculations on Densified Data Densificatio n is not just for reporting purpose. It also enables certain types of calculations, especially, time series calculations. Time series calculations are easier when data is dense along the time dimension. Dense data has a consistent number of rows for each time periods which in turn make it simple to use analytic window functions with physical offsets. To illustrate, lets first take the example on Filling Gaps in Data. and lets add an analytic function to that query. In the following enhanced version, we calculate weekly year-to-date sales alongside the weekly sales. The NULL values that the partitioned outer join inserts in making the time series dense are handled in the usual way: the SUM function treats them as 0s. Period-to-Period Comparison for One Time Level: Example How do we use this feature to compare values across time periods Specifically, how do we calculate a year-over-year sales comparison at the week level The following query returns on the same row, for each product, the year-to-date sales for each week of 2001 with that of 2000. Note that in this example we start with a WITH clause. This improves readability of the query and lets us focus on the partitioned outer join. If working in SQLPlus, the following command will wrap the column headings for greater readability of results: In the FROM clause of the in-line view densesales. we use a partitioned outer join of aggregate view v and time view t to fill gaps in the sales data along the time dimension. The output of the partitioned outer join is then processed by the analytic function SUM. OVER to compute the weekly year-to-date sales (the weeklyytdsales column). Thus, the view densesales computes the year-to-date sales data for each week, including those missing in the aggregate view s. The in-line view yearoveryearsales then computes the year ago weekly year-to-date sales using the LAG function. The LAG function labeled weeklyytdsalesprioryear specifies a PARTITION BY clause that pairs rows for the same week of years 2000 and 2001 into a single partition. We then pass an offset of 1 to the LAG function to get the weekly year to date sales for the prior year. The outermost query block selects data from yearoveryearsales with the condition yr 2001, and thus the query returns, for each product, its weekly year-to-date sales in the specified weeks of years 2001 and 2000. Period-to-Period Comparison for Multiple Time Levels: Example While the prior example shows us a way to create comparisons for a single time level, it would be even more useful to handle multiple time levels in a single query. For example, we could compare sales versus the prior period at the year, quarter, month and day levels. How can we create a query which performs a year-over-year comparison of year-to-date sales for all levels of our time hierarchy We will take several steps to perform this task. The goal is a single query with comparisons at the day, week, month, quarter, and year level. The steps are as follows: We will create a view called cubeprodtime. which holds a hierarchical cube of sales aggregated across times and products . Then we will create a view of the time dimension to use as an edge of the cube. The time edge, which holds a complete set of dates, will be partitioned outer joined to the sparse data in the view cubeprodtime . Finally, for maximum performance, we will create a materialized view, mvprodtime. built using the same definition as cubeprodtime . For more information regarding hierarchical cubes, see Chapter 20, SQL for Aggregation in Data Warehouses. The materialized view is defined using the following statement: Step 1 Create the hierarchical cube view The materialized view shown in the following may already exist in your system if not, create it now. If you must generate it, please note that we limit the query to just two products to keep processing time short: Because this view is limited to two products, it returns just over 2200 rows. Note that the column HierarchicalTime contains string representations of time from all levels of the time hierarchy. The CASE expression used for the HierarchicalTime column appends a marker (0, 1. ) to each date string to denote the time level of the value. A 0 represents the year level, 1 is quarters, 2 is months, and 3 is day. Note that the GROUP BY clause is a concatenated ROLLUP which specifies the rollup hierarchy for the time and product dimensions. The GROUP BY clause is what determines the hierarchical cube contents. Step 2 Create the view edgetime, which is a complete set of date values edgetime is the source for filling time gaps in the hierarchical cube using a partitioned outer join. The column HierarchicalTime in edgetime will be used in a partitioned join with the HierarchicalTime column in the view cubeprodtime. The following statement defines edgetime : Step 3 Create the materialized view mvprodtime to support faster performance The materialized view definition is a duplicate of the view cubeprodtime defined earlier. Because it is a duplicate query, references to cubeprodtime will be rewritten to use the mvprodtime materialized view. The following materialized may already exist in your system if not, create it now. If you must generate it, please note that we limit the query to just two products to keep processing time short. Step 4 Create the comparison query We have now set the stage for our comparison query. We can obtain period-to-period comparison calculations at all time levels. It requires applying analytic functions to a hierarchical cube with dense data along the time dimension. Some of the calculations we can achieve for each time level are: Sum of sales for prior period at all levels of time. Variance in sales over prior period. Sum of sales in the same period a year ago at all levels of time. Variance in sales over the same period last year. The following example performs all four of these calculations. It uses a partitioned outer join of the views cubeprodtime and edgetime to create an in-line view of dense data called densecubeprodtime. The query then uses the LAG function in the same way as the prior single-level example. The outer WHERE clause specifies time at three levels: the days of August 2001, the entire month, and the entire third quarter of 2001. Note that the last two rows of the results contain the month level and quarter level aggregations. Note: To make the results easier to read if you are using SQLPlus, the column headings should be adjusted with the following commands. The commands will fold the column headings to reduce line length: Here is the query comparing current sales to prior and year ago sales: The first LAG function ( salespriorperiod ) partitions the data on gidp. cat. subcat. prod. gidt and orders the rows on all the time dimension columns. It gets the sales value of the prior period by passing an offset of 1. The second LAG function ( salessameperiodprioryear ) partitions the data on additional columns qtrnum. monnum. and daynum and orders it on yr so that, with an offset of 1, it can compute the year ago sales for the same period. The outermost SELECT clause computes the variances. Creating a Custom Member in a Dimension: Example In many OLAP tasks, it is helpful to define custom members in a dimension. For instance, you might define a specialized time period for analyses. You can use a partitioned outer join to temporarily add a member to a dimension. Note that the new SQL MODEL clause is suitable for creating more complex scenarios involving new members in dimensions. See Chapter 22, SQL for Modeling for more information on this topic. As an example of a task, what if we want to define a new member for our time dimension We want to create a 13th member of the Month level in our time dimension. This 13th month is defined as the summation of the sales for each product in the first month of each quarter of year 2001. The solution has two steps. Note that we will build this solution using the views and tables created in the prior example. Two steps are required. First, create a view with the new member added to the appropriate dimension. The view uses a UNION ALL operation to add the new member. To query using the custom member, use a CASE expression and a partitioned outer join. Our new member for the time dimension is created with the following view: In this statement, the view timec is defined by performing a UNION ALL of the edgetime view (defined in the prior example) and the user-defined 13th month. The gidt value of 8 was chosen to differentiate the custom member from the standard members. The UNION ALL specifies the attributes for a 13th month member by doing a SELECT from the DUAL table. Note that the grouping id, column gidt. is set to 8, and the quarter number is set to 5. Then, the second step is to use an inline view of the query to perform a partitioned outer join of cubeprodtime with timec. This step creates sales data for the 13th month at each level of product aggregation. In the main query, the analytic function SUM is used with a CASE expression to compute the 13th month, which is defined as the summation of the first months sales of each quarter. The SUM function uses a CASE to limit the data to months 1, 4, 7, and 10 within each year. Due to the tiny data set, with just 2 products, the rollup values of the results are necessarily repetitions of lower level aggregations. For more realistic set of rollup values, you can include more products from the Game Console and Y Box Games subcategories in the underlying materialized view.

No comments:

Post a Comment