Thursday 9 November 2017

Ruchowa średnia oracle funkcja


Jeśli widzisz ten komunikat, Twoja przeglądarka została wyłączona lub nie obsługuje JavaScript. Aby korzystać z pełnych funkcji tego systemu pomocy, takich jak wyszukiwanie, przeglądarka musi mieć włączoną obsługę JavaScript. Średnie ruchome ważone za pomocą średnich ruchów średnich, każda wartość danych w kwotowaniu, w którym dokonywane jest obliczanie, ma równe znaczenie lub wagę. Często zdarza się, zwłaszcza w analizie danych o cenach finansowych, że bardziej chronologicznie najnowsze dane powinny mieć większą wagę. W takich przypadkach często preferowana jest średnia ważona ruchoma ważona (lub średnia ruchoma ważona - patrz następująca tematyka). Rozważ tę samą tabelę wartości danych Sprzedaży przez dwanaście miesięcy: obliczanie średniej ruchomej ważonej: obliczyć, ile interwale danych uczestniczą w obliczaniu średniej ruchomej (tj. Wielkości kalkulatora kwotowego). Jeśli okno obliczeniowe ma być n, to najnowsza wartość danych w oknie jest pomnożona przez n, kolejny ostatni pomnożony przez n-1, wartość poprzedzającą tę pomnożoną przez n-2 i tak dalej dla wszystkich wartości w oknie. Podziel wartość sumy wszystkich wartości mnożonych przez sumę ciężarów w celu nadania średniej ważonej średniej ruchomej w tym oknie. W kolumnie nowej umieść średnią ważoną wartość średnią, zgodnie ze opisanym powyżej ustawieniem średniej pozycji docelowej. Aby zilustrować te kroki, należy rozważyć, czy wymagana jest miesięczna średnia ważona sprzedaży w grudniu (przy użyciu powyższej tabeli wartości sprzedaży). Określenie kwot3-miesięcznej kwoty sugeruje, że kwotową kwotą kwotową jest 3, dlatego ważny algorytm obliczania średniej ważonej ruchomej w tym przypadku powinien wynosić: lub, jeśli średnia ważona w ciągu trzech miesięcy została oceniona na cały pierwotny zakres danych, wyniki będą : 3-miesięczna średnia ważona Przewaga średnia Poprzednio omówiliśmy, jak pisać średnie kroczące w Postgresie. Poprzez popularne zapotrzebowanie pokazano, jak to zrobić w MySQL i SQL Server. Dobrze pokrywamy opisowanie hałaśliwych wykresów: 7-dniowa poprzednia średnia linia: Wielka idea Nasz pierwszy wykres powyżej jest dość hałaśliwy i trudny do uzyskania przydatnych informacji. Możemy to wygładzić, spisując średnią na 7 dni na podstawie danych bazowych. Można to zrobić z funkcjami okien, samonastawów lub skorelowanymi podukwerami - dobrze zakryj pierwsze dwa. Zacznijmy od poprzedniej średniej, co oznacza, że ​​średni punkt w dniu 7 miesiąca jest średnią z pierwszych siedmiu dni. Wizualnie przesuwa kolczyki na wykresie po prawej stronie, ponieważ w ciągu następnych siedmiu dni średnia ułamka jest uśredniona. Po pierwsze, utworzyć tabelę średniej liczby głosów Chcemy obliczyć średnią w stosunku do wszystkich rejestracji dla każdego dnia. Zakładając, że mamy typową tabelę użytkowników z wierszem dla każdego nowego użytkownika i utworzony timestamp, możemy utworzyć naszą zbiorczą tabelę rejestracji tak: W Postgresie i SQL Server możesz użyć tego jako CTE. W MySQL można zapisać ją jako tymczasową tabelę. Postgres Rolling Average Na szczęście Postgres ma funkcje okienkowe, które są najprostszym sposobem obliczania średniej bieżącej. To zapytanie zakłada, że ​​daty nie mają luk. Zapytanie jest uśrednione w ciągu ostatnich siedmiu wierszy, a nie w ciągu ostatnich siedmiu dni. Jeśli Twoje dane zawierają luki, wypełnij je generacjami lub łącz się ze stołem o gęstych wierszach daty. MySQL Rolling Average MySQL brakuje funkcji okienkowych, ale możemy wykonać podobne obliczenia przy użyciu samozapłonów. Dla każdego wiersza w tabeli zliczania dołączamy do każdego wiersza w ciągu ostatnich siedmiu dni i średniej. To zapytanie automatycznie obsługuje luki w dłuższej iloś ci, gdyż szukamy wierszy w zakresie dat, a nie w poprzednich n wierszach. SQL Server Rolling Average SQL Server ma funkcje okienkowe, więc obliczanie średniej kroczki można wykonać w stylu Postgres lub stylu MySQL. Dla uproszczenia używaliśmy wersji MySQL z własnym połączeniem. Jest to pojęciowo takie samo jak w MySQL. Jedyne tłumaczenia to funkcja dateadd i wyraźnie nazwana grupą według kolumn. Pozostałe średnie Skupiamy się na 7-dniowej średniej końcowej w tym poście. Gdybyśmy chcieli przyjrzeć się 7-dniowej średniej, to tak proste, jak sortowanie dat w innym kierunku. Jeśli chciałbyś spojrzeć na średnią, użyj wed: Postgres: wiersze między 3 poprzedzające i 3 następujące po stronie MySql: między signups. date - 3 i signups. date 3 w MySQL SQL Server: między dateadd (day, -3, signups. data) i dateadd (dzień, 3, signups. date) Jestem w stanie łatwo obliczyć MA200. Moje obecne zapytanie wygląda tak samo, że z bazą jako (wybierz ROWNUMBER () OVER (partycję przez STOCKCODE ORDER BY pxDate) rowno a. Z ceny a), base2 as (wybierz MA200160160160160160 przypadku gdy rowno gt 200 następnie avg (close) OVER partycjonowanie przez STOCKCODE ORDER BY pxDate ROWS między 200 PRECEDING AND CURRENT ROW) else null jako MA200, MA100160160160160160 przypadku, gdy rowno gt 100 następnie avg (close) OVER (partycjonowanie przez STOCKCODE ORDER BY pxDate ROWS między 100 PRECISE i CURRENT ROW) else null end jako MA100, MA50160160160160160 przypadku, gdy rowno gt 50 następnie avg (close) OVER (partycjonowanie przez STOCKCODE ORDER BY pxDate ROWS między 50 PRECEDING AND CURRENT ROW) else null jako MA50, b. z bazy b) wybierz z bazy2. : 6 Każda funkcja obliczania wykładniczej średniej ruchomej w oracle. Nie to, że mam świadomość. Jeśli obliczanie 5-ej okresowej EMA jest poniżej, wystarczy napisać skrypt zwracający kod do obliczenia EMA 200 Pozdrowienia Edytowane przez: Etbin dnia 30.5.2017 18:29, jeśli ostatnie wartości powinny mieć większą wagę, moc ( (1 - współczynnik 1), n) należy stosować na odwrót Przepraszam, nie rozumiem, o co chodzi. Gdy masz problem, napisz trochę przykładowych danych (instrukcje CREATE TABLE i INSERT) i wyniki, które chcesz z tych danych. Zawsze wspomnij o jakiej wersji Oracle używasz. Uprość jak najwięcej. Na przykład, zamiast uśredniania ponad 200 wierszy, napisz problem, w którym możesz przeciętnie przez około 3 wiersze. data blisko stockname SMA (w stanie używać AVG zapytanie partycji i okienkowania obliczyć proste poruszający AVG) 03-maj-101601601601601603.69160160160160160CAPITALAND LIMITED zerowy 04-maj-101601601601601603.66160160160160160CAPITALAND LIMITED zerowy 05-maj-101601601601601603.63160160160160160CAPITALAND LIMITED zerowy 06-maj-101601601601601603.6160160160160160CAPITALAND LIMITED zerowy 07-maj-101601601601601603.63160160160160160CAPITALAND LIMITED 3,642 10-maj-101601601601601603.7160160160160160CAPITALAND LIMITED 3,644 03-maj-101601601601601601.68160160160160160YANLORD LAND GROUP LIMITED zerowy 04-maj-101601601601601601.64160160160160160YANLORD LAND GROUP LIMITED zerowy 05-maj-101601601601601601.61160160160160160YANLORD LAND GROUP LIMITED zerowy 06- MOŻLI-101601601601601601.6160160160160160YANLORD GRUPA KRAJOWA LIMITED null 07-MAY-101601601601601601.61160160160160160YANLORD LAND GROUP LIMITED 1.628 10-MAY-101601601601601601.67160160160160160YANLORD LAND GROUP LIMITED 1.626 Biorąc pod uwagę 2 kapitał zapasowy i yanlord za okres pomiędzy 3 maja a 10. Mogę obliczyć prostą 5 dniową średnią ruchliwą przy użyciu funkcji średniej. Problem polega na tym, że mam problem ze znalezieniem 5-dniowej wykładniczej średniej ruchomej. Uwaga: Moja baza danych ma obecnie ponad 1000 danych dotyczących zapasów od kilku lat i mam inny okres wyliczania średniej ruchomej, dlatego też pytam, czy jest dostępna funkcja, na którą nie zdaję sobie sprawy. Nie ma standardowej funkcji do obliczania wykładniczej średniej ruchomej. Ale jest to typ obliczeń, w których klauzula modelu naprawdę świeci: Użyłem tej formuły jak opisano poniżej: download. oracledocscdE1203201docepm.921htmlirstudioframeset. htmdocscdE1203201docepm.921htmlirstudioirstudio-15-74.html 1 quot (0) (0) wow. to jest fajne. nie wiedziałem, że to był taki model zadzwonienia. Zrobię więcej badań na ten temat i zobaczę, czy mogę na niego wdrożyć. dzięki part21 SQL do analizy i raportowania NULLs jako funkcji wejściowych do okien Funkcje okna Semantyka NULL odpowiada semantyce NULL dla funkcji sumowania SQL. Inne semantyki można uzyskać za pomocą funkcji zdefiniowanych przez użytkownika lub używając wyrażenia DECODE lub CASE w funkcji okna. Funkcje przeszukiwania z przesunięciem logicznym Przesunięcie logiczne można określić za pomocą stałych, takich jak ZWRACA 10 PRECEDING. lub wyrażenie, które ocenia się na stałą lub na podstawie specyfikacji przedziału, takiego jak RANGE INTERVAL N DAY MONTH NOWEJ PRECYZJI lub wyrażenie, które ocenia się na przedział. Z logicznym przesunięciem w funkcji może być tylko jedna wyrażenie z listy wyrażeń ORDER BY, z typem zgodnym z NUMERIC, jeśli przesunięcie jest liczbowe, lub DATE jeśli podano przedział. Przykład 21-7 Skumulowana funkcja agregowania Poniższy przykład ilustruje łączne kwoty w podziale według identyfikatora klienta według kwartału 1999: W tym przykładzie funkcja analityczna SUM definiuje dla każdego wiersza okno, które rozpoczyna się na początku partycji (ZAWIERAJĄCEJ PRECYZACJĘ ) i kończy się domyślnie w bieżącym wierszu. W tym przykładzie potrzebne są zagnieżdżone sumy SUM, ponieważ wykonujemy SUM nad wartością, która jest samą sumą. Zagęszczone agregaty są często stosowane w funkcjach agregacji analitycznej. Przykład 21-8 Ruchoma agregowana funkcja Ten przykład okna czasowego pokazuje, dla jednego klienta, średnią ruchową sprzedaży w bieżącym miesiącu i poprzedzającym dwa miesiące: Zauważ, że pierwsze dwa wiersze dla obliczania średniej ruchomej trzystu miesięcy w dane wyjściowe są oparte na mniejszym odstępie niż określono, ponieważ obliczenia okna nie mogą przekroczyć danych pobranych przez zapytanie. Musisz rozważyć różne rozmiary okien widoczne na obramowaniach zestawów wyników. Innymi słowy, może być konieczne zmodyfikowanie zapytania, aby dokładnie określić, co chcesz. Wyśrodkowanie funkcji agregującej Obliczanie funkcji agregowania okienkowania wokół bieżącego wiersza jest proste. Ten przykład oblicza średnią ruchową średnią sprzedaży dla wszystkich klientów na tydzień przed końcem grudnia 1999 r. Średnia średnia sprzedaży w ciągu jednego dnia poprzedzającego bieżący wiersz i jeden dzień po bieżącym wierszu, łącznie z bieżącym wierszem. Przykład 21-9 Wyśrodkowany agregat Pierwsze i końcowe wiersze dla każdego obliczonego średniej ruchomej obliczenia w danych wyjściowych są oparte tylko na dwóch dniach, ponieważ obliczenia okna nie mogą przekroczyć danych pobranych przez zapytanie. Użytkownicy muszą rozważyć różne rozmiary okien znajdujące się na obrzeżach zestawów wyników: kwerenda może wymagać korekty. Funkcje agregujące okienkowanie w obecności duplikatów Poniższy przykład ilustruje, jak obliczane są funkcje agregacji okiennych, gdy występują duplikaty, czyli zwracane są wiele wierszy dla pojedynczej wartości zamówienia. Kwerenda pobiera ilość sprzedaną kilku klientom w określonym przedziale czasowym. (Chociaż korzystamy z widoku w tekście, aby zdefiniować nasz zestaw danych podstawowych, nie ma specjalnego znaczenia i może zostać zignorowany). Kwerenda definiuje ruchome okno, które działa od daty bieżącego wiersza do 10 dni wcześniej. Należy zauważyć, że słowo kluczowe RANGE jest używany do zdefiniowania klauzuli windowing w tym przykładzie. Oznacza to, że okno może potencjalnie zawierać wiele wierszy dla każdej wartości z zakresu. W tym przypadku są trzy pary wierszy z dublowanymi wartościami daty. Przykład 21-10 Funkcje agregujące okna z przesunięciami logicznymi W przykładzie z powyższego przykładu, wszystkie daty z wyjątkiem 6 i 12 maja zwracają dwa wiersze z dublowanymi datami. Zbadaj skomentowane cyfry po prawej stronie wyjścia, aby zobaczyć, jak obliczane są wartości. Należy pamiętać, że każda grupa w nawiasie oznacza wartości zwrócone na jeden dzień. Zauważ, że ten przykład dotyczy tylko słowa kluczowego RANGE, a nie słowa kluczowego ROWS. Warto pamiętać, że przy RANGE. można użyć 1 wyrażenia ORDER BY w funkcji analitycznej ORDER BY. Za pomocą słowa kluczowego ROWS można użyć wielokrotnego porządku wyrażeniami w klauzuli ORDER BY funkcji analitycznej. Różne wymiary okna dla każdego rzędu Istnieją sytuacje, w których warto zmieniać rozmiar okna każdego wiersza w oparciu o określony warunek. Możesz na przykład zwiększyć rozmiar okna dla określonych dat i być mniejszy dla innych. Załóżmy, że chcesz obliczyć średnią ruchoma ceny akcji w ciągu trzech dni roboczych. Jeśli dla każdego dnia masz taką samą liczbę wierszy dla wszystkich dni roboczych i nie są przechowywane żadne dni wolne od pracy, możesz użyć funkcji fizycznej okna. Jeśli jednak spełnione warunki nie są spełnione, nadal można obliczyć średnią ruchomej, używając wyrażenia w parametrach rozmiaru okna. Wyrażenia w specyfikacji rozmiaru okna można uzyskać w kilku różnych źródłach. wyrażenie może być odniesieniem do kolumny w tabeli, takiej jak tabela czasu. Może to być również funkcja zwracająca odpowiednią granicę dla okna na podstawie wartości w bieżącym wierszu. Następujące oświadczenie dotyczące hipotetycznej bazy danych cen akcji wykorzystuje zdefiniowaną przez użytkownika funkcję w klauzuli RANGE w celu ustawienia rozmiaru okna: W tym oświadczeniu ttimekey to pole dat. Tutaj, fn może być funkcją PLSQL z następującą specyfikacją: 4 jeśli ttimekey jest poniedziałek, wtorek Jeśli któryś z poprzednich dni to święta, odpowiednio dostosuje liczbę. Należy zauważyć, że gdy okno jest określone przy użyciu numeru w funkcji okna z ORDER BY w kolumnie daty, to jest konwertowane na liczbę dni. Możesz także użyć funkcji konwersji literalnej odstępów, jako NUMTODSINTERVAL (fn (ttimekey), DAY) zamiast tylko fn (ttimekey), aby oznaczać to samo. Można również napisać funkcję PLSQL, która zwraca wartość typu danych INTERVAL. Funkcje agregujące okienkowanie z przesunięciami fizycznymi Dla okien wyrażonych w wierszach, wyrażenia zamawiania powinny być unikalne, aby uzyskać deterministyczne wyniki. Na przykład następujące zapytanie nie jest deterministyczne, ponieważ timeid nie jest unikatowy w tym zestawie wyników. Przykład 21-11 Funkcje agregujące okna z przesunięciami fizycznymi Jedynym sposobem na rozwiązanie tego problemu byłoby dodanie kolumny prodid do zestawu wynikowego i kolejności na zarówno timeid jak i prodid. Funkcje pierwotne i ostatnie Funkcja umożliwiająca wybranie pierwszego i ostatniego wiersza z okna. Te wiersze są szczególnie cenne, ponieważ często są wykorzystywane jako podstawy obliczeniowe. Na przykład z partycją zawierającą dane o sprzedaży zamówione w ciągu dnia można zapytać, ile sprzedaży w ciągu każdego dnia była porównywana z pierwszym dniem sprzedaży (FIRSTVALUE) okresu, czy też warto wiedzieć, za zestaw wierszy rosnących zleceń sprzedaży , Jaki był procent wielkości każdej sprzedaży w regionie w porównaniu do największej sprzedaży (LASTVALUE) w regionie Jeśli opcja IGNORE NULLS jest używana w FIRSTVALUE. zwróci pierwszą wartość niezerową w zbiorze lub NULL jeśli wszystkie wartości są NULL. Jeśli IGNORE NULLS jest używany z LASTVALUE. zwróci ostatnią wartość niezerową w zbiorze lub NULL jeśli wszystkie wartości są NULL. Opcja IGNORE NULLS jest szczególnie przydatna w prawidłowej obsłudze tabeli inwentarza. Raportowanie agregowanych funkcji Po przetworzeniu zapytania agregowanie wartości, takich jak liczba wynikowych wierszy lub średnia wartość w kolumnie, można łatwo obliczyć w ramach partycji i udostępnić innym funkcjom raportowania. Raportowanie agregujących funkcji zwraca tę samą wartość agregującą dla każdego wiersza w partycji. Ich zachowanie względem NULL jest takie samo jak funkcje sumowania SQL. Składnia jest następująca: Gwiazdka () jest dozwolona tylko w COUNT () DISTINCT jest obsługiwana tylko wtedy, gdy odpowiednie funkcje zagregowane umożliwiają wyrażenie expression1 i expression2 wartości może być dowolnym wyrażeniem obejmującym odwołania lub agregaty kolumn. Klauzula PARTITION BY definiuje grupy, na których obliczono funkcje okienkowania. Jeśli klauzula PARTITION BY nie ma, to funkcja jest obliczana w całym zestawie wyników zapytania. Funkcje raportowania mogą pojawiać się tylko w klauzuli SELECT lub klauzuli ORDER BY. Główną zaletą funkcji raportowania jest ich zdolność do wielokrotnego przesyłania danych w pojedynczym bloku zapytań i przyspieszania wydajności kwerendy. Zapytania, takie jak liczba sprzedawców sprzedających więcej niż 10 sprzedaży w mieście, nie wymagają łączenia między osobnymi blokami zapytań. Na przykład zastanów się nad pytaniem Dla każdej kategorii produktów znajdź region, w którym miał maksymalną sprzedaż. Odpowiednikiem zapytania SQL przy użyciu funkcji sumowania raportów MAX jest: Wewnętrzna kwerenda z funkcją agregacji raportowania MAX (SUM (kwoty zwracane)) zwraca: Pełne wyniki kwerendy to: Przykład 21-12 Raportowanie agregacji Przykłady Agregaty raportowania połączone z zapytaniami zagnieżdżonymi umożliwiają można skutecznie odpowiedzieć na złożone zapytania. Na przykład, co chcesz wiedzieć najlepiej sprzedających się produktów w najbardziej znaczących podkategoriach produktów Poniżej znajduje się zapytanie zawierające 5 najlepszych produktów dla każdej podkategorii produktów, które przyczyniają się do ponad 20 sprzedaży w swojej kategorii produktów: RATIOTOREPORT Funkcja Funkcja RATIOTOREPORT oblicza stosunek wartości do sumy zbiorów wartości. Jeśli wyrażenie wartości wyrażenia jest wartością NULL. RATIOTOREPORT ocenia również wartość NULL. ale jest traktowany jako zero dla obliczania sumy wartości mianownika. Jego składnia jest następująca: dotyczy to: expr może być dowolnym wyrażeniem zawierającym odwołania do kolumny lub agregaty. Klauzula PARTITION BY definiuje grupy, na których ma zostać obliczona funkcja RATIOTOREPORT. Jeśli klauzula PARTITION BY nie ma, to funkcja jest obliczana w całym zestawie wyników zapytania. Aby obliczyć RATIOTOREPORT sprzedaży dla każdego kanału, można użyć następującej składni: Funkcje LAGLEAD Funkcje LAG i LEAD są przydatne do porównywania wartości, gdy względne pozycje rzędów mogą być znane niezawodnie. Działają przez określenie liczby wierszy, które oddzielają wiersz docelowy od bieżącego wiersza. Ponieważ funkcje zapewniają dostęp do więcej niż jednego rzędu stołu w tym samym czasie bez samodzielnego łączenia, mogą zwiększyć szybkość przetwarzania. Funkcja LAG umożliwia dostęp do wiersza z danym przesunięciem przed bieżącą pozycją, a funkcja LEAD zapewnia dostęp do wiersza z danym przesunięciem po bieżącej pozycji. Składnia LAGLEAD Te funkcje mają następującą składnię: przesunięcie jest parametrem opcjonalnym i domyślnie ustawione na 1. wartość domyślna jest parametrem opcjonalnym i jest wartością zwracaną, jeśli offset znajduje się poza granicami tabeli lub partycji. Zobacz Densyfikowanie danych dla raportowania, aby uzyskać informacje na temat korzystania z funkcji LEAD LAG w celu przeprowadzania kwerend porównawczych na podstawie okresowych okresów w rzadkich danych. Funkcje FIRSTLAST Funkcje agregujące FIRSTLAST pozwalają na szeregowanie zestawów danych i współpracę z najwyższymi lub najniższymi wierszami. Po znalezieniu górnych lub dolnych rzędów w rankingu funkcja agregująca jest stosowana do dowolnej kolumny. Oznacza to, że FIRST LAST pozwala wyznaczyć pozycję na kolumnie A, ale zwracając wynik agregatu stosowanego do pierwszego lub ostatniego rzędu wierszy kolumny B. To jest cenne, ponieważ unika się potrzeby samodzielnego łączenia się lub podkwerendy, a zatem poprawę wydajności. Funkcje te składają się z regularnej funkcji agregującej (MIN. SUMA, AVG, COD, VARIANCE), która tworzy pojedynczą wartość zwracaną dla każdej grupy. Aby określić stosowany ranking, funkcje FIRST LAST dodają nową klauzulę zaczynającą się od słowa KEEP. Składnia FIRSTLAST Te funkcje mają następującą składnię: Zauważ, że klauzula ORDER BY może przyjmować wiele wyrażeń. FIRSTLAST Jako zwykłe kruszywo Możesz używać grupy agregatów FIRST LAST jako regularnych funkcji agregujących. Przykład 21-15 FIRSTLAST Przykład 1 Poniższe zapytanie pozwala nam porównać minimalną cenę i cenę katalogową naszych produktów. Dla każdego podkategorii produktu w kategorii Odzież męska zwraca następujące kwoty: Cennik listy produktów o najniższej cenie minimalnej Najniższa cena minimalna Cena katalogowa produktu o najwyższej cenie minimalnej Najwyższa cena minimalna FIRSTLAST Jako zestawienie sprawozdawcze Można również użyć Pierwsza grupa agregatów jako raportowanie łącznych funkcji. Przykładem jest wyliczenie, które miesiące miały największy i najmniejszy wzrost liczby osób przez cały rok. Składnia tych funkcji jest podobna do składni dla innych agregatów raportujących. Rozważmy przykład w przykładzie 21-15 dla FIRSTLAST. Co zrobić, jeśli chcemy znaleźć ceny katalogowe poszczególnych produktów i porównać je do cen katalogowych produktów z podkategorii, które miały najwyższe i najniższe ceny minimalne Poniższe zapytanie umożliwia nam odnalezienie tych informacji w podkategorii Documentation przy użyciu FIRSTLAST jako raportu agregaty. Przykład 21-16 FIRSTLAST Przykład 2 Użycie funkcji FIRST i LAST jako agregatów raportujących ułatwia uwzględnienie wyników w obliczeniach takich wynagrodzeń jako procent najwyższego wynagrodzenia. Funkcje odwrotne procentowe Za pomocą funkcji CUMEDIST można znaleźć zbiorczą dystrybucję (percentyl) zbioru wartości. Jednak odwrotna operacja (znalezienie jakiej wartości oblicza się dla pewnego percentyla) nie jest ani łatwa, ani skutecznie obliczona. Aby rozwiązać ten problem, wprowadzono funkcje PERCENTILECONT i PERCENTILEDISC. Mogą być stosowane zarówno jako funkcje raportowania okien, jak i zwykłe funkcje agregujące. Funkcje te wymagają specyfikacji sortowania i parametru, który przyjmuje wartość percentyla między 0 a 1. Specyfikacja sortowania jest obsługiwana przy użyciu klauzuli ORDER BY z jednym wyrażeniem. Jeśli jest używany jako normalna funkcja agregująca, zwraca pojedynczą wartość dla każdego uporządkowanego zestawu. PERCENTILECONT. która jest funkcją ciągłą obliczoną przez interpolację i PERCENTILEDISC. która jest funkcją kroku, która zakłada wartości dyskretne. Podobnie jak inne agregaty, PERCENTILECONT i PERCENTILEDISC działają na grupie wierszy w zapytaniu grupowym, ale z następującymi różnicami: wymagają parametru od 0 do 1 (włącznie). Parametrem określonym w tym zakresie będzie błąd. Ten parametr powinien być podany jako wyrażenie, które ma być stałą. Wymagają specyfikacji sortowania. Ta specyfikacja sortowania jest klauzulą ​​ORDER BY z pojedynczym wyrażeniem. Wielokrotne wyrażenia są niedozwolone. Normal Aggregate Syntax Inverse Percentile Przykładowa podstawa Używamy następującej kwerendy, aby zwrócić 17 wierszy danych używanych w przykładach tej sekcji: PERCENTILEDISC (x) oblicza się poprzez skanowanie wartości CUMEDIST w każdej z grup, aż znajdziesz pierwszą wartość większą niż lub równa x. gdzie x jest określoną wartością percentyla. Dla zapytania typu PERCENTILEDISC (0.5) wynik wynosi 5000, co ilustruje następująco: Wynik PERCENTILECONT jest obliczany poprzez liniową interpolację między wierszami po ich zamówieniu. Aby obliczyć PERCENTILECONT (x). najpierw obliczymy numer wiersza RN (1x (n-1)), gdzie n jest liczbą wierszy w grupie a x jest określoną wartością percentyla. Końcowy wynik funkcji agregującej oblicza się poprzez interpolację liniową pomiędzy wartościami z wierszy w wierszach CRN CEIL (RN) i FRN FLOOR (RN). Końcowy wynik to: PERCENTILECONT (X) if (CRN FRN RN), następnie (wartość wyrażenia z rzędu w RN) else (CRN - RN) (wartość wyrażenia dla wiersza w FRN) (RN - FRN) (wartość wyrażenie na wierszu w CRN). Rozważmy poprzedni przykładowy zapytania, gdzie obliczamy PERCENTILECONT (0.5). Tutaj n wynosi 17. Liczba wierszy RN (1 0,5 (n-1)) 9 dla obu grup. W wyniku tego w formule (FRNCRN9) w wyniku zwracamy wartość z wiersza 9. Innym przykładem jest, jeśli chcesz obliczyć PERCENTILECONT (0.66). Obliczony numer wiersza RN (1 0,66 (n-1)) (1 0,6616) 11,67. PERCENTILECONT (0.66) (12-11.67) (wartość wiersza 11) (11.67-11) (wartość wiersza 12). Oto wyniki: Funkcje agregacji odwrotnej percentyla mogą pojawić się w klauzuli HAVING kwerendy, podobnie jak inne istniejące funkcje agregujące. Jako agregaty raportujące Można również użyć funkcji agregujących PERCENTILECONT. PERCENTILEDISC jako raportowanie łącznych funkcji. W przypadku funkcji agregujących raportowania składnia jest podobna do składni agregatów sprawozdawczych. To kwerenda oblicza to samo (mediana limitu kredytowego dla klientów w tym zestawie wyników, ale raportuje wynik dla każdego wiersza w zestawie wyników, jak pokazano na poniższym wydruku: Inverse Percentile Restrictions (Ograniczenie w procentach) dla PERCENTILEDISC. Wyrażenie w klauzuli ORDER BY (wyrażenie w klauzuli ORDER BY musi być typu numerycznego lub datetime (włączając interwały), ponieważ interpolacja liniowa jest używana do oceny PERCENTILECONT. Jeśli wyrażenie jest typu DATE, interpolowany wynik jest zaokrąglany do najmniejszej jednostki dla typu. Dla typu DATE, interpolowana wartość zostanie zaokrąglona do najbliższej, dla typów interwałów do najbliższej sekundy (INTERVAL DAY TO SECOND) lub do miesiąca (INTERVAL YEAR TO MONTH) Podobnie jak inne agregaty, odwrotne percentylowe funkcje ignorują wartości NULL podczas oceny wyniku. Na przykład, jeśli chcesz znaleźć medianę w zbiorze, Oracle Database ignoruje NUL Ls i znajduje median wśród wartości innych niż null. Możesz użyć opcji NULLS FIRST NULLS LAST w klauzuli ORDER BY, ale będą ignorowane, ponieważ NULL są ignorowane. Funkcja hipotetyczna i funkcje dystrybucyjne Funkcje te zapewniają funkcjonalność przydatną w analizie what-if. Przykładowo, jaki byłby rząd wiersza, jeśli wiersz został wstawiony hipotetycznie do zestawu innych wierszy Ta rodzina agregatów pobiera jeden lub więcej argumentów hipotetycznego wiersza i uporządkowanej grupy wierszy, zwracając RANK. DENSERANK. PERCENTRANK lub CUMEDIST wiersza, tak jakby został hipotetycznie wstawiony do grupy. Hipotetyczny ranking i składnia dystrybucji Tutaj stała wyrażenie odnosi się do wyrażenia, które ocenia się na stałą, a jako argumenty funkcji może być więcej niż jedno takie wyrażenie. Klauzula ORDER BY może zawierać jeden lub więcej wyrażeń, które określają porządek sortowania, na którym będzie oparty ranking. ASC. DESC. NULLS FIRST. Opcje NULLS LAST będą dostępne dla każdego wyrażenia w ORDER BY. Przykład 21-17 Hipotetyczny ranking i dystrybucja Przykład 1 Korzystając z danych cen katalogowych w tabeli produktów stosowanych w tej sekcji, można obliczyć RANK. PERCENTRANK i CUMEDIST za hipotetyczny sweter z ceną 50, jak pasuje do każdej z podkategorii swetrów. Kwerenda i wyniki są następujące: W przeciwieństwie do agregatów odwrotnych percentylowych, klauzula ORDER BY w specyfikacji sortowania hipotetycznych funkcji rankingowych i dystrybucyjnych może mieć wiele wyrażeń. Liczba argumentów i wyrażeń w klauzuli ORDER BY powinny być takie same, a argumenty muszą być wyrażeniami stałą tego samego lub kompatybilnego typu do odpowiedniego wyrażenia ORDER BY. Poniżej przedstawiono przykład z użyciem dwóch argumentów w kilku hipotetycznych funkcjach rankingowych. Przykład 21-18 Hipotetyczny ranking i dystrybucja Przykład 2 Te funkcje mogą pojawić się w klauzuli HAVING zapytania podobnie jak inne funkcje agregujące. Nie mogą być używane jako funkcje sumowania raportów ani funkcje agregowania okienkowania. Funkcje regresji liniowej Funkcje regresji obsługują dopasowanie linii regresji zwykłej najmniej-kwadratowej do zestawu par liczb. Możesz używać ich jako funkcji łącznych lub funkcji okienkowania lub raportowania. Funkcje są następujące: Oracle stosuje funkcję do zestawów (e1, e2) par po wyeliminowaniu wszystkich par, dla których jedno z e1 lub e2 jest nieważne. e1 jest interpretowany jako wartość zmiennej zależnej (wartość y), a e2 jest interpretowany jako wartość zmiennej niezależnej (wartość x). Obydwa wyrażenia muszą być liczbami. Funkcje regresji są obliczane jednocześnie podczas pojedynczego przejścia przez dane. Często są one łączone z COVARPOP. COVARSAMP. i funkcje CORR. REGRCOUNT Funkcja REGRCOUNT zwraca liczbę niezerowych par liczb używanych do dopasowania do linii regresji. Jeśli zostanie zastosowany do pustego zestawu (lub jeśli nie ma par (e1, e2), w których żadna z e1 lub e2 jest pusta), funkcja zwraca wartość 0. REGRAVGY i REGRAVGX Funkcje REGRAVGY i REGRAVGX obliczają średnie zmiennej zależnej i niezależnej zmiennej linii regresji. REGRAVGY oblicza średnią swojego pierwszego argumentu (e1) po wyeliminowaniu (e1, e2) par, gdy jeden z e1 lub e2 jest nieważny. Podobnie REGRAVGX oblicza średnią swojego drugiego argumentu (e2) po zerowej eliminacji. Oba funkcje zwracają wartość NULL jeśli są stosowane do pustego zestawu. REGRSLOPE i REGRINTERCEPT Funkcje Funkcja REGRSLOPE oblicza nachylenie linii regresji, dopasowanej do par niewiele (e1, e2). Funkcja REGRINTERCEPT oblicza przecięcie y linii regresji. REGRINTERCEPT zwraca NULL zawsze, gdy nachylenie lub średnie regresji są NULL. Funkcja REGRR2 Funkcja REGRR2 oblicza współczynnik determinacji (zwany zwykle kwadratem R lub dobrem dopasowania) dla linii regresji. REGRR2 zwraca wartości między 0 a 1, gdy zdefiniowana jest linia regresji (nachylenie linii nie jest puste) i zwraca NULL w inny sposób. Im bliżej jest wartość 1, tym lepsza linia regresji pasuje do danych. REGRSXX, REGRSYY i REGRSXY Funkcje REGRSXX. Funkcje REGRSYY i REGRSXY są wykorzystywane do obliczania różnych statystyk diagnostycznych w celu analizy regresji. Po wyeliminowaniu (e1, e2) par, w których jeden z e1 lub e2 jest nieważny, funkcje te powodują następujące obliczenia: Regresja regresji liniowej Przykłady statystyczne Kilka typowych statystyk diagnostycznych, które towarzyszą analizie regresji liniowej podano w tabeli 21-2, wspólnej statystce diagnostycznej i ich Wyrażenia. Zauważ, że to wydanie nowych funkcji pozwala Ci wyliczyć wszystkie te. Tabela 21-2 Podstawowe statystyki diagnostyczne i ich wyrażenia Przykładowe obliczenia regresji liniowej W tym przykładzie obliczamy linię regresji o przeciętnej minimalnej średnicy kwadratowej, która wyraża ilość sprzedaną produktu jako liniową funkcję cen katalogowych produktów. Obliczenia są pogrupowane według kanału sprzedaży. Wartości SLOPE. INTCPT. RSQR to nachylenie, przecięcie i współczynnik wyznaczania linii regresji. Wartość (liczba całkowita) COUNT to liczba produktów w każdym kanale, dla których dostępne są zarówno ilości, jak i dane o cenach katalogowych. Częste zestawy danych Zamiast liczyć na to, jak często zdarza się zdarzenie (na przykład, jak często ktoś kupił mleko w sklepie spoywczym), częste zestawy elementów udostępniają mechanizm liczenia, jak często zdarzają się różne zdarzenia (na przykład jak często ktoś kupił mleko i zboża razem w sklepie spożywczym). Wejście do operacji z częściami itemsets jest zbiorem danych reprezentujących kolekcje elementów (itemsets). Some examples of itemsets could be all of the products that a given customer purchased in a single trip to the grocery store (commonly called a market basket), the web-pages that a user accessed in a single session, or the financial services that a given customer utilizes. The notion of a frequent itemset is to find those itemsets that occur most often. If you apply the frequent-itemset operator to a grocery stores point-of-sale data, you might, for example, discover that milk and bananas are the most commonly bought pair of items. Frequent itemsets have thus been used in business intelligence environments for many years, with the most common one being for market basket analysis in the retail industry. Frequent itemsets are integrated with the database, operating on top of relational tables and accessed through SQL. This integration provides a couple of key benefits: Applications that previously relied on frequent itemset operations now benefit from significantly improved performance as well as simpler implementation. SQL-based applications that did not previously use frequent itemsets can now be easily extended to take advantage of this functionality. Frequent itemsets analysis is performed with the PLSQL package DBMSFREQUENTITEMSETS. See PLSQL Packages and Types Reference for more information. Other Statistical Functions Oracle introduces a set of SQL statistical functions and a statistics package, DBMSSTATFUNCS. This section lists some of the new functions along with basic syntax. See PLSQL Packages and Types Reference for detailed information about the DBMSSTATFUNCS package and Oracle Database SQL Reference for syntax and semantics. Descriptive Statistics You can calculate the following descriptive statistics: Median of a Data Set Mode of a Data Set You can calculate the following parametric statistics: Spearmans rho Coefficient Kendalls tau-b Coefficient In addition to the functions, this release has a new PLSQL package, DBMSSTATFUNCS. It contains the descriptive statistical function SUMMARY along with functions to support distribution fitting. The SUMMARY function summarizes a numerical column of a table with a variety of descriptive statistics. The five distribution fitting functions support normal, uniform, Weibull, Poisson, and exponential distributions. WIDTHBUCKET Function For a given expression, the WIDTHBUCKET function returns the bucket number that the result of this expression will be assigned after it is evaluated. You can generate equiwidth histograms with this function. Equiwidth histograms divide data sets into buckets whose interval size (highest value to lowest value) is equal. The number of rows held by each bucket will vary. A related function, NTILE. creates equiheight buckets. Equiwidth histograms can be generated only for numeric, date or datetime types. So the first three parameters should be all numeric expressions or all date expressions. Other types of expressions are not allowed. If the first parameter is NULL. the result is NULL. If the second or the third parameter is NULL. an error message is returned, as a NULL value cannot denote any end point (or any point) for a range in a date or numeric value dimension. The last parameter (number of buckets) should be a numeric expression that evaluates to a positive integer value 0, NULL. or a negative value will result in an error. Buckets are numbered from 0 to ( n 1). Bucket 0 holds the count of values less than the minimum. Bucket( n 1) holds the count of values greater than or equal to the maximum specified value. WIDTHBUCKET Syntax The WIDTHBUCKET takes four expressions as parameters. The first parameter is the expression that the equiwidth histogram is for. The second and third parameters are expressions that denote the end points of the acceptable range for the first parameter. The fourth parameter denotes the number of buckets. Consider the following data from table customers. that shows the credit limits of 17 customers. This data is gathered in the query shown in Example 21-19 . In the table customers. the column custcreditlimit contains values between 1500 and 15000, and we can assign the values to four equiwidth buckets, numbered from 1 to 4, by using WIDTHBUCKET (custcreditlimit, 0, 20000, 4). Ideally each bucket is a closed-open interval of the real number line, for example, bucket number 2 is assigned to scores between 5000.0000 and 9999.9999. sometimes denoted 5000, 10000) to indicate that 5,000 is included in the interval and 10,000 is excluded. To accommodate values outside the range 0, 20,000), values less than 0 are assigned to a designated underflow bucket which is numbered 0, and values greater than or equal to 20,000 are assigned to a designated overflow bucket which is numbered 5 (num buckets 1 in general). See Figure 21-3 for a graphical illustration of how the buckets are assigned. You can specify the bounds in the reverse order, for example, WIDTHBUCKET ( custcreditlimit. 20000. 0. 4 ). When the bounds are reversed, the buckets will be open-closed intervals. In this example, bucket number 1 is ( 15000,20000 , bucket number 2 is ( 10000,15000 , and bucket number 4, is ( 0 ,5000. The overflow bucket will be numbered 0 ( 20000. infinity ), and the underflow bucket will be numbered 5 (- infinity. 0 . It is an error if the bucket count parameter is 0 or negative. The followin g query shows the bucket numbers for the credit limits in the customers table for both cases where the boundaries are specified in regular or reverse order. We use a range of 0 to 20,000. User-Defined Aggregate Functions Oracle offers a facility for creating your own functions, called user-defined aggregate functions. These functions are written in programming languages such as PLSQL, Java, and C, and can be used as analytic functions or aggregates in materialized views. See Oracle Data Cartridge Developers Guide for further information regarding syntax and restrictions. The advantages of these functions are: Highly complex functions can be programmed using a fully proced ural language. Higher scalability than other techniques when user-defined functions are programmed for parallel processing. Object datatypes can be processed. As a simple example of a user-defined aggregate function, consider the skew statistic. This calculation measures if a data set has a lopsided distribution about its mean. It will tell you if one tail of the distribution is significantly larger than the other. If you created a user-defined aggregate called udskew and applied it to the credit limit data in the prior example, the SQL statement and results might look like this: Before building user-defined aggregate functions, you should consider if your needs can be met in regular SQL. Many complex calculations are possible directly in SQL, particularly by using the CASE expression. Staying with regular SQL will enable simpler development, and many query operations are already well-parallelized in SQL. Even the earlier example, the skew statistic, can be created using standard, albeit lengthy, SQL. CASE Expressions Oracle now supports simple and searched CASE statements. CASE statements are similar in purpose to the DECODE statement, but they offer more flexibility and logical power. They are also easier to read than traditional DECODE statements, and offer better performance as well. They are commonly used when breaking categories into buckets like age (for example, 20-29, 30-39, and so on). The syntax for simple statements is: The syntax for searched statements is: You can specify only 255 arguments and each WHEN. THEN pair counts as two arguments. For a workaround to this limit, see Oracle Database SQL Reference . Suppose you wanted to find the average salary of all employees in the company. If an employees salary is less than 2000, you want the query to use 2000 instead. Without a CASE statement, you would have to write this query as follows, In this, foo is a function that returns its input if the input is greater than 2000, and returns 2000 otherwise. The query has performance implications because it needs to invoke a function for each row. Writing custom functions can also add to the development load. Using CASE expressions in the database without PLSQL, this query can be rewritten as: Using a CASE expression lets you avoid developing custom functions and can also perform faster. Creating Histograms With User-Defined Buckets You can use the CASE statement when you want to obtain histograms with user-defined buckets (both in number of buckets and width of each bucket). The following are two examples of histograms created with CASE statements. In the first example, the histogram totals are shown in multiple columns and a single row is returned. In the second example, the histogram is shown with a label column and a single column for totals, and multiple rows are returned. Example 21-21 Histogram Example 1 Example 21-22 Histogram Example 2 Data Densification for Reporting Data is normally stored in sparse form. That is, if no value exists for a given combination of dimension values, no row exists in the fact table. However, you may want to view the data in dense form, with rows for all combination of dimension values displayed even when no fact data exist for them. For example, if a product did not sell during a particular time period, you may still want to see the product for that time period with zero sales value next to it. Moreover, time series calculations can be performed most easily when data is dense along the time dimension. This is because dense data will fill a consistent number of rows for each period, which in turn makes it simple to use the analytic windowing functions with physical offsets. Data densification is the process of converting spare data into dense form. To overcome the problem of sparsity, you can use a partitioned outer join to fill the gaps in a time series or any other dimension. Such a join extends the conventional outer join syntax by applying the outer join to each logical partition defined in a query. Oracle logically partitions the rows in your query based on the expression you specify in the PARTITION BY clause. The result of a partitioned outer join is a UNION of the outer joins of each of the partitions in the logically partitioned table with the table on the other side of the join. Note that you can use this type of join to fill the gaps in any dimension, not just the time dimension. Most of the examples here focus on the time dimension because it is the dimension most frequently used as a basis for comparisons. Partition Join Syntax The syntax for partitioned outer join extends the ANSI SQL JOIN clause with the phrase PARTITION BY followed by an expression list. The expressions in the list specify the group to which the outer join is applied. The following are the two forms of syntax normally used for partitioned outer join: Note that FULL OUTER JOIN is not supported with a partitioned outer join. Sample of Sparse Data A typi cal situation with a sparse dimension is shown in the following example, which computes the weekly sales and year-to-date sales for the product Bounce for weeks 20-30 in 2000 and 2001: In this example, we would expect 22 rows of data (11 weeks each from 2 years) if the data were dense. However we get only 18 rows because weeks 25 and 26 are missing in 2000, and weeks 26 and 28 in 2001. Filling Gaps in Data We can take the sparse data of the preceding query and do a partitioned outer join with a dense set of time data. In the following query, we alias our original query as v and we select data from the times table, which we alias as t. Here we retrieve 22 rows because there are no gaps in the series. The four added rows each have 0 as their Sales value set to 0 by using the NVL function. Note that in this query, a WHERE condition was placed for weeks between 20 and 30 in the inline view for the time dimension. This was introduced to keep the result set small. Filling Gaps in Two Dimensions N-dimensional data is typically displayed as a dense 2-dimensional cross tab of (n - 2) page dimensions. This requires that all dimension values for the two dimensions appearing in the cross tab be filled in. The following is another example where the partitioned outer join capability can be used for filling the gaps on two dimensions: In this query, the WITH sub-query factoring clause v1. summarizes sales data at the product, country, and year level. This result is sparse but users may want to see all the country, year combinations for each product. To achieve this, we take each partition of v1 based on product values and outer join it on the country dimension first. This will give us all values of country for each product. We then take that result and partition it on product and country values and then outer join it on time dimension. This will give us all time values for each product and country combination. Filling Gaps in an Inventory Table An inventory table typically tracks quantity of units available for various products. This table is sparse: it only stores a row for a product when there is an event. For a sales table, the event is a sale, and for the inventory table, the event is a change in quantity available for a product. For example, consider the following inventory table: The inventory table now has the following rows: For reporting purposes, users may want to see this inventory data differently. For example, they may want to see all values of time for each product. This can be accomplished using partitioned outer join. In addition, for the newly inserted rows of missing time periods, users may want to see the values for quantity of units column to be carried over from the most recent existing time period. The latter can be accomplished using analytic window function LASTVALUE value. Here is the query and the desired output: The inner query computes a partitioned outer join on time within each product. The inner query densifies the data on the time dimension (meaning the time dimension will now have a row for each day of the week). However, the measure column quantity will have nulls for the newly added rows (see the output in the column quantity in the following results. The outer query uses the analytic function LASTVALUE. Applying this function partitions the data by product and orders the data on the time dimension column ( timeid ). For each row, the function finds the last non-null value in the window due to the option IGNORE NULLS. which you can use with both LASTVALUE and FIRSTVALUE. We see the desired output in the column repeatedquantity in the following output: Computing Data Values to Fill Gaps Examples in previous section illustrate how to use partitioned outer join to fill gaps in one or more dimensions. However, the result sets produced by partitioned outer join have null values for columns that are not included in the PARTITION BY list. Typically, these are measure columns. Users can make use of analytic SQL functions to replace those null values with a non-null value. For example, the following q uery computes monthly totals for products 64MB Memory card and DVD-R Discs (product IDs 122 and 136) for the year 2000. It uses partitioned outer join to densify data for all months. For the missing months, it then uses the analytic SQL function AVG to compute the sales and units to be the average of the months when the product was sold. If working in SQLPlus, the following two commands will wrap the column headings for greater readability of results: Time Series Calculations on Densified Data Densificatio n is not just for reporting purpose. It also enables certain types of calculations, especially, time series calculations. Time series calculations are easier when data is dense along the time dimension. Dense data has a consistent number of rows for each time periods which in turn make it simple to use analytic window functions with physical offsets. To illustrate, lets first take the example on Filling Gaps in Data. and lets add an analytic function to that query. In the following enhanced version, we calculate weekly year-to-date sales alongside the weekly sales. The NULL values that the partitioned outer join inserts in making the time series dense are handled in the usual way: the SUM function treats them as 0s. Period-to-Period Comparison for One Time Level: Example How do we use this feature to compare values across time periods Specifically, how do we calculate a year-over-year sales comparison at the week level The following query returns on the same row, for each product, the year-to-date sales for each week of 2001 with that of 2000. Note that in this example we start with a WITH clause. This improves readability of the query and lets us focus on the partitioned outer join. If working in SQLPlus, the following command will wrap the column headings for greater readability of results: In the FROM clause of the in-line view densesales. we use a partitioned outer join of aggregate view v and time view t to fill gaps in the sales data along the time dimension. The output of the partitioned outer join is then processed by the analytic function SUM. OVER to compute the weekly year-to-date sales (the weeklyytdsales column). Thus, the view densesales computes the year-to-date sales data for each week, including those missing in the aggregate view s. The in-line view yearoveryearsales then computes the year ago weekly year-to-date sales using the LAG function. The LAG function labeled weeklyytdsalesprioryear specifies a PARTITION BY clause that pairs rows for the same week of years 2000 and 2001 into a single partition. We then pass an offset of 1 to the LAG function to get the weekly year to date sales for the prior year. The outermost query block selects data from yearoveryearsales with the condition yr 2001, and thus the query returns, for each product, its weekly year-to-date sales in the specified weeks of years 2001 and 2000. Period-to-Period Comparison for Multiple Time Levels: Example While the prior example shows us a way to create comparisons for a single time level, it would be even more useful to handle multiple time levels in a single query. For example, we could compare sales versus the prior period at the year, quarter, month and day levels. How can we create a query which performs a year-over-year comparison of year-to-date sales for all levels of our time hierarchy We will take several steps to perform this task. The goal is a single query with comparisons at the day, week, month, quarter, and year level. The steps are as follows: We will create a view called cubeprodtime. which holds a hierarchical cube of sales aggregated across times and products . Then we will create a view of the time dimension to use as an edge of the cube. The time edge, which holds a complete set of dates, will be partitioned outer joined to the sparse data in the view cubeprodtime . Finally, for maximum performance, we will create a materialized view, mvprodtime. built using the same definition as cubeprodtime . For more information regarding hierarchical cubes, see Chapter 20, SQL for Aggregation in Data Warehouses. The materialized view is defined using the following statement: Step 1 Create the hierarchical cube view The materialized view shown in the following may already exist in your system if not, create it now. If you must generate it, please note that we limit the query to just two products to keep processing time short: Because this view is limited to two products, it returns just over 2200 rows. Note that the column HierarchicalTime contains string representations of time from all levels of the time hierarchy. The CASE expression used for the HierarchicalTime column appends a marker (0, 1. ) to each date string to denote the time level of the value. A 0 represents the year level, 1 is quarters, 2 is months, and 3 is day. Note that the GROUP BY clause is a concatenated ROLLUP which specifies the rollup hierarchy for the time and product dimensions. The GROUP BY clause is what determines the hierarchical cube contents. Step 2 Create the view edgetime, which is a complete set of date values edgetime is the source for filling time gaps in the hierarchical cube using a partitioned outer join. The column HierarchicalTime in edgetime will be used in a partitioned join with the HierarchicalTime column in the view cubeprodtime. The following statement defines edgetime : Step 3 Create the materialized view mvprodtime to support faster performance The materialized view definition is a duplicate of the view cubeprodtime defined earlier. Because it is a duplicate query, references to cubeprodtime will be rewritten to use the mvprodtime materialized view. The following materialized may already exist in your system if not, create it now. If you must generate it, please note that we limit the query to just two products to keep processing time short. Step 4 Create the comparison query We have now set the stage for our comparison query. We can obtain period-to-period comparison calculations at all time levels. It requires applying analytic functions to a hierarchical cube with dense data along the time dimension. Some of the calculations we can achieve for each time level are: Sum of sales for prior period at all levels of time. Variance in sales over prior period. Sum of sales in the same period a year ago at all levels of time. Variance in sales over the same period last year. The following example performs all four of these calculations. It uses a partitioned outer join of the views cubeprodtime and edgetime to create an in-line view of dense data called densecubeprodtime. The query then uses the LAG function in the same way as the prior single-level example. The outer WHERE clause specifies time at three levels: the days of August 2001, the entire month, and the entire third quarter of 2001. Note that the last two rows of the results contain the month level and quarter level aggregations. Note: To make the results easier to read if you are using SQLPlus, the column headings should be adjusted with the following commands. The commands will fold the column headings to reduce line length: Here is the query comparing current sales to prior and year ago sales: The first LAG function ( salespriorperiod ) partitions the data on gidp. cat. subcat. prod. gidt and orders the rows on all the time dimension columns. It gets the sales value of the prior period by passing an offset of 1. The second LAG function ( salessameperiodprioryear ) partitions the data on additional columns qtrnum. monnum. and daynum and orders it on yr so that, with an offset of 1, it can compute the year ago sales for the same period. The outermost SELECT clause computes the variances. Creating a Custom Member in a Dimension: Example In many OLAP tasks, it is helpful to define custom members in a dimension. For instance, you might define a specialized time period for analyses. You can use a partitioned outer join to temporarily add a member to a dimension. Note that the new SQL MODEL clause is suitable for creating more complex scenarios involving new members in dimensions. See Chapter 22, SQL for Modeling for more information on this topic. As an example of a task, what if we want to define a new member for our time dimension We want to create a 13th member of the Month level in our time dimension. This 13th month is defined as the summation of the sales for each product in the first month of each quarter of year 2001. The solution has two steps. Note that we will build this solution using the views and tables created in the prior example. Two steps are required. First, create a view with the new member added to the appropriate dimension. The view uses a UNION ALL operation to add the new member. To query using the custom member, use a CASE expression and a partitioned outer join. Our new member for the time dimension is created with the following view: In this statement, the view timec is defined by performing a UNION ALL of the edgetime view (defined in the prior example) and the user-defined 13th month. The gidt value of 8 was chosen to differentiate the custom member from the standard members. The UNION ALL specifies the attributes for a 13th month member by doing a SELECT from the DUAL table. Note that the grouping id, column gidt. is set to 8, and the quarter number is set to 5. Then, the second step is to use an inline view of the query to perform a partitioned outer join of cubeprodtime with timec. This step creates sales data for the 13th month at each level of product aggregation. In the main query, the analytic function SUM is used with a CASE expression to compute the 13th month, which is defined as the summation of the first months sales of each quarter. The SUM function uses a CASE to limit the data to months 1, 4, 7, and 10 within each year. Due to the tiny data set, with just 2 products, the rollup values of the results are necessarily repetitions of lower level aggregations. For more realistic set of rollup values, you can include more products from the Game Console and Y Box Games subcategories in the underlying materialized view.

No comments:

Post a Comment