資料倉儲的定義

    有資料倉儲之父(Father of Data Warehouse) Bill Inmon在1990年首次對資料倉儲做了一個定義:

    以主題導向的(Subject-Oriented)、整合的(Integrated)、隨時間變異的(Time-Variant),以及非暫存性(Nonvolatile)的資料蒐集,來支援管理的決策。(註1)

    資料倉儲系統(Data Warehouse System)是從多個分散式(Distributed)、自主性(Autonomous)、異質性(Heterogeneous)的資料來源中﹐搜集、組織並維護相關的資訊。此系統為整合性資料的儲存體﹐其內部儲存的資訊不但可供查詢亦可進行分析。且當資料來源被修改時﹐資料倉儲中所對應的資料可由來源擷取、轉換成內部型態後﹐再與已存在的資訊相互整合。因此在資料倉儲系統中﹐由於資訊已存在於系統﹐查詢及資料分析皆可有效率地反應。

    資料倉儲系統主要的概念在於輔助高階查詢、擷取、篩選並整合相關資訊。相對於傳統資料庫系統,除了內部儲存資料更具歷史性(資料的數量及時間涵蓋面增加)之外,其於資料查詢的層面,亦不同於傳統的被動式查詢(當查詢來臨時才做運算)﹐而強調主動式查詢(當來源資料更動時﹐隨即做出反應)﹐因此當執行查詢時並不需要在資料來源處重新計算﹐而是直接由資料倉儲系統中取出資訊。(註2)

    資料倉儲的興起
    在90年代初期,當主從架構技術開展之後,許多企業中既有的資料庫科技架構在一時無法更新的情況下,為了兼顧現有資訊設備的投資,並為未來的資訊系統奠定穩固的基石,資料倉儲中能兼顧主從架構線上即時查詢功能及現有Host/Terminal舊系統的資訊運作方式隨即受到重視,進而漸由一種學術性的理論衍生為廣被接受的技術。(註3)

    資料倉儲的興起主要是受到兩股驅動力的影響,其一是企業組織體認了資料庫系統中線上分析處理(On-line Analytical Processing, OLAP)所帶來的成效與利益,亦即企業組織可經由OLAP將從日常作業與活動所搜集之龐大資料,做更進一步的洞察與分析,以令企業組織達成策略性的決策。其二則是主從架構(Client/Server)的成長,使得今日伺服端和客戶端無論在軟、硬體的功能與效率大大提升,因此在這樣的環境之下,才可因應處理數以兆計資料量的資料倉儲。(註4)

    資料倉儲的特性(註5-7)

    主題導向(Subject-Oriented)

    一般資料庫的架構大多以業務來區分,如人事、財務、生產等即分屬不同的資料庫,而於資料倉儲中,所收錄組織的資料則打破業務分界的藩籬,以主題(subject)來區分。若將某商品視為一subject,在此主題下,不但有此商品的名稱、銷售量資料(原屬於銷售部門的資料庫內容),還有其生產量、生產成本(原屬生產部門的資料),由於資料在資料倉儲中做有機的整合,所以其可以支援一「整體性觀點」的洞察需求,這對於決策者而言,亦可以較快較有效率的方式來取得所要的資訊。

    收錄於資料倉儲中的資料雖是整合原本散佈於各部門的資料,但也非毫無取捨地將所有資料完全納入資料倉儲中,而是在建構資料倉儲之前即針對企業決策的需要而選擇性地存入。因此,決定那些主題、那些資料該屬於那些主題、那些主題可提供何種決策資訊等等,都得事先作詳細的分析與規劃。

    整合性(Integrated)

    由於原始資料是由各個分散的資料庫收錄而來,可能來自不同的單位或不同的應用系統,所以無論資料中使用的單位(如英制或公制)或是資料所採用的編碼(如性別是以1/2或M/F表示)都要整合為一致。

    時間變化性(Time-Variant)

    在一般資料庫中通常只反映目前企業組織業務與活動之即時性資料,例如人事資料庫中所記載的公司員工總數,只記載公司目前的員工數,但於資料倉儲的設計上,其所提供的資訊著重於支援趨勢分析,例如資料倉儲中的「員工總數」這個資料值即表達過去5-10年間公司的員工總數,所以資料倉儲中的資料是依時間序列累積公司各時期的資料而來,也因此在資料倉儲中,可有不同時間的相同資訊提供予比較與分析。另外,在資料倉儲中,時間是資訊的一部分,即資料倉儲中的資料元素中含有時間屬性。

    非暫存性(Non-Volatile)

    一般資料庫系統中所收錄的資料要反映公司的現況,新資料的存入即取代舊資料,但資料倉儲中的資料則是要保存公司在每一個時期的「現況」,所以資料一旦存入資料倉儲即被保留,不因新資料的加入而被取代或改變。

    資料倉儲系統的分類與架構
    目前在資料倉儲上並沒有標準方式,只有一些原則,即每個資料倉儲的實體及維度,皆可依其特性及使用單位的需求而改變。

    1. 集中式架構(Consolidated Architecture)

    將搜集自許多內部或是外部的來源,全部整合在同一個資料倉儲架構中。集中式架構也是最常被採用的方式,除了可以提供較複雜的資料分析及決策支援之外,此一方式亦較容易滿足新的資訊需求,也比較容易管理。(註8-9)(見圖一)

    2. 聯合性架構(Federated Architecture)

    針對某一群使用者或某一部門,將特別有價值的資料建立成資料倉儲,這種供群組或部門使用的倉儲,我們通常稱為資料專櫃(Data Mart),亦即藉由業務或功能來分散資料。聯合性架構即是聯合多個資料專櫃所組成,此架構中的資料在邏輯上集中, 實際上卻存放在分開但彼此相關的資料庫中, 它們有可能在同一地點, 也有可能不同。聯合性架構中由於部門的範圍較小,所以可以讓企業組織很快地開始第一個資料倉儲的實施計劃。接著再進一步採用資料庫的中介軟體(hub Server),將數個資料專櫃連接成一個分散型的資料倉儲。(註10) (見圖二)

    3. 階層式架構(tiered architecture)

    階層式架構結合集中性及聯合性兩種架構的特色,將高度彙整的資料存放在其中一個工作平台上,比較細部的彙整資料,則放在另一個工作平台上,而最詳細的資料,就存放於第三個工作平台上。第一階層的工作站,可以處理絕大部分使用者的需求,其它較詳細部分需求則需深入第二或第三階層。第一階層的工作平台,必須能讓沉重的使用者負載和低度的資料儲存量發揮最佳效用,而其它階層的工作平台,則比較擅長處理高資料量存取及低度使用者負載。(註11) (見圖三)

    在決定任何形式之資料倉儲架構時,也必須考慮儲存及傳送資料的伺服器、系統的規模及延展性,以及系統的可使用性與管理等方面的需求。

    資料倉儲系統的應用技術
    (一)關聯性資料庫(Relational Database Management System, RDBMS)

    (二)主從架構資料庫(Client/Server Technology)

    (三)平行處理 (Parallel Processing)

    (四)線上分析處理 (Online Analtical Processing, OLAP)

    (五)資料挖掘(Data Mining)

    資料倉儲系統的管理、組織及運作
    資料倉儲中的資料是怎麼來的?資料在資料倉儲中是如何組織的?資料倉儲中的資料要如何被有效地利用呢?由資料倉儲的建置,我們可以看出資料倉儲系統的內容,進而對資料倉儲系統的施行運作以及功能有更具體的認識:(註30)
    1. 管理:資料倉儲的管理主要是擷取資料,彙總從內部或外部不同來源的資料,並轉換成可存放在資料倉儲的資料。
    2. 組織:在資料倉儲的組織上,則須建立適當且最有效的架構與組成元件。
    3. 運用:資料倉儲的運用,其最終目的在於將資料倉儲中的資料集合,提升其價值並有效地傳遞予資料倉儲之使用者,令其透過終端工具,更深入資料面進行分析。

    (一)資料倉儲系統的資料管理

    1.資料的來源與擷取

    建立資料倉儲,首要先由現行作業系統環境擷取資料。資料倉儲系統通常可以擷取不同來源資料,利用其跨多重資料庫架構(Multiple Engine Architecture)的技術,使得系統對於關聯性資料庫、階層性資料庫、網路上資料庫管理系統等等多種資料庫均能讀取。(註31)

    2.資料的轉換

    將載入資料倉儲中的來源資料會有重複、不一致、錯誤或不需要等問題,因此須將存放在作業系統下的資料做轉換,藉由資料聚引(Data Join)及資料複製(Data Replication)進行資料重整,使這些資料能依某一主題,以整合性、一致性及不常變動的結構存放於資料倉儲中。在資料倉儲中轉換資料的機能包括:

    1. 資料的整合:無論資料來自系統所提供或使用者自定,均能夠整合不同資料格式。
    2. 資料有效化:篩選資料來源以確認是否有無效資料或異常資料出現。
    3. 資料的挖掘(Data Mining):在此階段確認資料間的趨勢及關係,並將異常或例外的資料捨棄,以達到將資料去蕪存菁的目的。
    4. 資料的簡化:這些不同來源的資料除了可利用邏輯條件來篩選,亦可利用摘總(summarized)的程序來完成。每個階段的摘總都可以減化細項資料,並改善執行效率及減低前置處理動作。

    3.資料的載入

    隨著資料的載入,有兩種方法可以更新此資料倉儲。其一為將資料完全更新,但在大部分的情況下,重新載入資料並非易事,因為資料體積的增加是來自底層作業系統。其二則為更新改變部分的資料,亦即只載入有所改變的資料。而在資料倉儲中有關資料載入的設計,必須選用強而有彈性的工具來載入資料,並排定更新時間。(註32)

    (二)資料倉儲系統的資料庫組織

    1.Metadata資料庫

    所謂的元資料(Metadata)是專門管理資料的資料,其記載了資料倉儲中資料的原先存放位置、格式及涵義等資訊。對資料倉儲的管理者而言,元資料提供了自動蒐集、轉換、輸入資料到資料倉儲的訊息,令其可有效地監控資料倉儲;對於終端使用者而言,資料倉儲亦提供了倉儲資料內容的視覺化,指引使用者在資料倉儲中組合所需的資料。(註33)

    2.倉儲資料庫

    倉儲資料庫存放著來自各資料源目前及歷史資料,資料庫本身除了能提供強大的資料存取及運算能力外,尚需具備各種資料庫工具(如效能監控、資料備份、重整等等)。目前的倉儲資料庫依其儲存資料的方式可分為兩類:多維式資料庫和關聯性資料庫,若以維護工具的種類、資料庫技術的成熟度和資料庫存放的彈性來看,關聯性資料庫為目前較佳的選擇,又由於多維度分析需求的增加,可預見將來關聯性資料庫必將針對多維資料的存取功能有更佳的調整。(註34)

    整個資訊還必須以不同層級的明細資料存放,以便使用者能夠快速地擷取資料或製作報表。典型之不同層級的明細資料有(見圖七):(註35)

    1. 高度總摘資料(Highly summarized)
    2. 低度總摘資料(Lightly summarized)
    3. 目前細項資料(Current detail)
    4. 歷史資料(old or historical detail)

    (三)資料倉儲系統的前端開發工具

    前端開發工具目的即是要讓使用者可以透過簡易的圖形操作介面來存取並分析資料。使用者需要特殊的工具,以便能很快地抓到相關的資料,並且跨越不同的資料維度(data dimension)來查詢資料。工具的用途不應該只是做資料的存取而已,其應該還能提供一種有效分析資料的方式。前端的開發工具是介於資料倉儲應用系統和使用者之間的主要接觸點,唯有選擇了正確的工具,才能從資料倉儲中得到最大的利益,因此它會是資料倉儲是否能成功的關鍵。(註36)

    1.查詢工具

    在這些工具中,最簡單的就是基本的查詢及報表產品了。此類查詢工具讓使用者不需要熟悉SQL,而有圖形化介面提供點選所需的資料、選擇條件及歸類等方式,再摘選出相關的資料。

    2.線上分析工具

    當一位使用者的需要不只是單一的、靜態的資料觀點,而且它們需要被用來做進一步的處理或操作時,簡單的查詢及報表產生器的功能就顯得不足了。對於這些使用者,線上分析處理(OLAP)的工具將可以對資料提供 「切片與切丁(slice and dice)」的分析能力,即不只是描述事件的狀況,且能分析出發生的原因為何。

    3.主管資訊系統工具

    主管資訊系統包括多層資料的擷取、資料的展現以及模式分析。在報表方面的功能則有多維資料的展現、比較性報表、擴張式報表及多欄位與重疊圖形。在分析及模式方面,則有差異性分析及差異性報表、成功關鍵因子及商業預測,終端使用者則可進一步將這些功能與視覺展示結合。(註37)

    4.資料挖掘工具

    資料挖掘(Data Mining)工具可讓資料倉儲使用者在豐富的倉儲中挖掘精粹,但為避免所挖掘出來的相關資訊過於龐大而使探討過程過於複雜或有所偏離,則應依據可靠的中間資料,以找出和使用者需求最相關的資料。

    資料倉儲的應用現況及未來發展
    (一)資料倉儲的應用現況
    1.資料倉儲於組織決策活動的應用

    當企業日漸成長,與企業決策相關的企業內外資料來源亦日趨龐雜,格式也愈來愈多元,此時想要分析資料之間的關係,獲得決策的參考依據,便成為十分耗時費力的工作。而且,決策分析往往受緊迫的時限壓力,如果分析之成果失去了時效,再好的分析亦是枉然。因此,如何使各種與決策支援可能相關的資料來源加以適當地整合,同時使大量的資料能如自動倉儲般隨心所欲地快速存取,並進行各種可能的資料分析,甚至主動建議可能值得注意的資料對象,使得原本龐雜的資料能變成真正支援決策的有價資訊,則成為企業界迫切想解決的問題。資料倉儲便是為了解決上述問題所應運而生的。

    2.資料倉儲於企業行銷的應用

    許多企業都缺乏足夠的客戶資料來進行有系統的分析和利用,且所面臨的挑戰為如何整合及利用公司龐大的客戶資料,而這些資料常常欠缺一致性、重複且是分散在不同的資料庫與大型主機或伺服器中,資料倉儲正是用來解決此一問題的有效方案。(註38)

    資料倉儲應用於企業行銷包含各層面:(註39)

    a. 市場區隔與核心市場的發現

    適當的市場資料分析與描繪可讓企業發掘、拓展並掌握具有價值的客戶,也能察覺潛在的市場機會。另外,企業組織容易以主觀的觀點來詮釋客戶之價值,而資料倉儲則可提供宏觀且整合的市場資訊來克服這項偏見,令企業組織能以更公正客觀的角度來衡量客戶價值。

    b. 掌握既有市場

    資料倉儲可利用過去客戶資料歸納出造成客戶流失的動機及特徵,令企業組織可藉以採取預妨措施,以持續掌握既有市場。另外,也可利用資料倉儲來分析市場的變動性,及各行銷策略與市場間之互動,進而在策略的抉擇與行銷的設計上做適切的修飾。

    c. 行銷方案設計的輔助

    資料倉儲可以精確地指出有用的交叉銷售機會,並根據企業的定位與特定客戶群,來擬定銷售的設計與規劃,以指出適切的銷售技巧、行銷時機與活用企業資源,令行銷方案的施行收受最佳的市場利益。

    (二)從資料倉儲概念看資料庫的未來發展

    隨著資訊量的爆增,資訊科技的發展,以及資訊需求的轉變,今日對於資訊的處理與應用之模式與方法亦隨之持續地改變。目前盛行的資料庫管理系統,或是日漸受矚目的資料倉儲系統多以「結構化資訊」為資料庫內容,然而現今有超過90%的資訊仍是以文件或「非結構化資訊」的形式存在,包括各種文件或印刷品,例如報告、表格、信件、藝術作品與照片等等。(註40)

    所謂「結構化資訊」是指其資料具有結構性與資訊重組的特性。而「非結構化資訊」則有如一般文書檔案,其內容已固定,運用時至多以全文檢索方式探索所需之內容,且難以打破「一篇文章」這樣的單位限制,而從各文件中粹取並重組所需資訊即因此遭遇阻礙。現今的資訊需求上,求得一整合有用的資訊,比取得大量的文件資料要來得迫切,故如何將結構化資訊與非結構化資訊的優點特色統合,實為資訊應用上應努力發展的方向。

    因應資訊需求的趨勢,即可在既有之學術文件資料庫的基礎下,引伸資料倉儲的概念,而建立成一個「文件倉儲」。文件倉儲的建立可利用共同的擷取、存取、查詢及維護等機制將不同的資訊按照類型分類,將分散在文件中的資訊充分整合、分析並儲存於集中的資料倉儲中,其亦提供完備的Metadata資訊支援文件倉儲系統的組織與運作,再配合使用者前端工具,進一步依據使用者需求分析、挖掘、粹取出包含於文件倉儲中的有用資訊。然而,現階段的文件倉儲系統並未成為具規模的套裝產品,所以目前應先發展文件擷取、存取及查詢之標準以支援建立一個文件倉儲作業能力的需求,同時也應建立更進一步的技術以支援文件倉儲系統的建構與應用。又,再考量資料型式多元化的趨勢,資料倉儲中所收錄的資料內容,更不能只拘泥於結構化資訊或文字資料,而必須擴展至圖形、影像、聲音等範疇了。(註41)

    資料蒐集,其實很容易,現在已經有包羅萬象的資料庫提供了豐富的資料來源。但是,面對收集而來的成堆資料,到底真正想要的資訊在那裡?這問題才是最令人頭痛的。因此,如何分析、擷取收集來的資料,以成為對我們有用的資訊,才是資訊利用上最重要的部分。

    資料倉儲的概念,是因企業界之需求的刺激所發展出來的,其中一些觀念可謂原本是從圖書館界首先提出,如MARC的概念即是延伸到metadata的設計上了。而資料倉儲於企業界與資訊界已漸趨成熟,圖書館界基於資訊技術應用上仍可從資料倉儲的慨念與技術中,學習其他領域於利用資訊、管理資訊上不同的看法或方式,也可經由這樣的學習,將圖書館既有之資料庫應用模式,做更好的轉變與發展。

/ back to top / back to DataWarehouse Content /


Last Modified : 1999/07/24
ycchuang   LIPS  LIS  NTU   http://lips.lis.ntu.edu.tw/ycchuang/