• Không có kết quả nào được tìm thấy

Chương 1. GIỚI THIỆU VỀ KHO DỮ LIỆU

Protected

Academic year: 2022

Chia sẻ "Chương 1. GIỚI THIỆU VỀ KHO DỮ LIỆU "

Copied!
58
0
0

Loading.... (view fulltext now)

Văn bản

Tuy nhiên, các hệ thống này chỉ được thiết kế để nhập dữ liệu hàng ngày hoặc vận hành hệ thống. Chúng cũng có thể cho phép truy xuất dữ liệu đối với một số báo cáo đơn giản. Như vậy, để thực hiện báo cáo, họ phải tổng hợp dữ liệu từ nhiều hệ thống con khác nhau để có thể cải thiện tổng thể các báo cáo.

Sau những vấn đề trên, họ buộc phải xây dựng một hệ thống khác, đó là một cơ sở dữ liệu mới cho các yêu cầu và báo cáo tại hiện trường. Hay còn gọi là kho dữ liệu, là nơi tổng hợp dữ liệu từ tất cả các hệ thống con, thực hiện tính toán trên dữ liệu này và cho ra các bảng mà dữ liệu của bảng đã được tính toán theo một phương pháp cụ thể. Kho dữ liệu là một hướng công nghệ mới được ứng dụng phổ biến cho các bài toán lớn hiện nay như: quản trị doanh nghiệp, y tế, bảo hiểm, ngân hàng, dân số, viễn thông.

Bởi việc xây dựng kho dữ liệu không chỉ giúp doanh nghiệp lưu trữ một lượng lớn thông tin mỗi ngày mà còn giúp nhà quản lý doanh nghiệp trích xuất tài nguyên một cách nhanh chóng và chính xác.

GIỚI THIỆU VỀ KHO DỮ LIỆU

  • Lịch sử phát triển của kho dữ liệu
  • Kho dữ liệu là gì (What is the data warehouse)?
  • Đặc điểm
  • Mục đích của kho dữ liệu
  • Mục tiêu của kho dữ liệu
    • Truy cập dễ dàng
    • Thông tin nhất quán
    • Thích nghi với sự thay đổi
    • Hỗ trợ ra quyết định
    • Bảo mật
  • Các chức năng chính
  • Lợi ích
  • Đặc tính của kho dữ liệu
  • Cấu trúc dữ liệu cho kho dữ liệu
  • Kiến trúc của một hệ thống kho dữ liệu
  • Mối quan hệ giữa kho dữ liệu và khai phá dữ liệu
  • Các lĩnh vực ứng dụng

Điều này cho thấy các yêu cầu kinh doanh dẫn đến cuộc cách mạng dữ liệu. Kho dữ liệu được thiết kế sao cho người dùng có thể tìm thấy thông tin họ muốn và truy cập thông tin đó bằng các công cụ đơn giản. Một kho dữ liệu được xác định rõ ràng, hoạt động tốt có thể trở thành một công cụ cạnh tranh rất có giá trị trong kinh doanh.

Thứ nhất, kho dữ liệu là một cơ sở dữ liệu rất lớn (VLDB). Làm sạch giúp đồng nhất dữ liệu dễ dàng. Dữ liệu đến từ quá trình kinh doanh của công ty có thể từ nhiều năm trước.

Dữ liệu được tóm tắt đơn giản là dấu hiệu đánh giá chất lượng của kho dữ liệu. Dữ liệu tóm tắt cao là điều cần thiết cho việc kinh doanh. Được sử dụng cho các dự án có mục đích lập kế hoạch, chẳng hạn như khai thác dữ liệu.

CÁC YẾU TỐ CƠ BẢN CỦA KHO DỮ LIỆU

Kiểu của dữ liệu và cách sử dụng

  • Kiểu của dữ liệu (Types of data)
    • Ý nghĩa
    • Cấu trúc
    • Phạm vi(Scope)
  • Dữ liệu công việc (Business data)
    • Định nghĩa
    • Tiêu chuẩn cho kiểu của dữ liệu công việc
    • Ba kiểu của dữ liệu công việc
  • Siêu dữ liệu(Meta data)
    • Khái niệm
    • Mục đích
    • Metadata phải chứa các thông tin
    • Tác dụng của metadata
    • Tiêu chuẩn cho các kiểu siêu dữ liệu
    • Ba loại siêu dữ liệu
  • Dữ liệu vượt quá phạm vi của kho dữ liệu (Data beyond the
    • Dữ liệu giống như một sản phẩm(Data as a product)
    • Dữ liệu công việc cá nhân và siêu dữ liệu
  • Dữ liệu bên trong và bên ngoài (Internal and external data) 30

Dữ liệu thời gian thực không giới hạn ở các máy tính lớn hoặc các ứng dụng cũ. Dữ liệu nguồn là tập dữ liệu thường được sử dụng để hỗ trợ quyết định. Quá trình này được thúc đẩy trong dữ liệu thời gian thực ở cấp độ chi tiết.

Dữ liệu tùy chỉnh được coi là một loại dữ liệu nguồn đặc biệt. Siêu dữ liệu được tạo và sử dụng trong giai đoạn này là siêu dữ liệu thời gian sản xuất. Theo định nghĩa về phạm vi kho dữ liệu, siêu dữ liệu thời gian giao hàng nằm ngoài phạm vi của kho.

Siêu dữ liệu thời gian của sản phẩm ổn định so với dữ liệu công việc mà nó mô tả. Thông tin chi tiết về cấu trúc vật lý được lấy từ việc xây dựng siêu dữ liệu thời gian xây dựng. Siêu dữ liệu quan trọng đối với cả người dùng cuối và quản trị viên trong kho dữ liệu.

Siêu dữ liệu sử dụng được lấy từ thời gian sản xuất và siêu dữ liệu tương tự trong nội dung. Chủ sở hữu dữ liệu có thể chia sẻ để đưa ra quyết định kinh doanh. Cấu trúc siêu dữ liệu mô tả sự sắp xếp của dữ liệu.

Dữ liệu bên ngoài phạm vi của kho dữ liệu (Data outside the scope of the data warehouse). Ví dụ, giá trị của một cuốn sách là dữ liệu thông tin của nó. Dữ liệu là một sản phẩm nằm ngoài phạm vi dữ liệu như đã định nghĩa.

Siêu dữ liệu: Siêu dữ liệu hiếm khi bị xóa hoặc đưa vào tổ chức.

Khái niệm kiến trúc dữ liệu(Conceptual data architecture)

  • Các kiến trúc dữ liệu công việc (Business data architectures)
  • Kiến trúc đơn lớp dữ liệu (The single-layer data architecture)
  • Kiến trúc hai lớp dữ liệu (The two-layer data architecture)
  • Kiến trúc ba lớp dữ liệu (The three-layer data architecture)

Trong kiến ​​trúc một tầng, tất cả dữ liệu được xử lý bình đẳng bất kể việc tạo dữ liệu giữa bất kỳ loại dữ liệu nào được mô tả trước đó. Mặc dù không có mô tả chính xác nghiêm ngặt, kiến ​​trúc này chủ yếu đề cập đến tất cả dữ liệu thực sự có thể tồn tại trong thời gian thực. Dữ liệu dẫn xuất có thể tồn tại trong kiến ​​trúc này, nhưng không có sự khác biệt nào đối với dữ liệu thời gian thực từ nguồn gốc.

Sức mạnh của kiến ​​trúc đơn bắt nguồn từ mục tiêu lưu trữ từng phần tử dữ liệu. Lớp dưới cùng, được sử dụng bởi các ứng dụng hoạt động ở chế độ đọc/ghi, là dữ liệu thời gian thực. Ưu điểm thứ hai là người dùng cuối có địa chỉ rõ ràng cần thiết để lưu trữ nhiều dữ liệu khác nhau dưới dạng dữ liệu thời gian thực.

Tuy nhiên, một trong những vấn đề về kiến ​​trúc này là mức độ trùng lặp dữ liệu cao trong lớp dữ liệu nguồn. Khớp dữ liệu từ các bộ dữ liệu khác nhau trong các lớp thời gian thực. Lấy dữ liệu cần thiết cho người dùng từ dữ liệu đã điều chỉnh.

Trong phương pháp này, lớp dưới là dữ liệu thời gian thực, lớp trên là dữ liệu nguồn và các lớp ở giữa là dữ liệu được điều chỉnh. Điều chỉnh dữ liệu giữa các bộ dữ liệu khác nhau trong các yêu cầu dữ liệu thời gian thực giữa các bộ dữ liệu thời gian thực khác nhau đòi hỏi Trong thực tế, sự hiểu biết này được xác định thông qua quá trình mô hình hóa dữ liệu.

Mối quan hệ giữa các lớp điều tiết dữ liệu và mô hình dữ liệu doanh nghiệp là rất quan trọng để hiểu hoạt động của kiến ​​trúc ba lớp. Ứng dụng quản lý cơ sở dữ liệu hóa đơn có chứa bảng khách hàng và bảng hóa đơn.

  • Dữ liệu công việc trong kho dữ liệu (Business data in the data
    • Các hệ thống vận hành (Operational systems)
    • Kho dữ liệu công việc (The business data warehouse)
    • Các kho thông tin công việc ( Business information warehouses -
    • Các nhu cầu dữ liệu đặc biệt (Special data needs)
    • Nhân tố cơ bản cho luồng dữ liệu duy nhất ( The rationate for
    • Hỗ trợ "đối chiếu" các luồng dữ liệu (Supporting " reverse " data
  • Dữ liệu bên ngoài
    • Thông tin quản lý bên ngoài( Exteral management
    • Trao đổi dữ liệu điện tử (Electronic data interchange - EDI):
  • Siêu dữ liệu trong kho dữ liệu (Metadata in the Data warehouse) 44
  • Các hệ thống vận hành (Operational systems)
  • Chức năng kho dữ liệu (Data warehouse functionality)

Ngoài ra, nó là nguồn cho tất cả dữ liệu trong kho lưu trữ thông tin kinh doanh. Cần phải sửa chữa trong hệ điều hành, kho lưu trữ dữ liệu công việc và kho lưu trữ dữ liệu công việc. Các kiểu dữ liệu như vậy được sử dụng làm cơ sở cho hệ thống.

Đây là quy trình hoạt động yêu cầu dữ liệu từ các kho lưu trữ thông tin kinh doanh. Cơ sở lý luận cho luồng dữ liệu một chiều. Thông tin cá nhân phần lớn nằm ngoài phạm vi của kho dữ liệu.

Tuy nhiên, không phải tất cả siêu dữ liệu bắt buộc đều có kiến ​​trúc 3 tầng. DWC chứa tất cả siêu dữ liệu cần thiết cho việc sử dụng và quản lý kho dữ liệu. DWC cũng bao gồm một phần siêu dữ liệu về việc sử dụng hệ điều hành.

Định hướng kiến ​​trúc của các hệ điều hành thường bắt nguồn từ thiết kế kho dữ liệu của chúng. Người dùng cuối sử dụng kho dữ liệu kinh doanh và siêu dữ liệu theo nhiều cách khác nhau. Giao diện thông tin doanh nghiệp (BII) cung cấp chức năng cần thiết cho dữ liệu doanh nghiệp.

Giao diện thông tin doanh nghiệp (BII) là giao diện để truy cập dữ liệu doanh nghiệp. Chức năng này yêu cầu quyền truy cập phức tạp hơn vào Danh mục kho dữ liệu (DWC).

NGÔN NGỮ CHO KHO DỮ LIỆU

  • Khái niệm
  • Bản chất của OLAP
  • OLAP tập trung vào các câu lệnh sau
  • Đối tượng chính của OLAP
    • Khối (Cube)
    • Chiều (Dimension)
    • Các đơn vị đo lường (Measures)
    • Các phân hoạch (Partitions)
    • Một ví dụ vè tổ chức kho dữ liệu trong hệ thống giáo dục

Mỗi chiều có thể chứa một hệ thống cấp độ để chỉ ra sự phân chia rõ ràng về người dùng. Tương tự, một hệ thống chiều thời gian có thể bao gồm các cấp độ năm, quý, tháng và ngày. Ví dụ: nếu chúng ta chọn các cột phức tạp mà tất cả phải có liên quan với nhau, giá trị của chúng có thể được sắp xếp thành một hệ thống phân cấp duy nhất.

Điều này có thể được giải quyết với sự trợ giúp của các hệ thống phân cấp rộng và sâu. Cả khóa ngoại và bảng thực tế tích lũy đều có thể thay đổi trong quá trình truyền tải. Người được cấp phép cũng có thể phân tích sự thiếu đơn xin việc theo một số đặc điểm.

Các sự kiện có thể được coi là phép đo tại giao điểm của các giá trị khóa thứ nguyên. Ví dụ: chúng tôi có thể theo dõi các sinh viên đã đăng ký trước hạn chót. Để minh họa, chúng tôi chỉ định chuỗi sự kiện riêng biệt bằng cách quản lý đối tượng.

Thật dễ dàng để hiểu những gì các đối tượng đã được sử dụng trong thời gian đó. Nhiều tổ chức có thể tham gia vào việc sử dụng các cơ sở. Nó có thể giống như: một tổ chức sở hữu đối tượng trong một khoảng thời gian, trong khi một tổ chức khác cũng đăng ký người dùng của đối tượng.

Chúng ta có thể tưởng tượng một lưu đồ theo dõi sự tham gia của sinh viên trong một khóa học. Trong trường hợp này, một thành phần có thể là một hàng dành cho mỗi sinh viên đi qua các lớp học sau khóa học mỗi ngày.

Hình ảnh

Hình 1:Data warehouse evolution  Các cuộc cách mạng dữ liệu đầu năm 1990:
Hình 2:From data to information
Hình  3:Cấu trúc 3 lớp của kho dữ liệu  Bao gồm ba tầng :
Hình 4: Ứng dụng kiểu Business Intelligence  Các lĩnh vực hiện tại có ứng dụng kho dữ liệu bao gồm:
+7

Tài liệu tham khảo

Tài liệu liên quan

* Sắp xếp dữ liệu là hoán đổi vị trí các hàng để giá trị dữ liệu trong một hay nhiều cột được sắp xếp theo thứ tự tăng dần hay giảm dần... BÀI TẬP 1: Sắp

 ASP.NET là một nền tảng ứng dụng web (web application framework) được phát triển và cung cấp bởi Microsoft, cho phép những người lập trình tạo ra những trang

Hệ thống thiết kế đã ứng dụng và minh chứng các kĩ thuật truyền dữ liệu có dây và không dây, cùng với các cảm biến cần thiết có thể được sử dụng để theo dõi các

Nhà bạn Mai mở tiệm kem, bạn ấy muốn tìm hiểu về các loại kem yêu thích của 30 khách hàng trong sáng Chủ nhật và thu được kết quả như sau :... III./ Tính

Với thời gian hạn chế đồ án đã đạt được một số kết quả như: Tìm hiểu tổng quan về khai phá dữ liệu; ứng dụng của khai phá dữ liệu để phát hiện tri thức; cấu trúc

(Học sinh xem lại các thao tác được sử dụng để làm các bài tập trên) Chủ đề 8: MINH HỌA DỮ LIỆU BẰNG BIỂU ĐỒ2. 1.Biểu đồ và một số dạng

4) Ký tự chuyển dạng xác định cách thức dò đọc dữ liệu trên dòng vào cũng như phương pháp chuyển dịch thông tin đọc được trước khi gán nó cho các địa chỉ tương

l Kiểu tệp bao gồm một tập hữu hạn các phần tử có cùng kiểu dữ liệu được lưu trữ trên bộ nhớ ngoài.. l Số phần tử của tệp không cần xác định