Geographic information quality principles



tải về 354.17 Kb.
trang5/10
Chuyển đổi dữ liệu26.11.2017
Kích354.17 Kb.
#2980
1   2   3   4   5   6   7   8   9   10





Hình B.1 – Khung làm việc được quy định bởi khái niệm chất lượng dữ liệu


image2




DATA

PRODUCER


DATA

USER

Figure B.1 — The framework provided by data quality concepts



Để miêu tả chất lượng của một tập dữ liệu, hai thành phần duy nhất của thông tin chất lượng dữ liệu được công nhận: các thành phần chất lượng định lượng và các thành phần chất lượng phi định lượng. Các phần tử chất lượng dữ liệu là các thành phần định lượng của thông tin chất lượng, các phần tử tổng quan về chất lượng dữ liệu là các thành phần phi định lượng của thông tin chất lượng.

Các phần tử chất lượng dữ liệu cho phép đo của một tập dữ liệu đáp ứng tiêu chuẩn được miêu tả rõ ràng bằng thông số kỹ thuật sản phẩm của nó. Các phần tử chất lượng dữ liệu có khía cạnh riêng biệt được gọi là phần tử con chất lượng dữ liệu. Phần tử con dữ liệu chất lượng có thể được đo hoặc kiểm tra bằng nhiều cách khác nhau. Khái niệm chất lượng dữ liệu công nhận rằng không phải tất cả các phần tử chất lượng dữ liệu cũng không phải tất cả các phần tử con chất lượng dữ liệu và các phương tiện đo và thử nghiệm tiếp theo của chúng có thể áp dụng cho một loại cụ thể của tập dữ liệu. Ngoài ra, một số phần tử con chất lượng dữ liệu có thể áp dụng được và đo hoặc thử nghiệm cho một tập dữ liệu trong khi những phần tử con khác có thể áp dụng và đo hoặc thử nghiệm cho các nhóm dữ liệu nhỏ hơn trong một tập dữ liệu được quy định bởi một phạm vi chất lượng dữ liệu.

Tiêu chuẩn Quốc tế này xác định các phần tử chất lượng dữ liệu chủ yếu như một phương tiện phát hiện và báo cáo danh mục thông tin chất lượng riêng biệt. Tuy nhiên, tiêu chuẩn Quốc tế này bổ sung công nhận rằng các phần tử con chất lượng dữ liệu thường xuyên liên quan đến nhau. Ví dụ, một lỗi tọa độ có thể tạo ra ít nhất hai loại lỗi, lỗi vị trí và lỗi topo. Ý nghĩa của các phần tử con chất lượng dữ liệu về các sản phẩm và cách thức mà các phần tử con chất lượng dữ liệu được xử lý là nhãn quan của người đánh giá chất lượng.

Trong khi đó, phần tử chất lượng dữ liệu cho phép đo một tập dữ liệu đáp ứng các tiêu chuẩn quy định trong thông số kỹ thuật sản phẩm của nó, các phần tử tổng quan chất lượng dữ liệu cho phép đánh giá bổ sung một tập dữ liệu cho một ứng dụng cụ thể bằng cách cung cấp thông tin về mục đích, sử dụng và nguồn gốc.



To describe the quality of a dataset, two unique components of data quality information are recognized: quantitative quality components and non-quantitative quality components. Data quality elements are quantitative components of quality information; data quality overview elements are non-quantitative components of quality information.

Data quality elements allow for the measurement of how well a dataset meets the criteria set forth in its product specification. Data quality elements have distinct aspects known as data quality subelements. Data quality subelements can be measured or tested in various ways. Data quality concepts recognize that not all data quality elements nor all data quality subelements and their subsequent means of measurement and testing are applicable to a particular type of dataset. Additionally, some data quality subelements are applicable to and measured or tested for a dataset while others are applicable to and measured or tested for smaller groupings of data in a dataset specified by a data quality scope.

This International standard identifies data quality elements primarily as a means of detecting and reporting separate categories of quality information. However, this International standard additionally recognizes that frequently data quality subelements are interrelated. For example, a coordinate error may generate at least two kinds of errors, a positional error and a topological error. The meaning of the data quality subelements in terms of the product and manner in which the data quality subelements are handled are the purview of the quality evaluator.

Whereas data quality elements allow for the measurement of how well a dataset meets the criteria set forth in its product specification, data quality overview elements allow for additionally evaluating a dataset for a particular application by providing purpose, usage and lineage information.




B.4 Báo cáo thông tin chất lượng

B.4.1 Khi nào báo cáo thông tin chất lượng

Các tập dữ liệu được tạo ra liên tục, cập nhật và sáp nhập với kết quả mà chất lượng hoặc một thành phần chất lượng của một tập dữ liệu có thể thay đổi. Thông tin chất lượng của một tập dữ liệu có thể bị ảnh hưởng bởi ba điều kiện:

a) khi bất kỳ số lượng dữ liệu nào bị xóa, sửa đổi hoặc thêm vào một tập dữ liệu;

b) khi thông số kỹ thuật sản phẩm của một tập dữ liệu được sửa đổi;

c) khi thế giới thực thay đổi. Điều kiện đầu tiên, sửa đổi một tập dữ liệu, có thể xuất hiện khá thường xuyên. Nhiều tập dữ liệu không phải là tĩnh. Có một sự gia tăng trong việc trao đổi thông tin, việc sử dụng các tập dữ liệu cho nhiều mục đích và cập nhật đi kèm và sàng lọc của tập dữ liệu để đáp ứng nhiều mục đích. Nếu chất lượng báo cáo của một tập dữ liệu là khả năng thay đổi với những thay đổi để tập dữ liệu, chất lượng của một tập dữ liệu được đánh giá lại và được cập nhật theo yêu cầu khi các thay đổi xuất hiện.

Kiến thức đầy đủ của tất cả các phần tử chất lượng dữ liệu có thể ứng dụng và tất cả các phần tử tổng quan chất lượng dữ liệu ngoại trừ cách sử dụng phần tử tổng quan chất lượng dữ liệu nên có sẵn khi một tập dữ liệu được tạo ra. Chỉ có cách sử dụng một tập dữ liệu của nhà sản xuất dữ liệu được ghi nhận kèm theo (giả sử nhà sản xuất dữ liệu thực sự sử dụng các tập dữ liệu). Có một sự phụ thuộc vào người sử dụng dữ liệu để báo cáo việc sử dụng của một tập dữ liệu khác với mục đích dự định của nó do vậy được cập nhật liên tục vào phần tử tổng quan chất lượng dữ liệu cụ thể để phản ánh sự sử dụng xuất hiện không định trước được.

Điều kiện thứ hai, sửa đổi đối với một thông số kỹ thuật sản phẩm của một tập dữ liệu, rất có thể xuất hiện trước khi xây dựng tập dữ liệu ban đầu và trước khi phát hành thông tin chất lượng. Điều đó có thể hiểu được, tuy nhiên, khi một tập dữ liệu được dùng thì thông số kỹ thuật sản phẩm của nó được cập nhật để sửa đổi trong tương lai nhằm cải thiện việc đáp ứng nhu cầu sử dụng của tập dữ liệu đó. Khi thay đổi thông số kỹ thuật sản phẩm, chất lượng của tập dữ liệu hiện tại cũng thay đổi. Thông tin chất lượng cho một tập dữ liệu luôn phản tình trạng của tập dữ liệu theo các thông số kỹ thuật sản phẩm hiện tại.

Điều kiện thứ ba, một sự thay đổi của thế giới thực, xuất hiện liên tục. Thay đổi có thể được gây ra bởi hiện tượng tự nhiên như các vận động trong lớp vỏ của trái đất hay xói mòn, nhưng nó thường là một kết quả hoạt động của con người. Thay đổi thường rất nhanh chóng và mạnh mẽ. Vì lý do này, ngày thu thập dữ liệu là quan trọng khi đánh giá chất lượng của một tập dữ liệu. Trong một số trường hợp, khi đã biết, thậm chí tốc độ thay đổi là mối quan tâm.

Số lượng, và yêu cầu lưu trữ các, thông tin chất lượng có thể vượt quá các ô chứa của một tập dữ liệu. Điều quan trọng là trình bày thông tin chất lượng ngắn gọn, dễ hiểu và có thể lấy lại định dạng dễ dàng.

Thông tin chất lượng cho một bộ dữ liệu, tập dữ liệu hoặc nhóm dữ liệu lớn hơn so với một đối tượng cụ thể, giá trị thuộc tính hoặc sự xuất hiện của một mối quan hệ đối tượng được quy định bởi phạm vi chất lượng dữ liệu thường được chứa trong một tập tin siêu dữ liệu hoặc kho lưu trữ siêu dữ liệu.



B.4 Report quality information

B.4.1 When to report quality information

Datasets are continually being created, updated and merged with the result that the quality or a component of the quality of a dataset may change. The quality information of a dataset can be affected by three conditions:



  1. when any quantity of data is deleted from, modified or added to a dataset;

  2. when a dataset’s product specification is modified;

  3. when the real world has changed. The first condition, a modification to a dataset, may occur quite frequently. Many datasets are not static. There is an increase in the interchange of information, the use of datasets for multiple purposes and an accompanying update and refinement of datasets to meet multiple purposes. If the reported quality of a dataset is likely to change with modifications to the dataset, the quality of a dataset should be reassessed and updated as required when changes occur.

Complete knowledge of all applicable data quality elements and all data quality overview elements with the exception of the data quality overview element usage should be available when a dataset is created. Only the data producer’s usage (assuming the data producer actually uses the dataset) of a dataset can initially be reported. There is a reliance on data users to report uses of a dataset that differ from its intended purpose so that continual updates to this particular data quality overview element can be made to reflect occurring, unforeseen uses.

The second condition, a modification to a dataset’s product specification, is most likely to occur before initial dataset construction and prior to the release of quality information. It is conceivable, however, that as a dataset is used its product specification is updated so that future modifications to the dataset will better meet the actual need. As the product specification changes, the quality of the current dataset also changes. The quality information for a dataset should always reflect the current dataset given its current product specification.

The third condition, a change of the real-world, occurs continuously. Change may be caused by natural phenomena such as movements in the earth’s crust or erosion, but it is most often a result of human activity. Changes are often very rapid and dramatic. For this reason, the date of data collection is important when judging the quality of a dataset. In some cases, when known, even the rate of change is of interest.

The amount of, and storage requirements for, quality information can exceed that for the dataset. It is important to present quality information in a succinct, easily understood and easily retrievable format.

Quality information for a dataset series, a dataset or a grouping of data larger than a feature instance, attribute value or occurrence of a feature relationship specified by a data quality scope is generally contained in a metadata file or metadata repository.


B.4.2 Báo cáo thông tin chất lượng bằng siêu dữ liệu

B.4.2.1 Báo cáo thông tin chất lượng định lượng bằng siêu dữ liệu.

Thông tin chất lượng định lượng có thể được ghi lại cho nhiều phạm vi chất lượng dữ liệu của một tập dữ liệu. Dữ liệu được quy định bởi phạm vi chất lượng dữ liệu bao gồm một bộ dữ liệu mà thuộc về một tập dữ liệu, bản thân tập dữ liệu và các nhóm dữ liệu nhỏ hơn được định vị về mặt vật lý bên trong tập dữ liệu.

Khái niệm chất lượng dữ liệu cho phép thay thế thông tin chất lượng định lượng cho một bộ dữ liệu mà tập dữ liệu thuộc về nó, trong khi chất lượng mọi thành viên của bộ dữ liệu có thể được cân bằng và được đo tốt nhất ở mức bộ dữ liệu. Thông tin chất lượng có thể lưu trữ bằng siêu dữ liệu với bộ dữ liệu, trong trường hợp siêu dữ liệu của tập dữ liệu phải cung cấp một con trỏ tới nó; hoặc thông tin chất lượng có thể được lặp lại và là một phần siêu dữ liệu của tập dữ liệu. Nếu thông tin chất lượng một tập dữ liệu được biết là duy nhất và khác với chất lượng phần còn lại của bộ dữ liệu, các thông tin khác biệt và duy nhất của tập dữ liệu cần phải được cung cấp cho tập dữ liệu và sự thay thế thì không được khuyến cáo.

Thông tin chất lượng định lượng có thể được thu thập và khác nhau giữa một tập dữ liệu và nhiều nhóm dữ liệu nhỏ hơn được quy định bởi phạm vi chất lượng dữ liệu. Lượng thông tin chất lượng định lượng được ghi lại là một phần phụ thuộc vào số lượng phạm vi chất lượng dữ liệu được xác định. Thông tin chất lượng định lượng thường được ghi lại cho dữ liệu được quy định bởi một phạm vi chất lượng dữ liệu chỉ khi nó khác với thông tin chất lượng được báo cáo ở một mức "cao hơn". Nó thường để bắt đầu ở cấp cao nhất của một tập dữ liệu và làm việc thông qua một tập dữ liệu khi báo cáo thông tin chất lượng. Điều này được minh họa trong bảng B.1.



B.4.2 Reporting quality information as metadata

B.4.2.1 Reporting quantitative quality information as metadata

Quantitative quality information may be recorded for multiple data quality scopes for a dataset. The data specified by a data quality scope may include a dataset series to which a dataset belongs, the dataset itself and smaller groupings of data physically located within the dataset.

Data quality concepts allow for the substituting of quantitative quality information for a dataset series to which a dataset belongs, as the quality of all members of the dataset series may be equal and be best measured at the dataset series level. The quality information may be stored as metadata with the dataset series, in which case the metadata of the dataset must provide a pointer to it; or the quality information may be repeated in, and be a part of, the dataset’s metadata. If the quality information for a dataset is known to be unique and differs from the quality for the rest of the dataset series, the dataset’s unique and differing quality information should be provided for the dataset and a substitution is not recommended.

Quantitative quality information may be collected for and differ between a dataset and the many smaller groupings of data specified by a data quality scope. The amount of quantitative quality information being recorded is partially dependent on the number of identified data quality scopes. Quantitative quality information is typically recorded for the data specified by a data quality scope only when differing from quality information reported at a “higher” level. It is typical to begin at the uppermost levels of a dataset and work down through a dataset when reporting quality information. This is illustrated in Table B.1.



Bảng B.1 - Báo cáo thông tin chất lượng định lượng phân cấp

Dữ liệu được quy định bởi một phạm vi chất lượng dữ liệu

Vị trí chính xác/ tuyệt đối hoặc kết quả chất lượng dữ liệu chính xác bên ngoài

Báo cáo vị trí chính xác/ tuyệt đối hoặc kết quả chất lượng dữ liệu chính xác bên ngoài

Tập dữ liệu

1,35

1,35

Tuyến đường

1,10

1,10

Dòng suối

1,35

Không báo cáo

Đường sắt

1,20

1,20

Đường ống

1,80

1,80


Table B.1 — Reporting hierarchical quantitative quality information

Data specified by a data quality scope

Positional accuracy/absolute or external accuracy data quality result

Reported positional accuracy/absolute or external accuracy data quality result

The dataset

1,35

1,35

Roads only

1,10

1,10

Streams only

1,35

Not reported

Railroads only

1,20

1,20

Pipelines only

1,80

1,80


tải về 354.17 Kb.

Chia sẻ với bạn bè của bạn:
1   2   3   4   5   6   7   8   9   10




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©tieuluan.info 2022
được sử dụng cho việc quản lý

    Quê hương