• Không có kết quả nào được tìm thấy

THƯ VIỆN SỐ GREENSTONE

N/A
N/A
Nguyễn Gia Hào

Academic year: 2023

Chia sẻ "THƯ VIỆN SỐ GREENSTONE"

Copied!
44
0
0

Loading.... (view fulltext now)

Văn bản

Tài liệu này mô tả cách tạo bộ sưu tập CD-ROM từ tài liệu giấy. Đặt quyền và bản quyền sử dụng các tài liệu này trong thư viện số. Sử dụng máy quét và ORC để chuyển đổi tài liệu giấy thành dạng kỹ thuật số.

Chuyển đổi các tài liệu này thành định dạng (có thể tích hợp văn bản và hình ảnh) mà Greenstone hiểu được (tốt nhất là HTML, tài liệu do Microsoft Word chuẩn bị, một số định dạng khác cũng được).Được chấp nhận nhờ phần bổ trợ nhưng với mức độ chính xác khác nhau ( xem Hướng dẫn sử dụng Greenstone để biết thêm thông tin) v. Bước đầu tiên trong việc biến giấy tờ thành một bộ sưu tập thư viện Kỹ thuật số có nghĩa là có hình ảnh của các trang tài liệu ở dạng kỹ thuật số. Máy quét tốt nhất và nhanh nhất thuộc loại này có thể quét cả hai mặt của tài liệu cùng một lúc.

Công việc này có thể được thực hiện bởi máy quét tài liệu hoặc bởi người khác.

Hiệu suất và các tài nguyên

Thông thường, chi phí scan tài liệu của công ty chuyên nghiệp là 0,06 USD/trang. Để tính toán chi phí trên mỗi trang, chúng tôi nhân tổng chi phí nhân công theo giờ với cột thứ 2 trong bảng 1. Các tính toán này giả định rằng máy in được sử dụng ở mức vừa phải để điều chỉnh chi phí đầu tư.

Cột cuối cùng hiển thị số trang được quét cho mục đích thương mại với chi phí 0,06 USD/trang cho mỗi máy quét. Chi phí của một máy quét chuyên nghiệp cấp thấp khoảng $6000 chỉ có thể được điều chỉnh nếu nó cần quét hơn 100.000 trang.

Bảng 1 thẩm định chi phí quét tài liệu ứng các loại máy quét khác nhau. Ba  cột đầu  liên quan đến chi phí lao động
Bảng 1 thẩm định chi phí quét tài liệu ứng các loại máy quét khác nhau. Ba cột đầu liên quan đến chi phí lao động

OCR: Nhận dạng kí tự

  • Tiến trình nhận dạng kí tự
  • Hiệu năng và các tài nguyên
  • Các hình thức khác trong tiến trình nhận dạng kí tự
  • Kết hợp giữa việc quét và nhận dạng kí tự

Tự quét cần có máy quét, phần mềm nhận dạng ký tự và đảm bảo chất lượng. Có 4 điểm cần đặc biệt lưu ý trong quá trình này: kiểm soát chất lượng, bảng biểu, hình ảnh và tài liệu chuyên ngành như công thức, ký tự của quốc gia khác. Chúng tôi khuyên dùng định dạng sau cho tên tệp hình ảnh: 5 hoặc 6 ký tự đầu tiên chỉ định tài liệu nào, tiếp theo là vị trí trang chứa hình ảnh.

Nhiều tài liệu chuyên ngành chứa các ký tự đặc biệt, công thức và các trang phức tạp. Cần thiết lập cài đặt ngôn ngữ thích hợp cho chương trình nhận dạng ký tự. Các tính toán này giả định rằng tài liệu có số lượng hình ảnh và bảng trung bình, chẳng hạn như hình và bảng có 5 hàng và 5 cột trên mỗi trang. 8 trang tài liệu và hình ảnh tài liệu có chất lượng trung bình. Điều này phụ thuộc vào chất lượng quét cũng như khả năng ngôn ngữ của những người tham gia vào quá trình nhận dạng ký tự.

Như vậy chi phí cho một trang tài liệu trong quá trình nhận dạng ký tự là 1,2USD-1,6USD/trang. Chi phí quét tài liệu của chính bạn với chi phí quét tài liệu do đối tác quét cũng nên được so sánh. Ưu điểm của việc ghi đè tài liệu là không cần chi phí cho các chương trình nhận dạng ký tự và không cần máy tính mạnh.

Mặt khác, sử dụng chương trình nhận dạng ký tự cần có máy tính mạnh. Một hình thức rất rẻ tiền khác của quá trình nhận dạng ký tự là tạo các trang hình ảnh ở định dạng tài liệu PDF. Đối với một số lượng lớn tài liệu, tất cả các tài liệu phải được quét trước khi thực hiện nhận dạng ký tự.

Bảng 2: OCR productivity
Bảng 2: OCR productivity

Toàn bộ tài liệu từ một tổ chức: 5000 trang

Một cách khác là góp tiền với một tổ chức khác để mua một máy quét tốt hơn (6000 USD chia cho số đơn vị tham gia). Mất khoảng 25-30 tháng làm việc bán thời gian để chuyển đổi 5000 trang tài liệu thành tài liệu Word hoặc HTML. Tổ chức trả tiền cho những người quét và giám sát hiệu suất và chất lượng.

Thư viện nhỏ: 100,000 trang

Tài liệu ở định dạng PDF có thể chiếm 4-6Gb và khó tải xuống từ Internet, nhưng có thể tiết kiệm 0,2USD/trang. Mất khoảng 10-20 tháng làm việc bán thời gian để chuyển 80.000 trang tài liệu thành PDF trên một máy tính mạnh.

TẠO RA MỘT BỘ SƯU TẬP ĐIỆN TỬ

Các phương pháp xây dựng tập hợp

Phần mềm Thư viện số Greenstone sẽ tạo ra một thư viện số có cấu trúc bao gồm công cụ truy xuất tài liệu. Tài liệu đi kèm mô tả cách xây dựng bộ tài liệu cho Greenstone. Các bộ tài liệu nhỏ có thể được xây dựng một cách tương tác bằng cách sử dụng hệ thống con có tên là "Người sưu tập" được mô tả trong tài liệu người dùng của phần mềm, hướng dẫn bạn qua một loạt trang tương tác để yêu cầu thông tin cần thiết.

Đặc biệt đối với các tài liệu lớn và phức tạp, chúng tôi khuyên bạn nên sử dụng quy trình tạo dòng lệnh được mô tả trong tài liệu đi kèm. Bạn phải đọc hướng dẫn trong Chương 2 để sử dụng phần mềm để xây dựng các bộ tài liệu nâng cao, phức tạp.

Công cụ tổ chức

Danh sách Tài liệu: chọn nút Tài liệu sẽ hiển thị danh sách tất cả các tài liệu Chủ đề Toàn cầu trong cơ sở dữ liệu (các tài liệu này từ bất kỳ tài liệu được liên kết nào hoặc chưa được liên kết với bộ sưu tập). Loại tổ chức: chọn nút Tổ chức sẽ hiển thị danh sách tất cả các tài liệu có chủ đề chung trong cơ sở dữ liệu (các tài liệu này là từ một trong các tài liệu được liên kết hoặc chưa được kết nối với bộ sưu tập). Danh mục chủ đề: chủ đề là thành viên của lớp con mặc định để truy cập tài liệu của bộ sưu tập.

Có thể sử dụng các từ khóa (dù các danh mục chủ đề có được đánh dấu hay không) để truy xuất tài liệu theo các thuộc tính của nó (sử dụng "Cách thực hiện" trong Thư viện DLS). Bạn sẽ thấy các tài liệu được thêm vào vị trí của chúng trong cấu trúc phân loại chủ đề. Tương tự, bạn có thể sử dụng nút Xóa Tổ chức để di chuyển tất cả tài liệu được liên kết với tổ chức đã chọn khỏi bộ sưu tập (chứ không phải từ Danh mục Tài liệu Toàn cầu).

Để làm việc với chỉ một tài liệu trong bộ sưu tập, chỉ cần thay đổi hộp kiểm để chọn danh mục tài liệu. Từ bản trình bày này, bạn có thể thêm các tổ chức mới, tài liệu mới vào thư mục chung (hộp thoại. Bản trình bày tài liệu: Danh sách tất cả các tài liệu được chọn bao gồm cả tài liệu nhóm) được bật.

Tab Bộ sưu tập nổi bật: Phần này cung cấp danh sách các bộ sưu tập bao gồm tài liệu nổi bật tiếp theo. Để thêm tài liệu từ Bộ sưu tập Demo (Hoặc Bộ sưu tập DLS nếu được cài đặt trên Greenstone) vào bộ sưu tập mới của bạn, hãy nhấp vào nút Thêm Tài liệu và chọn Thêm Tài liệu từ menu chung. Tìm tài liệu bạn cần (Sử dụng tính năng lọc dữ liệu được mô tả ở trên) và thêm tài liệu đó vào bộ sưu tập của bạn trong Trình tổ chức.

Để thêm tài liệu mới vào bộ sưu tập mới của bạn (nghĩa là tài liệu không có trong Bộ sưu tập Demo), hãy nhấp vào nút Thêm tài liệu và chọn Thêm tài liệu mới. Một tài liệu có thể được chỉ định trong bất kỳ số lượng chủ đề.

Đính kèm các file tài liệu

Ví dụ sau đây cho thấy rằng một tài liệu có hai chương, chương thứ hai chứa hai tiểu mục. Để biết các ví dụ thực tế về các tài liệu gốc được thêm vào theo cách này, hãy xem các tài liệu nguồn trong bộ sưu tập Demo và DLS. văn bản của chương 1 ở đây). văn bản tiểu mục 1 tại đây). văn bản tiểu mục 2 tại đây). Lưu ý siêu dữ liệu được chỉ định bởi tiện ích mở rộng trong tài liệu nguồn theo thứ tự ưu tiên được chỉ định bởi tệp metadata.xml (Giống như được tạo bởi Trình tổ chức).

Điều này có nghĩa là bạn không nên chỉ định rõ ràng siêu dữ liệu chủ đề cho cấp cao nhất của tài liệu nguồn trừ khi bạn muốn.

Hình ảnh

Bảng 1 thẩm định chi phí quét tài liệu ứng các loại máy quét khác nhau. Ba  cột đầu  liên quan đến chi phí lao động
Bảng 2: OCR productivity

Tài liệu tham khảo

Tài liệu liên quan

Bố cục đề tài Ngoài lời nói đầu, danh mục tài liệu tham khảo và kết luận, bố cục đề tài gồm 3 chương: Chương 1: Khái quát về Phòng Tư liệu - Thư viện Đài Tiếng nói Việt Nam Chương