Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt



tải về 0.64 Mb.
trang1/7
Chuyển đổi dữ liệu02.01.2018
Kích0.64 Mb.
  1   2   3   4   5   6   7

Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt

LỜI CẢM ƠN

Đầu tiên, chúng em xin gởi lời cảm ơn đến Thầy, Cô khoa Công nghệ Thông tin trường Đại học Khoa học Tự nhiên đã tận tình dạy dỗ, dìu dắt chúng em suốt bốn năm đại học.

Chúng em cảm ơn Cô Nguyễn Thị Diễm Tiên, người tận tình hướng dẫn, giúp đỡ, động viên chúng em hoàn thành luận văn này.

Chúng tôi cảm ơn các anh Trần Nguyễn Hoàng Phương, Bùi Ngọc Tuấn Anh, Đoàn Hữu Quang Vinh và các bạn Nguyễn Huy Hoàng, Phan Anh Đức đã giúp đỡ, đóng góp ý kiến cho chúng tôi trong quá trình cài đặt, thử nghiệm chương trình.

Cuối cùng, chúng con cảm ơn Ba, Mẹ và những người thân đã khích lệ, động viên chúng con trong thời gian học tập, nghiên cứu để có được thành quả như ngày nay.

Tháng 7 năm 2004

Sinh viên

Lê Thu‎ý Ngọc – Đỗ Mỹ Nhung



NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN

…………………………………………………………………………………………………………………………………………………………………………

…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

…………………………………………………………………………………………………………………………………………………………………………

…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

…………………………………………………………………………………....

……………………………………………………………………………………

Ngày…… tháng……năm 2004

Ký tên

NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN

…………………………………………………………………………………………………………………………………………………………………………

…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

…………………………………………………………………………………………………………………………………………………………………………

…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

…………………………………………………………………………………....

……………………………………………………………………………………

Ngày…… tháng……năm 2004

Ký tên

MỤC LỤC


Phần 1 : TÌM HIỂU VẤN ĐỀ 2

Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE 2

1. Các bộ phận cấu thành hệ thống search engine 2

1.1 Bộ thu thập thông tin – Robot 2

1.2 Bộ lập chỉ mục – Index 2

1.3 Bộ tìm kiếm thông tin – Search Engine 3

2. Nguyên lý hoạt động 4



Chương 2: BỘ THU THẬP THÔNG TIN – ROBOT 5

1. Ứng dụng của Robot 5

1.1 Phân tích, thống kê – Statistical Analysis 5

1.2 Duy trì siêu liên kế - Maintenance 5

1.3 Ánh xạ địa chỉ web - Mirroring 6

1.4 Phát hiện tài nguyên – Resource Discovery 6

1.5 Kết hợp các công dụng trên- Combined uses 6

2. Robot chỉ mục – Robot Indexing 6

3. Các chiến thuật thu thập dữ liệu [II.1] 8

3.1 Chiến thuật tìm kiếm theo chiều sâu 8

3.2 Chiến thuật tìm kiếm theo chiều rộng 9

3.3 Chiến thuật tìm kiếm theo ngẫu nhiên 10

4. Những vấn đề cần lưu ý của web robot 10

4.1 Chi phí và hiểm hoạ 10

4.1.1 Qúa tải mạng và server – Network resource and server load 10

4.1.2 Sự cập nhật quá mức- Updating overhead 11

4.1.3 Những tình huống không mong đợi – Bad implementations 12

4.2 Tiêu chuẩn loại trừ robot 13

4.2.1 File robot.txt 13

4.2.2 Thẻ META dành cho robot – Robot META tag 14

4.2.3 Nhược điểm của file robot.txt 15

Chương 3: BỘ LẬP CHỈ MỤC – INDEX 18

1. Khái quát về hệ thống lập chỉ mục 18

2. Tổng quan về phương pháp lập chỉ mục ([I.1], [I.2], [II.1]) 21

2.1 Xác định mục từ quan trọng cần lập chỉ mục ([I.1]) 21

2.2 Một số hàm tính trọng số mục từ. ([I.1]) 23

2.2.1 Nghịch đảo trọng số tần số tài liệu (The Inverse Document Frequency Weight) 24

2.2.2 Độ nhiễu tín hiệu (Signal Noise): 25

2.2.3 Giá trị độ phân biệt của mục từ : 25

2.2.4 Kết hợp tần số xuất hiện mục từ và nghịch đảo tần số tài liệu 27

2.3 Lập chỉ mục tự động cho tài liệu 28

3. Lập chỉ mục cho tài liệu tiếng Việt ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11], [IV.12]) 30

3.1 Khó khăn cho việc lập chỉ mục tiếng Việt 30

3.2 Đặc điểm về từ trong tiếng Việt và việc tách từ 31

3.2.1 . Đặc điểm về từ trong tiếng Việt: 31

3.2.2 Tách từ 32

3.3 Giải quyết các vấn đề hiển thị của tiếng Việt (vấn đề chính tả) 35

3.3.1 Vấn đề bảng mã 35

3.3.2 Vấn đề dấu thanh 36

3.3.3 Vấn đề dấu tổ hợp nguyên âm 36

3.4 Giải quyết các vấn đề về từ của tiếng Việt 37

3.4.1 Luật xác định các từ láy 37

3.4.2 Luật xác định các liên từ 38

3.5 Xây dựng từ điển tiếng Việt 38

Chương 4: BỘ TÌM KIẾM THÔNG TIN – SEARCH ENGINE 41

1. Vì sao ta cần một công cụ tìm kiếm (SE) ? 41

2. Các phương thức tìm kiếm 41

2.1 Tìm theo từ khoá – Keyword searching 41

2.2 Những khó khăn khi tìm theo từ khoá 42

2.3 Tìm theo ngữ nghĩa – Concept-based searching 42

3. Các chiến lược tìm kiếm 43

3.1 Tìm thông tin với các thư mục chủ đề 43

3.2 Tìm thông tin với các công cụ tìm kiếm 44

3.3 Tối ưu câu truy vấn 44

3.4 Truy vấn bằng ví dụ 45

Chương 5: MỘT SỐ SEARCH ENGINE THÔNG DỤNG TRÊN THẾ GIỚI VÀ VIỆT NAM 46

1.1 Thư mục của Yahoo, Google 55

1.2 Alltheweb 55

1.3 AltaVista 55

1.4 Lycos 56

1.5 HotBot 56

2. Một số search engine thông dụng ở Việt Nam 56

2.1 Netnam [IV.12] 56

2.1.1 Phương pháp Netnam SE lập chỉ mục dữ liệu 59

2.1.2 Cú pháp tìm kiếm 61

2.1.3 Sử dụng từ khoá để lọc các tìm kiếm 63

2.2 Vinaseek ([IV.11]) 66



Phần 2 : THIẾT KẾ VÀ CÀI ĐẶT 68

Chương 1: THIẾT KẾ DỮ LIỆU 68

1. Cơ sở dữ liệu trong SQL 68

2. Hệ thống tập tin 71

Chương 2: THU THẬP THÔNG TIN 73

1. Cấu trúc dữ liệu 73

1.1 Cấu trúc UrlInfo 74

1.2 Cấu trúc StartUrlInfo 75

1.3 Cấu trúc FileRetrieval 76

1.4 Cấu trúc ProjectInfo 76

2. Xử lý của web robot 78

3. Giải quyết các vấn đề của web robot 83

3.1 Tránh sự lặp lại 83

3.2 Tránh làm qúa tải server 84

3.3 Tránh truy xuất đến các dạng tài nguyên không thích hợp 84

3.4 Tránh các lỗ đen(black holes) 84

3.5 Tránh những nơi cấm robot 84

4. Các thuật toán phân tích cấu trúc file HTML 85

4.1 Thuật toán lấy liên kết 85

4.1.1 Thuật toán ứng dụng cũ đã cài đặt 85

4.1.2 Chọn lựa của ứng dụng mới 90

4.2 Thuật toán lấy tiêu đề 90

4.3 Thuật toán lấy nội dung 91

5. Duy trì thông tin cho CSDL 92

6. Resume project 92

6.1 Nguyên tắc resume của ứng dụng cũ­­­1 93

6.2 Cải tiến của ứng dụng mới 95

Chương 3: LẬP CHỈ MỤC 98

1. Tính trọng số của từ: 98

2. Tập tin nghịch đảo : 99

3. Từ điển chỉ mục 105

4. Quá trình stemming 111

Chương 4: TÌM KIẾM THÔNG TIN 114

Chương 5: CÁC MODULE ,PACKAGE, LỚP CHÍNH CỦA CHƯƠNG TRÌNH 116

1. Các module, package của chương trình 116

2. Các lớp đối tượng chính trong từng module 117

2.1 Module DBController 117

2.2 Module ProcessDoc 117

2.3 Module Query 119

2.4 Module SE 119

2.5 Module Webcopy 120

2.6 Module WebcopyGUI 121

Phần 3 : KẾT QUẢ, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN 123

1. Kết quả thử nghiệm 123

2. Hoạt động của chương trình 125

2.1 Giao diện quản trị 125

2.1.1 Giao diện chính của quản trị 125

2.1.2 Tạo mới project 126

2.1.3 Tạo mới một StartUrl : 129

2.1.4 Xem từ điển chỉ mục 132

2.1.5 Quản l‎ý mục từ 133

2.2 Giao diện tìm kiếm 135

3. Đánh giá 137

3.1 Ưu điểm 137

3.2 Khuyết điểm 138

4. Hướng phát triển 139

4.1 Đối với từng module : 139

4.2 Đối với toàn luận văn: 140

DANH SÁCH CÁC BẢNG 141

DANH SÁCH CÁC HÌNH VẼ 143

TÀI LIỆU THAM KHẢO 145

I. Sách, ebook: 145

II. Luận văn, luận án 145

III. Bài báo 146

IV. Website 146


MỞ ĐẦU

Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được đẩy lên nhằm làm giàu nguồn tài nguyên vô tận này. Tuy nhiên tồn tại một nghịch lý là dù được ví như thư viện toàn cầu, internet vẫn không thoả mãn nhu cầu thông tin của con người. Xung quanh vấn đề này có nhiều nguyên nhân nhưng quan trọng nhất là sự thông hiểu giữa con người và công cụ tìm kiếm trên mạng – search engine – chưa đạt đến mức có thể giao tiếp tốt với nhau.

Hơn nữa, mỗi search engine sẽ mang đặc thù của ngôn ngữ mà nó hiển thị như search engine Tiếng Việt phải giải quyết những vấn đề đặc trưng của Tiếng Việt, cụ thể là vấn đề bảng mã, ngữ pháp trong Tiếng Việt.

Nếu ta hiểu cách thức search engine tổ chức thông tin, thực thi một câu truy vấn và đặc trưng của ngôn ngữ mà search engine sẽ tiếp cận thì ta có thể tối ưu hoá cơ hội nhận được các thông tin hữu ích. Đây là mục tiêu chính của luận văn.




  1   2   3   4   5   6   7


Cơ sở dữ liệu được bảo vệ bởi bản quyền ©tieuluan.info 2017
được sử dụng cho việc quản lý

    Quê hương