LỜi cảM Ơn em xin được cảm ơn thầy, Thạc sĩ Nguyễn Công Phương, người đã tận tình hướng dẫn em trong suốt quá trình thực tập và làm đồ án tốt nghiệp



tải về 2.34 Mb.
trang1/6
Chuyển đổi dữ liệu23.01.2018
Kích2.34 Mb.
#9054
  1   2   3   4   5   6

Đồ án tốt nghiệp



LỜI CẢM ƠN
Em xin được cảm ơn thầy, Thạc sĩ Nguyễn Công Phương, người đã tận tình hướng dẫn em trong suốt quá trình thực tập và làm đồ án tốt nghiệp.

Xin được gửi lời cảm ơn đến thầy Nguyễn Quốc Cường, anh Nguyễn Quang Vinh, toàn thể các thầy cô giáo, các anh chị, các bạn sinh viên tại trung tâm MICA và tất cả những người đã giúp đỡ và tạo điều kiện cho em hoàn thành đồ án này.



MỤC LỤC

MỞ ĐẦU 4

I. Nội dung đồ án 4

II. Trung tâm nghiên cứu quốc tế MICA 5

CHƯƠNG I: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 6

I. Các khái niệm và đặc điểm âm học của tiếng nói 8

II. Các hướng tiếp cận trong việc tự động nhận dạng tiếng nói 9

III. Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói 11

1.Mô hình LPC (Linear Predictive Coding model) 11

2.Phương pháp MFCC (Mel-Frequency Ceptrum Coefficients) 17

IV. Một số vấn đề khác 19

1.Vấn đề xác định điểm đầu và điểm cuối của tín hiệu (speech detection) 19

2.Lượng tử hoá Vector 20

CHƯƠNG II: CÁC THUẬT TOÁN VÀ MÔ HÌNH NHẬN DẠNG TIẾNG NÓI 24

1. Mô hình Markov ẩn (HMM) 24

2.Các thành phần của HMM 24

3.3 vấn đề của HMM 25

4.Áp dụng vào bài toán nhận dạng các từ riêng biệt 25

5.Giải quyết 3 vấn đề của HMM 26

6.So sánh 2 mô hình HMM 31

7.Các cấu trúc mô hình HMM và lựa chọn mô hình cho bài toán 32

8. Mô hình sử dụng mạng Neuron 33

1.Một số khái niệm cơ bản về mạng Neuron 33

2.Kiến trúc mạng Neuron 35

3.Những điểm mạnh của kiến trúc mạng Neuron 37

4.Qui trình học cho mạng tiến MLP 1 lớp ẩn: 37

CHƯƠNG III : THỰC HIỆN BÀI TOÁN NHẬN DẠNG 40

I. Sử dụng mô hình HMM 40

1.Xây dựng thuật toán trên nền công cụ Matlab. 40

2.Chạy thử và kiểm tra kết quả 42

II. Sử dụng mạng Neuron 44

1.Xây dựng thuật toán trên công cụ Matlab 44

2.Các kết quả thu được ứng với từng phương pháp trích đặc trưng 46

III. Nhận xét kết quả : 46

CHƯƠNG IV : CÀI ĐẶT THUẬT TOÁN NHẬN DẠNG TRÊN VI XỬ LÍ DSP 48

I. Giới thiệu về DSP C6713 48

II. Một số đặc điểm kĩ thuật của DSP C6713 48

III. Bộ DSK 6713 49

IV. Bộ Codec AIC23 50

V. Code Compose Studio (CCS) 51

I. Cài đặt thuật toán nhận dạng trên DSP 6713 52

VI. Thu tín hiệu âm thanh trên DSK 6713 52

VII. Cài đặt thuật toán trích đặc trưng MFCC và mạng Neuron lên chip DSP 52

KẾT LUẬN 53

TÀI LIỆU THAM KHÁO 54



MỞ ĐẦU

I.Nội dung đồ án


Nằm trong khuôn khổ của dự án VLSR…. Nhằm hoàn thiện một hệ thống phân tích, tổng hợp, nhận dạng và xây dựng giao diện tương tác Người-Máy bằng ngôn ngữ tiếng Việt, đề tài tốt nghiệp của em nhằm mục đích xây dựng mộ hệ thống nhận dạng 10 từ khoá âm thanh để điều khiển thiết bị, máy móc.

Những công việc cần làm khi thực hiện đề tài:



  • Nghiên cứu thuật toán nhận dạng từ khoá độc lập: Tìm hiểu về nhận dạng tiếng nói, đặc biệt là nhận dạng từ khoá rời rạc. Trong đó cần tìm hiểu các nghiên cứu về các thuật toán phân tích đặc trưng âm thanh (Tần số, cường độ, các hệ số quan trọng: MFCC, LPC…) và các mô hình nhận dạng phổ biến (Mô hình Markov ẩn, mô hình Neuron..)

  • Chạy thử, nhận xét kết quả để tìm mô hình và tham số tối ưu cho bài toán với 10 từ điều khiển : Tắt, Bật, Chạy, Dừng, Tiến, Lùi, Trái, Phải, Trên, Dưới.

  • Cài đặt thuật toán trên chip điều khiển DSP (Texas Intrusments): Chuẩn thuật toán nhận dạng về dạng code C để nạp vào chip DSP (vi xử lý được dùng ở đây là TMS320C713).

Với nội dung như trên, đồ án được trình bày với kết cấu như sau:

Phạm vi ứng dụng của đề tài này rất rộng, bài toán nhận dạng tiếng nói tự động có thể ứng dụng để thiết kế hệ thống giao tiếp với máy tính bằng lời nói, các hệ thống điều khiển tự động, điều khiển robot, hỗ trợ người tàn tật, quay số điện thoại bằng lời nói, cửa đóng mở tự động,…



Do hạn chế về kiến thức và thời gian có hạn, đồ án này khó tránh khỏi những thiếu sót. Vì vậy em rất mong nhận được sự chỉ dẫn và góp ý của các thầy cô giáo đề đồ án được hoàn thiện hơn.

II.Trung tâm nghiên cứu quốc tế MICA


Trung tâm nghiên cứu quốc tế MICA được thành lập vào năm 2001 nhằm đáp ứng nhu cầu phát triển Công nghệ thông tin, truyền thông và đa phương tiện ở Việt Nam.

Các lĩnh vực hiện đang được nghiên cứu tại MICA :

  • Xử lý các tín hiệu phức tạp (âm thanh, hình ảnh).

  • Phát triển các ứng dụng đa phương tiện.

  • Xây dựng các thiết bị đo ảo và phân tán.

Trung tâm MICA có ba nhiệm vụ chính sau đây:

  • Tiến hành các hoạt động nghiên cứu chất lượng cao.

  • Đào tạo cán bộ Việt Nam.

  • Trở thành đối tác đắc lực của các ngành công nghiệp dựa vào các chuyên gia tư vấn của nhóm

Các nhóm nghiên cứu của MICA

  • Nhóm SIA: nghiên cứu các hệ thống đo lường tiên tiến.

  • Nhóm TIM: nghiên cứu về xử lí thông tin đa phương tiện.

  • Nhóm API: nghiên cứu về giao thức công nghiệp và ứng dụng.

  • Nhóm tư vấn MICA: tư vấn cho các nhà đầu tư nước ngoài có ý định đầu tư sản xuất tại Việt Nam.

Nhóm SIA

Nghiên cứu về các hệ thống đo lường tiên tiến, với các hướng nghiên cứu:



  • Hệ thống đo lường nâng cao

  • Dụng cụ đo ảo

  • Xử lí nhúng

  • Xử lí phân tán

Hướng nghiên cứu xử lí nhúng tập trung vào việc xử lí tín hiệu nâng cao trên các hệ thống chuyên biệt với chức năng thời gian thực như bộ xử lí DSP hay vi điều khiển. Đồng thời nghiên cứu và triển khai các kiến trúc nhúng và tự động hóa.


CHƯƠNG I: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI


Những nghiên cứu đầu tiên về nhận dạng tiếng nói đã xuất hiện từ những năm 1950, với hệ thống nhận dạng các chữ số riêng biệt cho 1 người nói của Davis, Bidulph, và Balashek tại phòng thí nghiệm Bell. Và đến những năm 1980 thì các hệ thống nhận dạng tiếng nói đã được hoàn thiện với những thuật toán hiện đại. Những hệ thống với vốn từ vựng lớn, độ chính xác cao, nhận dạng tiếng nói liên tục, nhận dạng câu, cũng đã được xây dựng thành công. Và đến ngày nay, ngày càng nhiều các quốc gia thành công trong việc nghiên cứu các hệ thống tự động nhận dạng tiếng nói (ASR – Automatique Speech Recognition). Ở Việt Nam, một trong những trung tâm đi đầu trong việc nghiên cứu nhận dạng tiếng nói, là trung tâm MICA, ĐH Bách Khoa Hà Nội, với nhiều đề tài lớn về phân tích đặc trưng và nhận dạng tiếng Việt, và cũng đã có nhiều kết quả thành công.


Hình 1Mô hình tổng quát của một hệ nhận dạng tiếng nói



tải về 2.34 Mb.

Chia sẻ với bạn bè của bạn:
  1   2   3   4   5   6




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©tieuluan.info 2022
được sử dụng cho việc quản lý

    Quê hương