Extract speech feature vectors for HMM-based Vietnamese speech synthesis system

Phan Thanh Sơn,Dương Tử Cường

doi:10.15625/1813-9663/29/1/2303

Abstract

Phương pháp tổng hợp tiếng nói dựa trên mô hình Markov ẩn (HMM) chỉ cần một kho ngữ liệu tiếng nói thu âm sẵn đủ lớn (bao hàm tất cả các âm vị của một ngôn ngữ) để phục vụ cho mục đích huấn luyện. Trong phương pháp này, mô hình thống kê được sử dụng để mô hình hóa sự phân bố của các véc tơ âm thanh phụ thuộc ngữ cảnh, các véc tơ này được trích rút từ tín hiệu tiếng nói, mỗi véc tơ là một tham số đặc trưng cho khung tín hiệu và các qui tắc ngữ âm tiếng Việt, phục vụ cho quá trình tổng hợp tiếng nói. Hiệu quả của hệ thống bị hạn chế bởi mức độ chính xác khi tham số hóa các đặc trưng tiếng nói và phương pháp tái tạo tín hiệu tiếng nói từ những tham số này. Bài báo này giới thiệu một phương pháp trích chọn các tham số MFCC, F0 và tái tạo tín hiệu tiếng nói chất lượng cao sử dụng bộ lọc MLSA. Phương pháp này thích hợp cho tổng hợp tiếng nói dựa trên HMM và kết quả của nó được đánh giá qua thực tế là khá tốt so với một số phương pháp khác.

Full Text