Automatyczne rozpoznawanie mowy - wybrane zagadnienia
wyd. 2011, stron 382, rys., tabele. format ok. 16,5 cm x 23,5 cm
wyd. 2011, stron 382, rys., tabele. format ok. 16,5 cm x 23,5 cm
SPIS TREŚCI:
Przedmowa
Rozdział 1. Wprowadzenie
1.1. Czym jest automatyczne rozpoznawanie mowy
1.2. Poziomy rozpoznawania
1.3. Warianty automatycznego rozpoznawania mowy
1.4. Organizacja książki
Rozdział 2. Mowa i sygnał mowy
2.1. Generowanie sygnału mowy
2.2. Sygnał mowy i jego losowy cłiarakter
2.3. Budowa i właściwości organu słuchu człowieka
2.3.1. Poziom głośności dźwięku, krzywe jednakowej głośności
2.3.2. Poziom głośności a głośność
2.3.3. Wysokość dźwięku, skala melowa
2.3.4. Pasma krytyczne, skala barkowa
2.3.5. Maskowanie częstotliwościowe i czasowe
2.3.6. Podsumowanie
2.4. Jednostki fonetyczne
2.4.1. Fonemy mowy polskiej
2.4.2. Podział fonemów
2.4.3. Inne jednostki fonetyczne
2.4.4. Podsumowanie
2.5. Nauka rozumienia mowy przez człowieka i mówienia
2.6. Uczenie systemu ARM i automatyczne rozpoznawanie
Rozdział 3. Parametryzacja sygnału mowy
3.1. Rejestracja sygnału
3.1.1. Warunki akustyczne rejestracji
3.1.2. Warunki techniczne rejestracji
3.1.3. Wybór częstotliwości próbkowania
3.2. Wstępne przetwarzanie
3.2.1. Usuwanie wartości średniej
3.2.2. Skalowanie
3.2.3. Preemfaza
3.3. Prosty algorytm detekcji aktywności mówcy
3.4. Podział sygnału na ramki i okienkowanie
3.5. Cele parametryzacji sygnału mowy
3.6. Melowe współczynniki cepstralne (MFCC)
3.7. Melowe współczynniki cepstralne - możliwe warianty
3.7.1. Parametry estymacji widma
3.7.2. Parametry filtrów melowych
3.7.3. Szerokości filtrów motywowane skalą ERB
3.7.4. Operacja nieliniowa na wartościach widma
3.7.5. Spłaszczanie widma i maskowanie czasowe
3.7.6. Wpływ okresowości pobudzenia na widmo sygnału mowy
3.8. Inne metody parametryzacji
3.8.1. Cepstrum z widma liniowego
3.8.2. Współczynniki prognozy liniowej
3.8.3. Współczynniki odbicia i logarytm stosunku współczynników odbicia
3.8.4. Współczynniki cepstralne określone ze współczynników prognozy
3.8.5. Współczynniki prognozy liniowej z psychoakustyczną modyfikacją widma
3.8.6. Trasformacja falkowa
3.9. Wskaźniki głośności
3.10. Parametry dynamiczne
3.11. Wektor obserwacji
3.12. Podsumowanie
Rozdział 4. Uczenie rozpoznawania i rozpoznawanie jednostek fonetycznych
4.1. Czynniki wpływające na sygnał mowy
4.1.1. Różnice międzyosobnicze
4.1.2. Różnice wewnątrzosobnicze
4.1.3. Różnice regionalne
4.1.4. Kontekst fonetyczny
4.1.5. Warunki środowiskowe
4.2. Zaplanowanie i realizacja nagrań
4.3. Segmentacja i etykietyzacja sygnału mowy
4.4. Losowy charakter współczynników parametryzacji
4.5. Rozkłady prawdopodobieństwa i histogramy
4.6. Kwantyzacja wektora obserwacji
4.7. Aproksymacja histogramów, estymatory rozkładów prawdopodobieństwa
4.8. Metodyka rozpoznawania wypowiedzi na poziomie ramek
4.9. Porównywanie skuteczności metod parametryzacji
4.9.1. Skuteczność kompletnych systemów ARM
4.9.2. Zdolności klasyfikacyjne modeli fonemów
4.9.3. Rozpoznawanie pojedynczych ramek
4.10. Podział fonemów na trifony
4.11. Podsumowanie
Rozdział 5. Ustalanie ciągu jednostek fonetycznych
5.1. Dopasowywanie czasowe
5.1.1. Nieliniowe dopasowanie czasowe
5.1.2. Ograniczenia w metodzie dopasowania czasowego
5.1.3. Podsumowanie
5.2. Dyskretne procesy Markowa
5.3. Ukryte modele Markowa
5.4. Zagadnienia do rozwiązania związane z HMM
5.5. Rozwiązanie problemu oceny
5.6. Rozwiązanie problemu detekcji
5.6.1. Algorytm Viterbiego
5.7. Klasyczne rozwiązanie problemu estymacji
5.7.1. Algorytm Baum-Walcha
5.7.2. Właściwości algorytmu Baum-Walcha
5.7.3. Modyfikacja algorytmu Baum-Walcha dla licznego zbioru uczącegc
5.8. Nieergodyczne ukryte modele Markowa
5.9. Ukryte modele Markowa z ciągłymi rozkładami prawdopodobieństwa . . .
5.10. Czasy trwania stanów w modelach Markowa
5.10.1. Dyskretna postać czasów trwania stanów
5.10.2. Ciągła postać czasów trwania stanów
5.10.3. Zależne od czasu modelowanie przejść
5.11. Uwagi dotyczące implementacji
5.11.1. Skalowanie wartości prawdopodobieństw częściowych
5.11.2. Warunki początkowe
5.11.3. Uczenie z ograniczeniami
5.11.4. Szeregi Markowa a detekcja aktywności mówcy
5.12. Wybór modelu HMM
5.13. Inne podejścia do problemu uczenia
5.14. Przykładowe wyniki 2. etapu rozpoznania
5.15. Podsumowanie
Rozdział 6. Końcowy etap rozpoznawania
6.1. Rozpoznawanie bazujące na dopasowaniu modelu
6.2. Rozpoznawanie bazujące na sylabach
6.2.1. Definicja pseudosylaby
6.2.2. Ogólny schemat postępowania
6.2.3. Odległość pomiędzy fonemami
6.2.4. Odległości pomiędzy pseudosylabami
6.3. Rozpoznawanie komend
6.3.1. Obliczanie odległości i rozpoznanie
6.3.2. Uczenie algorytmu końcowego rozpoznawania komend
6.4. Rozpoznawanie numerów
6.4.1. Definicja dwu-cyfr
6.4.2. Algorytm rozpoznawania numerów
6.4.3. Uczenie algorytmu końcowego rozpoznawania numerów
6.5. Podsumowanie
Rozdział 7. Algorytmy wspomagające rozpoznawanie
7.1. Rozpoznawanie w warunkach występowania szumu
7.2. Odszumianie sygnału mowy
7.2.1. Estymacja widmowej gęstości mocy szumu
7.2.2. Realizacja odszumiania
7.2.3. Modyfikacje opisanego algorytmu
7.2.4. Implementacja algorytmu w systemie rozpoznawania komend
7.2.5. Modyfikacja sygnału lub modelu związana z obecnością szumu
7.3. Detekcja aktywności mówcy
7.3.1. Statystyczny YAD bazujący na pojedynczej ramce
7.3.2. Statystyczny VAD bazujący na uśrednieniu widm ramek
7.3.3. Statystyczny VAD bazujący na SNR
7.4. Automatyczna segmentacja sygnału mowy
7.4.1. Metoda filtracji parametrycznej
7.4.2. Detekcja zmian sygnału bazująca na prognozie liniowej
7.4.3. Metody segmentacji wykorzystujące rozpoznawanie
7.4.4. Podział wypowiedzi na sylaby
7.4.5. Podsumowanie
7.5. Estymacja tempa wypowiedzi
7.6. Estymacja i wykorzystanie częstotliwości tonu krtaniowego
7.6.1. Algorytm cepstralny estymacji
7.6.2. Algorytm bazujący na błędzie prognozy
7.6.3. Algorytm korelacyjny z funkcjami grzebieniowymi
7.6.4. Algorytm korelacyjny estymacji
7.6.5. Histogramy częstotliwości tonu krtaniowego
7.7. Podsumowanie
Rozdział 8. Kompensacja cech osobniczych i wpływów środowiskowych
8.1. Kompensacja wpływu zmian środowiskowych i zmienności osobniczych na jakość rozpoznawania
8.1.1. Wpływ zniekształceń i zakłóceń na współczynniki cepstralne
8.1.2. Klasy metod kompensacji cech osobniczych i wpływów środowiskowych
8.2. Odporna parametryzacja
8.2.1. Parametryzacja bazująca na estymatorze minimalnej wariancji
8.2.2. Parametryzacja z optymalnymi filtrami modelującymi słuch
8.3. Grupowanie mówców
8.3.1. Częstotliwość tonu krtaniowego jako wskaźnik wielkości kanału głosowego
8.3.2. Grupowanie bazujące na parametrach kanału głosowego
8.3.3. Grupowanie na bazie szybkości mówienia
8.3.4. Grupowanie na bazie współczynników parametryzacji
8.4. Normalizacja wektora obserwacji
8.4.1. Usuwanie wartości średniej cepstrum
8.4.2. Usuwanie wolnych i szybkich zmian z sekwencji widm
8.4.3. Standaryzacja cepstrum
8.4.4. Nieliniowa normalizacja cepstrum
8.4.5. Korygowanie rozkładów prawdopodobieństwa
8.4.6. Normalizacja opierająca się na aproksymacji funkcji zniekształceń
8.4.7. Normalizacja a długość kanału głosowego
8.4.8. Metoda banków transformacji widma
8.5. Adaptacja parametrów modelu statystycznego
8.5.1. Metoda regresji liniowej i maksymalizacji prawdopodobieństwa
8.5.2. Adaptacja w przestrzeni wektorów własnych
8.6. Podsumowanie
Dodatek A. Wykaz ważniejszych oznaczeń i skrótów
A.1. Oznaczenia
A.2. Skróty
Dodatek B. Probabilystyczny model sygnału, wektorowa zmienna losowa
B.1. Losowy charakter sygnału mowy, konstrukcja modelu probabilistycznego
B.2. Statystyki procesu
B.3. Stacjonarność procesu
B.4. Statystyki i parametry procesu stacjonarnego
B.5. Ergodyczność procesu
B.6. Procesy normalne
B.7. Statystyki wzajemne
B.8. Lokalna stacjonarność
B.9. Wektorowa zmienna losowa
Dodatek C. Elementy teorii estymacji
C.1. Definicje błędów estymacji
C.2. Klasy estymatorów
C.3. Estymatory statystyk procesu
C.4. Estymatory widmowej gęstości mocy procesu
C.5. Spektrogram
Dodatek D. Elementy teorii detekcji
D.1. Detekcja składowej o stałej wartości
D.2. Miary jakości detekcji
D.3. Twierdzenie Neymana-Pearsona
D.4. Detekcja Bayesa
D.5. Ryzyko Bayesa
D.6. Podsumowanie
Bibliografia
Skorowidz