overview of speech recognition
看了isip上的一个语音设别的介绍,感觉挺有用的,记录一下。
声学模型
声学模型的定义
声学模型是对语音在发声层面上的数字描述。这个定义涉及到了两个概念,第一个是语音,即音标,将单词的发音限制在有些的音标组合中;第二个是音标的数字描述,通过对发声信号的特征向量的提取来数字化描述音标。
声学模型的作用
语音设别的过程就通过将说话者语音在声学特征上的度量跟声学模型中的标准进行比较来分析说话者的内容。
马尔可夫链
马尔可夫链描述的是一些随机的变量序列,这些变量每一个出现的概率都只跟前一个有关,也就是说,对于序列X,Y,Z而言,其概率
P(X,Y,Z) = P(X)P(Y|X)P(Z|Y)
所以,我们只要通过观察得知变量之间的转换概率,就能够得到一个指定序列的概率。
隐马尔可夫链
隐马尔可夫链是在马尔可夫链的基础上,假设随机变量序列是不可见的,但是会有与变量相关的输出可以观察到,而且指定时刻的输出只与当前的变量有关。
因为说话人的说话内容是事先未知的,同时是没有办法观察到的,只能通过收集到的语音音频数据来推断说话人的内容,所以可以用隐马尔可夫模型来模拟语音设别问题。
隐马尔可夫链比马尔可夫链具有更大的实用价值,除了用于语音设别,还可以用于搜索引擎网页排序,数据挖掘等,引用isip上的一句话:
This predictive power makes it well-suited for modeling stochastic (random)events and processes in which we must determine behavior that cannot be directly known.
#隐马尔可夫链在声学模型建模中的作用
#word level和phoneme level的隐马尔可夫链
#怎么在这些远离的基础上去使用gop算法