语音设别项目记录

搭了hexo很久了,并没有真的在上面写过博客,正好现在要做毕业设计,就把做毕设过程中看的学的一些东西用博客记录一下。
今天看了li-boli-bo在2012参加gsoc做的一个项目,刚好他使用的是sphinx做为语音设别引擎,所以可以做为参考。

看了一下他的实现,在做pronunciation assessment的时候,他只是使用了sphinx的特征向量提取功能和force-alignment功能。然后根据结果进一步去得出acoustic score和duration score。
具体怎么实现我暂时的推断是通过force-alignment对齐输入语音和标准语音之后可以计算两者之间的acoustic likelihood和duration likelihood,最后转换成分数值。
至于这个过程是怎么实现的,还需要进一步去看他的代码。
在google的过程中发现了isip机构上的课程,感觉里面的资料比许多中文资料靠谱多了,可以多看看。