-
Notifications
You must be signed in to change notification settings - Fork 0
/
fast.jconf
348 lines (304 loc) · 12.6 KB
/
fast.jconf
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
# Copyright (c) 1991-2006 Kawahara Lab., Kyoto University
# Copyright (c) 2000-2005 Shikano Lab., Nara Institute of Science and Technology
# Copyright (c) 2005-2006 Julius project team, Nagoya Institute of Technology
# All rights reserved
#
# Julius 設定ファイル サンプル for rev.4.1.3
#
# 1) 重要: 相対パスは,*このファイルを起点に*指定してください.
# 2) 空行および # から行末まではコメントとみなします.
# `#'をコマンドに含めたい場合は '\#' としてください.
# 3) 1行の長さは 512 バイト以内に収めてください.
# 4) 各オプションの書式は,コマンドラインで与える場合と同一です.
# 5) このファイル内の各値は Julius のデフォルト値です.
#
######################################################################
#### ファイル指定
######################################################################
##
## 単語2-gram,3-gramファイル
##
# ARPA標準形式
#-nlr /cdrom/lang_m/20k/MNP.111.20k.1.arpa.gz # 2-gram
#-nrl /cdrom/lang_m/20k/MNP.111.20k.rev.1-1.10p.arpa.gz # 逆向き 3-gram
# もしくは
# mkbingramで作成したバイナリ形式
-d model/lang_m/web.60k.8-8.bingramv5.gz
##
## 単語辞書ファイル
##
-v model/lang_m/web.60k.htkdic
##
## 音響HMM定義ファイル
##
# asciiフォーマット,もしくは "mkbinhmmで" 作成したバイナリ形式
# (自動判別される)
-h model/phone_m/hmmdefs_ptm_gid.binhmm
## triphoneモデルの場合,さらに
## 論理的に出現しうる triphone -> 定義されている triphone
## の対応を指定した「HMMListファイル」が必要です.
-hlist model/phone_m/logicalTri
######################################################################
#### 言語モデル詳細設定
######################################################################
##
## 言語重みと挿入ペナルティ
##
## 例えば, "-lmp 8.0 7.0" のとき,言語確率の対数尤度 'log p(w)' は
## (log p(w)) * 8.0 + 7.0' として適用されます.
##
##デフォルト値
##monophone向け
#-lmp 5.0 -1.0 # 第1パス(2-gram)
#-lmp2 6.0 0.0 # 第2パス(3-gram)
##triphone向け
#-lmp 8.0 -2.0
#-lmp2 8.0 -2.0
##triphone向け(v2.1設定):単語間triphoneを第1パスで扱わない場合
#-lmp 9.0 8.0
#-lmp2 11.0 -2.0
##
## 透過単語の追加ペナルティ
##
#-transp 0.0
######################################################################
#### 単語辞書詳細設定
######################################################################
##
## 文頭単語の名前 (単語辞書では無音の読みを付与する)
##
#-silhead '<s>'
##
## 文末単語の名前 (同上)
##
#-siltail '</s>'
##
## エラー単語を無視して続行する
##
#-forcedict
######################################################################
#### 音響モデル詳細設定
######################################################################
##
## Julius が triphone/monophone の自動判別に失敗する場合,
## 以下を試してみてください.
##
#-no_ccd # 音素環境依存性を(強制的に)考慮しない
#-force_ccd # 〃 (強制的に)考慮する
##
## 特徴パラメータの型チェックをスキップしたい場合は,
## 以下を試してみてください.
##
#-notypecheck
#
##
## PTM/triphone 使用時,第1パスの単語間triphoneの音響尤度計算方法を指定する.
##
#-iwcd1 best 3 # 同コンテキストtriphoneの上位N個の平均値 (default, N=3)
#-iwcd1 max # 同コンテキストtriphoneの最大値
#-iwcd1 avg # 同コンテキストtriphoneの平均値
######################################################################
#### Gaussian Pruning パラメータ
######################################################################
## コードブックあたり計算するガウス分布計算数(上位N個)
## 以下のデフォルト値は IPA99 の PTM モデル(1コードブックあたり64混合)
## に合わせた値
#-tmix 2
## Gaussian pruning 法の選択
## 高速版ではbeam,それ以外ではsafeがデフォルトです
#-gprune safe # safe pruning 上位N個が確実に求まる.正確.
#-gprune heuristic # heuristic pruning
#-gprune beam # beam pruning 次元ごとに足切り.高速.
#-gprune none # pruning を行わない
######################################################################
#### Gaussian Mixture Selection パラメータ
######################################################################
#-gshmm hmmdefs # GMS 用モノフォン音響モデルを指定
# 指定なし = GMS OFF
#-gsnum 24 # GMS使用時の選択状態数
######################################################################
#### 探索パラメータ
######################################################################
#-b 400 # 第1パスのビーム幅(ノード数) monophone
#-b 800 # 第1パスのビーム幅(ノード数) triphone,PTM
#-b 1000 # 第1パスのビーム幅(ノード数) triphone,PTM,engine=v2.1
#-b2 30 # 第2パスの仮説数ビームの幅(仮説数)
#-sb 80.0 # score beam envelope threshold
#-s 500 # 第2パスの最大スタック数 (仮説数)
#-m 2000 # 第2パスの仮説オーバフローのしきい値
#-lookuprange 5 # 第2パスで単語展開時のトレリス制約緩和幅(フレーム数)
#-n 1 # 第2パスで見つける文の数(文数)
#-n 10 # ('standard' 設定時のデフォルト)
-n 5
-output 1 # 第2パスで見つかった文のうち出力する数 (文数)
### "./configure --enable-lowmem" 時に有効
#-iwcache 10 # 単語間言語確率キャッシュの大きさ比率
# (100でオプションなしと同等)
### "./configure --enable-lowmem2" 時に有効
#-sepnum 150 # 第1パスで単語木から独立させる高頻度語の数(単語数)
######################################################################
#### 単語グラフ出力 (--enable-graphout)
######################################################################
##
## 同じ単語をマージする
## -1: マージしない(同じ場所の同じ単語でもスコアが異なれば別の候補)
## 0: 同じ位置の同じ単語をマージ
## >0: 始端・終端の差が指定されたフレーム幅以下の同じ単語をマージ
##
#-graphrange 0
##
## 指定以上の深さの単語をカットする (-1: 無効化)
##
#-graphcut 80
##
## 単語境界調整ループ回数の上限
##
#-graphboundloop 20
##
## "-graphsearchdelay" を指定すると,Julius は第2パスで
## グラフ単語のマージによる仮説中断を,最初の文候補が得られるまで
## 行わないようになる.
##
## このオプションは非常に大きいビーム幅を指定してグラフを生成している
## ときに,性能を少し改善する効果がある.
##
#-graphsearchdelay
#-nographsearchdelay # this is default (off)
######################################################################
#### 単語間ショートポーズ
######################################################################
##
## ショートポーズ音響モデルの名前
##
#-spmodel "sp" # ショートポーズ音響モデルの名前
##
## 単語間のポーズに対応する sp 単語を辞書に自動追加する
##
#-iwspword
#-iwspentry "<UNK> [sp] sp sp" # 追加される単語エントリのデフォルト値
##
## 単語末尾にコンテキスト独立なショートポーズを付加(multipath版のみ)
##
#-iwsp # コンテキスト独立な単語間ショートポーズを付与
#-iwsppenalty 0.0 # ショートポーズへの遷移ペナルティ
######################################################################
#### ショートポーズセグメンテーション (--enable-sp-segment 時有効)
######################################################################
#-spdur 10 # 第1パス sp 継続フレーム数
# sp単語が最尤のフレームがこの時間以上継続したら,
# 第1パスを中断→第2パス実行
######################################################################
#### 音声入力ソース
######################################################################
## どれかを選んでください(デフォルト:mfcfile)
#-input mfcfile # HTK形式のパラメータファイル(MFCC)
#-input rawfile # 音声波形データファイル(フォーマット自動判別)
# 形式:WAV(16bit) または
# RAW(16bit(signed short),mono,big-endian)
# 16kHz以外のファイルは -smpFreq で周波数指定
-input mic # マイクから直接入力
# デバイス名は環境変数 "AUDIODEV" でも指定可能 (OSS)
#-input netaudio -NA host:0 # host上のDatLink(NetAudio)から入力
#-input adinnet -adport portnum # adinnet クライアントからの入力
#-input stdin # 標準入力からの入力
#-filelist filename # 認識対象ファイルのリスト
#-nostrip # ゼロ続きの無効な入力部の除去をOFFにする
# (default: 無効な入力部分は除去される)
#-zmean # DC成分の除去を行う (-input mfcfile時無効)
-zmeanframe # フレーム単位のDC成分除去を行う (HTKと同処理)
######################################################################
#### 音声録音
######################################################################
#-record directory # 認識した音声データを連続したファイルに自動保存
######################################################################
#### GMMに基づく入力音検証と棄却
######################################################################
#-gmm gmmdefs # GMM定義ファイル(HTK形式)
#-gmmnum 10 # mixtureごとに計算する上位ガウス分布数
#-gmmreject "noise,laugh,cough" # 検証の結果誤入力として棄却すべきGMMのモデル名
######################################################################
#### 短時間瞬時入力の棄却
######################################################################
#-rejectshort 800 # 指定ミリ秒以下の長さの入力を棄却する
-rejectshort 80 # 指定ミリ秒以下の長さの入力を棄却する
######################################################################
#### 音声区間検出
######################################################################
#-pausesegment # レベル・零交差による音声区間検出の強制ON
#-nopausesegment # レベル・零交差による音声区間検出の強制OFF
# (default: mic または adinnet は ON, file は OFF)
#-lv 2000 # レベルのしきい値 (0-32767)
#-headmargin 300 # 音声区間開始部のマージン(単位: msec)
#-tailmargin 400 # 音声区間終了部のマージン(単位: msec)
#-zc 60 # 1秒あたりの零交差数のしきい値
######################################################################
#### 音響分析
######################################################################
#-htkconf ConfigFile # HTK Configファイルを読み込みパラメータをセットする
#-smpFreq 16000 # サンプリング周波数(Hz)
#-smpPeriod 625 # サンプリング周期(ns) (= 10000000 / smpFreq)
#-fsize 400 # 窓サイズ(サンプル数)
#-fshift 160 # フレームシフト幅(サンプル数)
#-preemph 0.97 # pre-emphasis coef.
#-fbank 24 # フィルタバンクチャンネル数
#-ceplif 22 # cepstral liftering coef.
#-rawe # use raw energy する
#-norawe # use raw energy しない(こちらがデフォルト)
#-enormal # normalize log energy する
#-noenormal # normalize log energy しない(こちらがデフォルト)
#-escale 1.0 # scaling log energy for enormal
#-silfloor 50.0 # energy silence floor in dB for enormal
#-delwin 2 # デルタウィンドウ幅 (フレーム数)
#-accwin 2 # デルタデルタウィンドウ幅 (フレー無数)
#-hifreq -1 # 高域カットオフの周波数(Hz) (-1: disable)
#-lofreq -1 # 低域カットオフの周波数(Hz) (-1: disable)
######################################################################
#### Cepstral Mean Normalization (CMN)
######################################################################
#-cmnsave filename # CMNパラメータをファイルに保存(1入力毎に上書き)
#-cmnload filename # 開始時に初期CMNパラメータをファイルから読み込む
#-cmnmapweight 100.0 # MAP-CMNの初期CMNの重み
#-cmnnoupdate # 発話開始時の初期CMNを,過去の入力から更新せずに,
# -cmnload で読み込んだ初期CMNを保持する
######################################################################
#### スペクトルサブトラクション (SS)
######################################################################
#-sscalc # 先頭の無音部を利用して SS を行う(ファイル入力のみ)
#-sscalclen 300 # SSに用いる先頭の無音部の長さ (msec)
#-ssload filename # ファイルからノイズスペクトルを読み込む
#-ssalpha 2.0 # アルファ係数
#-ssfloor 0.5 # フロアリング係数
######################################################################
#### Forced alignment
######################################################################
#-walign # 認識結果の単語ごとのアラインメント結果を出力
#-palign # 認識結果の音素ごとのアラインメント結果を出力
#-salign # 認識結果のHMM状態ごとのアラインメント結果を出力
######################################################################
#### 単語信頼度計算
######################################################################
#-cmalpha 0.05 # スムージング係数を指定
######################################################################
#### 出力スタイル
######################################################################
#-separatescore # 言語スコアと音響スコアを分けて出力する
#-progout # 第1パスで解析途中から漸次的に結果を出力
#-proginterval 300 # -progout 時の出力のインターバル(単位:msec)
#-quiet # 第1パス・第2パスの認識結果のみ出力
-demo # "-progout -quiet" と同じ
#-debug # 探索中の内部状態を出力させる(デバッグ用)
#-charconv from to # 出力文字コード変換を行う
# from, to で指定できるコード名はマニュアルを参照のこと
######################################################################
#### サーバーモジュールモード
######################################################################
#-module # サーバーモジュールモードで起動
#-module 5530 # (ポート番号を指定する場合)
#-outcode WLPSC # モジュールに出力する情報を選択 (WLPSCwlps)
######################################################################
#### その他
######################################################################
#-help # ヘルプを出力して終了(jconf内では無効)
#-setting # コンパイル時エンジン設定を出力して終了(jconf内無効)
#-C jconffile # 他の jconf ファイルを展開
################################################################# end of file