-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
file issues #2
Comments
训练语料文件按行读取,每个gram用空格隔开。(例如:中文基于字的ngram:我 爱 自 然 语 言 处 理 tag语料文件是指什么?目前该源码只提供了训练语言模型和计算句子概率的功能 |
真的很高兴收到你的回复,谢谢你的解答,我正在想着去算一个句子概率,今天看了一天你的代码,还是云里雾里的不知道怎么调用,可能我太菜了,我再研究研究。 |
用语言模型做句子合法性验证的话,这个方法不知道行得通不。你可以考虑下,句子的概率是若干n元的乘积,句子越长得到的概率越低,句子越短概率越高。所以有可能一个长的合法的句子的概率会比一个短的非法的句子概率还低。所以阈值跟句子长度应该有个关系,不应该是一个固定的值。这只是我的猜测,如果有理论支持的话也可以。据我听说好像有某大厂的员工用LM深度学习模型做句子合法新验证。 至于你说的LMTrainer,是我用这个模型框架训练了两个ngram模型,一个是基于词的语言模型一个是词性的语言模型。两个互不相关,只是测试下这个框架能否正常工作。 |
嗯嗯,谢谢你的解答,获益匪浅,很感谢。 |
客气了,互相学习 |
用语料去训练三元模型,打印出下面一句话,有点懵,训练模型文件也没有生成 |
程序运行结束后,模型文件没有生成? |
不好意思,公司比较忙没及时回复。 或者,训练模型后,调用AbstractNGramModelWriter的子类TextFileNGramModelWriter的persist()方法写出模型文件 |
收到您的回信已经很高兴了,很过意不去一直打扰您,我就是用NGramLMTrain 这个类,按照main函数参数提示训练模型,但是最后没有看到生成的模型文件。找不到问题在哪里? |
可以加您微信吗,方便交流一下,我的微信号是:hp950824 |
您好,想知道训练的语料文件是什么样的呢,还有tag语料文件?
The text was updated successfully, but these errors were encountered: