Skip to content

Latest commit

 

History

History
25 lines (22 loc) · 1.41 KB

README.md

File metadata and controls

25 lines (22 loc) · 1.41 KB

Статистика употребляемости слов в группах по 2, 3 и 4 слова

Выложенные в подкаталоге Data файлы в формате csv с табуляцией в качестве разделителя содержат начальную часть статистики сочетаемости для 2, 3 и 4-грамм слов. Каждая запись дает числовую оценку того, насколько слова вместе (в пределах некоторого задаваемого окна) употребляются чаще, чем порознь. Например, файл mutual_info_2_ru.dat-head.tsv содержит записи:

об	этом	0.00116073817480356
_num_	года	0.00106854864861816
может	быть	0.000995978713035584
_num_	году	0.000842034991364926
_num_	_num_	0.000812682905234396
у	него	0.000775158114265651
у	нас	0.000720254320185632
у	меня	0.00065116147743538
потому	что	0.000616979028563946
ничего	не	0.000597607053350657
самом	деле	0.000565686321351677
сих	пор	0.000559956533834338
не	было	0.000548108830116689

Сборка статистики выполнялась программой, исходники которой выложены в этом репозитории.