Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

網頁版? #13

Open
ckhung opened this issue Aug 2, 2020 · 12 comments
Open

網頁版? #13

ckhung opened this issue Aug 2, 2020 · 12 comments

Comments

@ckhung
Copy link

ckhung commented Aug 2, 2020

請問將來會出網頁版嗎 :-)

例如我慣用嘸蝦米。 到了陌生的電腦上沒有嘸蝦米可用時,還好有這個網頁可用:
https://v.im.cyut.edu.tw/~ckhung/boim/
這程式碼是從網路上撿來的。

@imper0502
Copy link
Owner

imper0502 commented Aug 3, 2020

老師您好:
我是有這個計劃,但優先度暫時不高。

目前的優先任務是收集用戶的學習經驗回饋,編寫教材。(github wiki page)
在雙碼注音還沒有印在鍵盤、鍵帽之前,使用者需要付出一定的記憶成本記憶鍵位(約15分鐘有印象)、練習成本(約1~2週的練習形成肌肉記憶)。
所以對於輸入法已經成型的使用者,我也不諫議轉換。我的目標使用者放在輸入習慣尚未成型的人身上。

教材的重要性,可以用老師慣用的嘸蝦米輸入法來舉例:依照統計,嘸蝦米輸入法是華人世界形碼類輸入法中,字根最多、記憶量最多的輸入法,但嘸蝦米有優良的教材、好記憶的方法,使用者反而不少。更別說嘸蝦米很清楚自己是輸入法,不是檢字法,有很多簡碼、快碼等方便輸入常用字的設計。

順便一提也是華人世界常用的倉頡檢字法,字根最少,而且也印到鍵盤上,但沒有像嘸蝦米一樣的教材,即使印到鍵盤上,還是要付出學習成本(學習拆碼)、記憶成本(記憶字根)、練習成本(這每個輸入法都要);常用字也因為倉頡是檢字法設計,有常用字的拆碼可能較長的情況。比如【的】▶竹日心戈(但,我對於想學形碼輸入法的人,我還是推薦倉頡、或其他基於倉頡檢字法的輸入法,倉頡的學一次,受用一生。)

教材大致完成後,會先開始製作網頁版的線上打字練習,讓使用者有練習的環境。
我最近才開始接觸網頁設計,如果要我自己做網頁的話,應該會很久之後。

網頁版的雙碼注音應該會在這個階段或之後進行。

另外,身為本月要入學的碩一新生,未來主要時間分配會在課業上。

PS. 雙碼注音的學習成本,對注音使用者而言,只有理解0️⃣聲母、ㄭ韻母不省略規則而已,學習成本極小。

@imper0502 imper0502 added enhancement New feature or request and removed enhancement New feature or request labels Aug 3, 2020
@flamerecca
Copy link

路人建議
或許可以將想作的事情先起頭,利用社群的力量逐步完成這些內容

@imper0502
Copy link
Owner

imper0502 commented Aug 5, 2020

@flamerecca 謝謝你的建議,我想想看如何開始比較好的。

另外,謝謝你編寫維基教科書的雙碼注音條目。你怎麼會算是路人呢?😀

@flamerecca
Copy link

!竟然被發現了XD

@imper0502
Copy link
Owner

imper0502 commented Aug 9, 2020

我這幾天想了一下,我想應該會朝前後端分離的方向去做,寫成api
可能會用 Rust + deno 吧
(前端我應該會用 angular)

因為不像嘸蝦米、倉頡,打一個字就馬上選字,雙碼注音是打完一個詞/句(概念),選對應的詞/句(剛好現代漢語一字詞越來越少,多字詞越來越多,所以可以這樣做。)
所以自動選字系統也是必要的……

應該可以用現有的rime框架吧,不過聽說rime在單機上,詞庫超過百萬時,會嚴重的卡頓。
上線後,能同時給多少使用者使用呢?

而且我還希望可以動態收集詞庫資料耶
這樣詞庫可能就不只百萬了。

@flamerecca
Copy link

想做的事太多的話,或許可以先求有再求好?

@imper0502
Copy link
Owner

imper0502 commented Aug 11, 2020

@flamerecca 我也是這樣想,我到時候應該會先研究看看 rime的原始碼,評估可否上線的可能性。之後再慢慢改進。

@flier268
Copy link

flier268 commented Sep 17, 2020

我這幾天想了一下,我想應該會朝前後端分離的方向去做,寫成api
可能會用 Rust + deno 吧
(前端我應該會用 angular)

因為不像嘸蝦米、倉頡,打一個字就馬上選字,雙碼注音是打完一個詞/句(概念),選對應的詞/句(剛好現代漢語一字詞越來越少,多字詞越來越多,所以可以這樣做。)
所以自動選字系統也是必要的……

應該可以用現有的rime框架吧,不過聽說rime在單機上,詞庫超過百萬時,會嚴重的卡頓。
上線後,能同時給多少使用者使用呢?

而且我還希望可以動態收集詞庫資料耶
這樣詞庫可能就不只百萬了。

卡頓的問題應該是因為Rime採用LevelDB的關係,剛剛了解了一下,LevelDB只適合小資料庫,當檔案過大的時候就不適合了,所以如果你要讓Rime上線,就必須要把LevelDB換掉,或者要對他做最佳化,否則他會拖慢你的效能
參考

是不是還可以寫爬蟲去找文章,然後做 分詞 後,然後再機器學習,建立詞彙預測的模型

@flier268
Copy link

我覺得比起做成網頁版,做成瀏覽器的擴充元件好像也不錯

@flier268
Copy link

網頁版注音輸入法

@ckhung
Copy link
Author

ckhung commented Sep 18, 2020

這個詞庫 未壓縮大小 13M, 如果砍掉簡中,也許剩下10M以內,對瀏覽器而言應該還可以接受? 沒有頻率,但我們可以自己爬文產生頻率。 我個人覺得: 第一優先純 js, 完全不必安裝; 第二優先擴充套件,像我去windows佔領區都會帶 firefox portable, 只需要在自己的 portable 安裝, 也還蠻方便。 如果牽涉後端, 那又需要另外的維護成本...

@imper0502
Copy link
Owner

貼一個 rime 可以用的詞庫蒐集:https://github.com/Iorest/rime-dict

目前 rime 的詞庫是使用 openCC 中文轉換處理簡繁體的

這是有@oniondelta維護、整理、修正的rime詞庫:https://github.com/oniondelta/bopomo-pinyin-rime

未來的雙碼注音可能會改用這個詞庫,而不是 rime 的內建詞庫。因為洋蔥的詞庫符合臺灣人的用詞習慣。也可能不用做OpenCC轉換用詞用字。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants