[自製注音輸入法表格分享]全字庫注音2016年05月份版本 [論壇 - Ubuntu 哈啦]


正在瀏覽:   1 名遊客


 到底部   前一個主題   下一個主題  [無發表權] 請登錄或者註冊

« 1 (2) 3 4 5 »


回覆: [自製注音輸入法表格分享]全字庫注音2016年05月份版本
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 25
HP : 0 / 616
MP : 271 / 16392
EXP: 65
離線
這就超出我的領域了,要等懂軟體開發的人進來討論了。

Marco 寫到:
我是運用在程式碼中,當然不可能用文字編輯器去搜尋,我也知道找得到。
比較奇怪的是,同一段程式,當保留1—388列時,就找不到,若刪掉 1—388列,就找得到。

這才是怪異所在。

2016/7/31 16:01
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: [自製注音輸入法表格分享]全字庫注音2016年05月份版本
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 25
HP : 0 / 616
MP : 271 / 16392
EXP: 65
離線
以下資訊不曉得是否會有幫助:
CnsPhonetic2016-05_GCINv2.cin
檔案的Line breaks: Windows(CRLF)
檔案的Encoding: Unicode(UTF-8)

2016/7/31 16:08
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: [自製注音輸入法表格分享]全字庫注音2016年05月份版本
會員五級
註冊日期:
2008/11/21 9:18
所屬群組:
已註冊使用者
等級: 23
HP : 0 / 571
MP : 229 / 18223
EXP: 84
離線
IanHo 寫到:
以下資訊不曉得是否會有幫助:
CnsPhonetic2016-05_GCINv2.cin
檔案的Line breaks: Windows(CRLF)
檔案的Encoding: Unicode(UTF-8)


不起作用!

2016/7/31 16:49
應用擴展 工具箱
回覆: [自製注音輸入法表格分享]全字庫注音2016年05月份版本
會員五級
註冊日期:
2012/4/22 10:50
所屬群組:
已註冊使用者
等級: 34
HP : 169 / 847
MP : 574 / 18579
EXP: 90
離線
之前在另一個「討論」,我當時揣測樓主的想法,簡單寫了一個「專案」,也是用PHP,
提供參考,因為之前簡單寫,我也沒認真去驗證,也沒去使用「gcin2tab」來測試過,所以就只是提供出來參考,

概念就是,從全字庫提供的資料,寫程式來轉,轉成想要的格式。

另外你們提到的檔我還沒去看,所以這部份目前無從回覆起,先提供上面的參考資料。


2016/7/31 22:05
應用擴展 工具箱
回覆: [自製注音輸入法表格分享]全字庫注音2016年05月份版本
會員五級
註冊日期:
2008/11/21 9:18
所屬群組:
已註冊使用者
等級: 23
HP : 0 / 571
MP : 229 / 18223
EXP: 84
離線
其實,只要刪掉1—388列,事情就解決了。

只是,我覺得,刪掉那388列的版權宣告,很對不起【發行人】,心裡著實不安。

2016/7/31 22:38
應用擴展 工具箱
回覆: [自製注音輸入法表格分享]全字庫注音2016年05月份版本
會員五級
註冊日期:
2012/4/22 10:50
所屬群組:
已註冊使用者
等級: 34
HP : 169 / 847
MP : 574 / 18579
EXP: 90
離線
Marco 寫到:
其實,只要刪掉1—388列,事情就解決了。

只是,我覺得,刪掉那388列的版權宣告,很對不起【發行人】,心裡著實不安。



我沒研究你程式,不過樓主提供的註解裡面有出現「臺」這個字,所以會不會是因為這個原因?

另外想到其中一種作法,程式查詢前,先把註解那一段去掉,再做查詢的動作,這樣,原始檔就可以留著註解。



2016/7/31 22:45
應用擴展 工具箱
回覆: [自製注音輸入法表格分享]全字庫注音2016年05月份版本
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 25
HP : 0 / 616
MP : 271 / 16392
EXP: 65
離線
雜記:
中華民國政府提供的“原始資料”裡頭是會有bug的,這些bug會導致,script轉檔失敗,最後還是得用肉眼去確認,政府提供的“原始資料”到底是哪一行出了問題。
例如過往曾經發生過,“原始資料”裡頭某行某個欄位內理論上應該要填入注音符號的“ㄧ”,實際上卻被填入中文漢字小寫的“一”,某行某個欄位內理論上應該要填入中文漢字小寫的“一”,實際上卻被填入注音符號的“ㄧ”。然後我打電話去政府單位詢問這是怎麼一回事?公務員回應我說:列印出來還不都一樣!(看似對方理所當然地以為我會要用印表機把這些資料列印到紙頭上???)

這也是為什麼我採用傳統土法煉鋼的模式來轉換資料(雖然我不會寫script也是事實),因為要用肉眼確認原始資料內的bug。但是後來我懶了,我沒精神力幫政府單位debug,(尤其“列印出來還不都一樣”的那種態度)。

samwhelp 寫到:
之前在另一個「討論」,我當時揣測樓主的想法,簡單寫了一個「專案」,也是用PHP,
提供參考,因為之前簡單寫,我也沒認真去驗證,也沒去使用「gcin2tab」來測試過,所以就只是提供出來參考,

概念就是,從全字庫提供的資料,寫程式來轉,轉成想要的格式。

另外你們提到的檔我還沒去看,所以這部份目前無從回覆起,先提供上面的參考資料。

:-)

2016/7/31 22:49
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: [自製注音輸入法表格分享]全字庫注音2016年05月份版本
會員五級
註冊日期:
2012/4/22 10:50
所屬群組:
已註冊使用者
等級: 34
HP : 169 / 847
MP : 574 / 18579
EXP: 90
離線
IanHo 寫到:
雜記:
中華民國政府提供的“原始資料”裡頭是會有bug的,這些bug會導致,script轉檔失敗,最後還是得用肉眼去確認,政府提供的“原始資料”到底是哪一行出了問題。
例如過往曾經發生過,“原始資料”裡頭某行某個欄位內理論上應該要填入注音符號的“ㄧ”,實際上卻被填入中文漢字小寫的“一”,某行某個欄位內理論上應該要填入中文漢字小寫的“一”,實際上卻被填入注音符號的“ㄧ”。然後我打電話去政府單位詢問這是怎麼一回事?公務員回應我說:列印出來還不都一樣!(看似對方理所當然地以為我會要用印表機把這些資料列印到紙頭上???)

這也是為什麼我採用傳統土法煉鋼的模式來轉換資料(雖然我不會寫script也是事實),因為要用肉眼確認原始資料內的bug。但是後來我懶了,我沒精神力幫政府單位debug,(尤其“列印出來還不都一樣”的那種態度)。

samwhelp 寫到:
之前在另一個「討論」,我當時揣測樓主的想法,簡單寫了一個「專案」,也是用PHP,
提供參考,因為之前簡單寫,我也沒認真去驗證,也沒去使用「gcin2tab」來測試過,所以就只是提供出來參考,

概念就是,從全字庫提供的資料,寫程式來轉,轉成想要的格式。

另外你們提到的檔我還沒去看,所以這部份目前無從回覆起,先提供上面的參考資料。




了解,您辛苦了,感恩你提供這些參考資料。

我也是跟你討論,才去稍微研究一下相關的資料。

因為我也懶,所以只是初步的了解規則,寫程式來轉,
我研究的沒你深入,所以也沒仔細去驗證轉出來的檔是否有誤。
對這部份目前還沒有特別需要使用到的地方,
寫完後,我其實也沒再去碰了。

上面回覆只是提供另一個做法,提供參考。

感恩你的提醒!提醒需要注意的地方!


2016/7/31 23:00
應用擴展 工具箱
回覆: [自製注音輸入法表格分享]全字庫注音2016年05月份版本
會員五級
註冊日期:
2012/4/22 10:50
所屬群組:
已註冊使用者
等級: 34
HP : 169 / 847
MP : 574 / 18579
EXP: 90
離線
yawnp0426 寫到:
從2015,2016以後版本,用 gcin2tab 編譯都會發生錯誤,不能使用!現今 2014 版本才會編譯正常。作業系統:Ubuntu 16.04 LTS

~$ gcin2tab CnsPhonetic2016-05_GCINv2.cin

(gcin2tab:6948): GLib-GObject-WARNING **: cannot register existing type 'GdkWindow'

(gcin2tab:6948): GLib-GObject-CRITICAL **: g_param_spec_object: assertion 'g_type_is_a (object_type, G_TYPE_OBJECT)' failed

(gcin2tab:6948): GLib-GObject-CRITICAL **: g_object_class_install_property: assertion 'G_IS_PARAM_SPEC (pspec)' failed
-- gcin2tab encoding UTF-8 --
--- please use iconv -f big5 -t utf-8 if your file is in big5 encoding
KeyNum:42 keybits:6
char def

(gcin2tab:6948): Pango-WARNING **: Invalid UTF-8 string passed to pango_layout_set_text()

(gcin2tab:6948): GLib-GObject-WARNING **: cannot register existing type 'GdkScreen'

(gcin2tab:6948): GLib-CRITICAL **: g_once_init_leave: assertion 'result != 0' failed

(gcin2tab:6948): Gdk-CRITICAL **: IA__gdk_screen_get_default_colormap: assertion 'GDK_IS_SCREEN (screen)' failed

(gcin2tab:6948): Gdk-CRITICAL **: IA__gdk_colormap_get_visual: assertion 'GDK_IS_COLORMAP (colormap)' failed



紀錄我的發現

因為發現第「11856」行,該行開頭「hân」,
那個「â」應該不是預期會出現的碼吧,
應該是「注音符號」對照到鍵盤的「碼」(補充:也就是397~437行,見#33),
以及前面或後面幾行也有類似非預期的碼,
所以我把「114843」~「114877」行,刪除後,
再執行「gcin2tab CnsPhonetic2016-05_GCINv2.cin」就正常了。

顯示


-- gcin2tab encoding UTF-8 --
--- please use iconv -f big5 -t utf-8 if your file is in big5 encoding
KeyNum:42 keybits:6
char def
MaxPress: 5
Defined Characters:114403




不過這其中的細節,我也不懂,先提供以上發現,其餘的就由懂的人來解釋了。




## 額外一提

若要研究程式碼

執行下面指令,下載「gcin」的「原始碼套件


$ apt-get source gcin



研究「gcin-2.8.4+dfsg1/gcin2tab.cpp」這個檔

例如執行


$ grep 'char def' gcin-2.8.4+dfsg1/gcin2tab.cpp -n



顯示


179: char def1[256];
462: puts("char def");




若要編譯

先執行下面指令,安裝編譯gcin所需相關套件


$ sudo apt-get build-dep gcin



切換到「gcin-2.8.4+dfsg1」這個資料夾


$ cd gcin-2.8.4+dfsg1



執行


$ ./configure



執行下面指令,沒有例外狀況發生,應該會編譯成功


$ make



會產生「gcin-2.8.4+dfsg1/gcin2tab」這個檔。

這樣應該就可以研究「gcin-2.8.4+dfsg1/gcin2tab.cpp」。

PS: 我尚未深究程式碼,僅提供上面的方法,給要深究的人參考。


2016/8/1 2:52
應用擴展 工具箱
回覆: [自製注音輸入法表格分享]全字庫注音2016年05月份版本
會員五級
註冊日期:
2008/11/21 9:18
所屬群組:
已註冊使用者
等級: 23
HP : 0 / 571
MP : 229 / 18223
EXP: 84
離線
samwhelp 寫到:
我沒研究你程式,不過樓主提供的註解裡面有出現「臺」這個字,所以會不會是因為這個原因?


看起來應該是這個原因,感謝提醒。

2016/8/1 9:35
應用擴展 工具箱

« 1 (2) 3 4 5 »

 [無發表權] 請登錄或者註冊


可以查看帖子.
不可發帖.
不可回覆.
不可編輯自己的帖子.
不可刪除自己的帖子.
不可發起投票調查.
不可在投票調查中投票.
不可上傳附件.
不可不經審核直接發帖.