[資料檔案分享]Unicode規範字元的大列表(超級陽春版的"字元對應表"或"字元檢視器") [論壇 - Ubuntu 與中文]


正在瀏覽:   1 名遊客


 到底部   前一個主題   下一個主題  [無發表權] 請登錄或者註冊



[資料檔案分享]Unicode規範字元的大列表(超級陽春版的"字元對應表"或"字元檢視器")
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 25
HP : 0 / 606
MP : 261 / 15375
EXP: 25
離線
分享一份資料檔案
Unicode62List.ods
Unicode規範字元的大列表(超級陽春版的"字元對應表"或"字元檢視器") for OpenOffice.org
http://www.openfoundry.org/of/projects/2267

現階段為止的OpenOffice.org類型套裝軟體 Apache OpenOffice / LibreOffice
版本裡頭的 OpenOffice.org功能表(選單列)\插入\特殊字元 所支援顯示的
子集的unicode版本太老舊了,然而實際上在Writer/Calc的編輯區是可以顯
示到Unicode6.2版為止所規範定義的所有字元。因此筆者在想現在有無供給
OpenOffice.org 3.4以上版本專用的擴充套件,其功能可以相當於
MacOSX內建的"字元檢視器",或著MsWindows平台的Babelmap.exe,並且
要支援到Unicode6.2以上的版本,google之後的結論是 沒有/找不到。
因為筆者並不會寫程式,所以也沒有能力憑一己之力生成出像是"字元檢視器"
那樣層級的擴充套件。
然而在查閱了網路上四面八方的資料之後,發現可以用土法煉鋼的方式,拼湊出
一個試算表表格檔案,並且可以把Unicode6.2版所規範的十一萬個字元,全部
列進去,那就可以當作是一個非常陽春到不行的"字元對應表"或"字元檢視器"了
,然後筆者花了些時間,真的把這樣一個檔案給拼裝出來了。
在技術上,這個檔案陽春到不行,充其量就只是一張"表",然而唯一的特色就是
Unicode6.2版所規範的十一萬個字元"完全收錄",當然要能夠顯示多少百分比
的字元,也得看使用者端安裝的字形的碼位佈滿率而定。
在OpenOffice.org功能表(選單列)\插入\特殊字元的子集功能尚未跟上Unicode
版本進度的時候,這個試算表檔案也算是一個急就章的解決方案吧!?

為了怕使用者端漏看,這裡先補充:
使用者端在閱讀本文件時,或許可能會發現一個狀況,
就是有些字元怎麼會貼在儲存格的邊線上?
或著跨界跑到前一個儲存個內?
然而這些字元從Calc選取並複製到Writer的編輯區內的時候,
顯示乍看之下也"沒有"什麼問題,
筆者也不知道為什麼會這樣子,
或許可能是文書軟體的排版引擎和字形檔案本身的細微參數設定,
彼此之間沒有設計相容性最佳化吧?

Unicode版本的更新間隔近年似乎縮短了,因為看似月底又要推出Unicode6.3
版規範了。不過若要等對應的字形和相關軟體babelmap.exe等等到位,大概又
是一段時間吧!?

再補充:
在 MacOSX的LO 4.0,在 linux gnome的 LO3.5 / Gnumeric 試算表 1.10.17 ,
我開啓Unicode62List.ods,載入一半之後LO / Gnumeric都會當掉,我也不曉得為什麼,
不過反正我自己測試在 Apache OpenOffice 3.4.1 for MacOSX 10.7.5 都沒有問題就是了,
另外 MsWindow環境我沒測,不曉得可不可用!?

2013/4/20 20:10
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2017 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: [資料檔案分享]Unicode規範字元的大列表(超級陽春版的"字元對應表"或"字元檢視器")
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 25
HP : 0 / 606
MP : 261 / 15375
EXP: 25
離線
補充一下編製了這個檔案的一些心得。
在"非"程式開發者身份的前提下,我發現的我的資料彙整前置作業,
就得非用到MsWindows平台與應用軟體不可,
因為我當下需要的相關工具軟體在 MacOSX/Linux桌面 就"完全沒有"
堪用的替代方案,也就是"沒有辦法"實作,一整套製作流程(資料的彙整、編輯、輸出)
全在非MsWindows環境下完成,這樣一個情境。

好一段時間之前,我在嘗試編製九萬五千個不同碼位漢字的注音輸入法表格檔案的時候,
也是遇到在資料料編輯的階段,非得用到 MsOffice 2007不可,無法跳脫MsWindows平台,
因為當時的OpenOffice.org還沒推出3.3.0版,calc的rows無法超過65536列,
很不幸的,我編輯輸入法表格檔,超過65536列是正常的。
所以一直等到OpenOffice.org推出3.3.0版之後的版本,我才有辦法做到,
編輯輸入法表格檔不依賴MsWindows平台。

同樣的,現階段編輯Unicode碼位全滿大列表,還是得依賴MsWindows平台的工具軟體,
期待 MacOSX/Linux桌面 能夠出現可以完全替代的圖形界面軟體的那一天。

2013/4/20 20:34
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2017 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: [資料檔案分享]Unicode規範字元的大列表(超級陽春版的"字元對應表"或"字元檢視器")
會員五級
註冊日期:
2008/10/7 21:19
所屬群組:
已註冊使用者
等級: 36
HP : 179 / 896
MP : 661 / 27810
EXP: 85
離線
辛苦了,Windows下LibO 4.0.2.2可以開啟成功

2013/4/21 2:36
I′m UGP
應用擴展 工具箱
回覆: [資料檔案分享]Unicode規範字元的大列表(超級陽春版的"字元對應表"或"字元檢視器")
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 25
HP : 0 / 606
MP : 261 / 15375
EXP: 25
離線
個人測試結果,MacOSX+LibreOffice 4.0.2.2可以完整讀取Unicode62List.ods,
雖然檔案只有約2.5MB大小,但或許因為檔案內包含了超過十一萬個完全不同碼位的字元,所以讀取檔案時,那個視窗下方的進度條前進速度會有點慢。

2013/4/23 1:13
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2017 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
CNS11643中文標準交換碼全字庫(簡稱全字庫) | 政府資料開放平臺
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 25
HP : 0 / 606
MP : 261 / 15375
EXP: 25
離線
補充一份資料
CNS11643中文標準交換碼全字庫(簡稱全字庫) | 政府資料開放平臺
http://data.gov.tw/node/5961
頁面中找一下可以下載到一個Open_Data.zip檔案,裡頭有六個字形檔,
分兩組字形,每一組字型包含有unicode不同碼位的"九萬五千"個漢字,
(當然有包含到PUA區就是了)。
過去(去年以前),這樣一份資料需要跑實體公文流程往返來具名申請,寫切結書,附上身分證影本,
等待近十個工作天才會取得實體光碟(裡頭包含的表格和字形內容還不一定是100%正確的,會有資料bug)。
曾幾何時,這些資料已經可以在網路上"全部直接"下載了。
至於那些表格和字形裡頭的bug有沒有全部修正完畢?就天知道了。
不過,目前好像也沒有第二個選擇就是了,
CNS11643是"現階段"全世界資料最全的數位化現代中文漢字(台灣中文漢字筆畫+筆順規範)資料庫。

2014/2/23 17:49
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2017 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: [資料檔案分享]Unicode規範字元的大列表(超級陽春版的"字元對應表"或"字元檢視器")
會員五級
註冊日期:
2010/2/9 18:20
所屬群組:
已註冊使用者
等級: 31
HP : 0 / 758
MP : 438 / 20558
EXP: 33
離線
辛苦了!
不曉得你有沒有意願把這個東西加入http://g0v.tw 或者自己也加入呢?(這個組織似乎嘗試讓政府的東西更清楚明瞭)
尤其是這個頁面http://data.g0v.tw/

2014/2/23 23:59
在下有時候會回答的很簡略
請善用google搜尋回答中的關鍵字

應用擴展 工具箱
回覆: [資料檔案分享]Unicode規範字元的大列表(超級陽春版的"字元對應表"或"字元檢視器")
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 25
HP : 0 / 606
MP : 261 / 15375
EXP: 25
離線
BrLi 寫到:
辛苦了!
不曉得你有沒有意願把這個東西加入http://g0v.tw 或者自己也加入呢?(這個組織似乎嘗試讓政府的東西更清楚明瞭)
尤其是這個頁面http://data.g0v.tw/


提一些額外的,以前我查政府官方網站的某些網頁資料有些疑惑,
原本第一個想到的方法,就是直接打網頁上的電話去問,然後發現都被"踢皮球"了。
拖到今年一月我才突然想到試試看一招,同樣的問題,
請我的居住地/戶籍地的選區的立委國會辦公室(不是不分區的那種喔)
立委助理消化過我的問題之後,再幫我轉問相關政府權責單位,
沒想到一個月後,其中有兩個問題,至少在表面上解決了
(政府單位有個讓我勉強接受的官樣回應),
所以之後我可能會先嘗試看看"由立委協助反應"這個管道,
如果還是被踢皮球的話,我再嘗試看看g0v.tw這個管道參與討論與發問。

目前其實我心理有個問題,只是還沒準備好要問政府權責單位的完整底稿。
就是在Open_Data.zip 裡頭,我觀察了
CNS_phonetic.txt
CNS_pinyin.txt
CNS2UNICODE_Unicode 系列.txt

cns11643官方網站的資料庫內容,來回比較之後,
我發現在軟體技術上,其實早就可以利用該資料庫編製出(編製者會寫程式的前提下)
一個包含有 注音符號、漢語拼音、unicode碼位(起碼會有九萬五千多個碼位(漢字)、十一萬筆資料)
三個欄位的純文字對照表(unicode編碼格式),民用電腦若取得這份對照表(假設表格本身沒有bug的話),
理論上"就可以"在當下的文書作業環境(MsWindowsXP、MacOSX10.4、Linux+gnome2.3 之後的版本)
處理政府單位"當下"所列管的其中99%的中文漢字。
因為軟體技術上“早就可以“做到,所以問題其實是出在管理cns11643的政府單位,
"是否願意"釋出這份表格?如此而已。
我不是程式開發者,所以我沒有辦法自行實作出這樣的表格檔。
說不定g0v.tw有程式開發者,
有技術能力把Open_Data.zip+cns11643網站的東西拼奏出這樣的表格檔也是有可能。

2014/2/24 1:04
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2017 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱


 [無發表權] 請登錄或者註冊


可以查看帖子.
不可發帖.
不可回覆.
不可編輯自己的帖子.
不可刪除自己的帖子.
不可發起投票調查.
不可在投票調查中投票.
不可上傳附件.
不可不經審核直接發帖.