Unicode9.0字元一覽有感 [論壇 - Ubuntu 哈啦]
正在瀏覽:
1 名遊客
Unicode9.0字元一覽有感 |
|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
會員五級
![]() ![]() 註冊日期:
2010/9/16 14:08 所屬群組:
已註冊使用者 等級: 25
HP : 0 / 619
![]() |
在嘗試看看有沒有可能自行編製出Unicode9.0的LO CALC單檔多頁籤大列表(內含12萬8千多個字元和符號),瀏覽字元的過程中,一些簡單的個人歸納與感觸:
早年世代,例如大航海時代之類的,歐洲的洋人的傳教士(基督教、天主教這類的),盡可能全世界趴趴走到所有開發中地區跟當地的相對少數民族、原住民傳教。 然後可能會遇到一個狀況,就是該地區的“語言”可能尚未有正式對應的“文字系統”, 於是乎這些“洋人的傳教士”為了“傳教的方便”,開始把這些當地的語言/發音先學起來,然後自作主張的把這些語言/發音採用拉丁文、羅馬拼音、英文之類的標記出來/記錄下來,不一定是原始的拉丁文、羅馬拼音、英文,也有可能是二次創作有某些變形的拉丁文、羅馬拼音、英文,某種程度來說,其實就是在“造字”了,Unicode9.0裡頭有多個block,就是以上論述情境下的產物,就是洋人的傳教士為了傳教方便而二次創作出來的東西/拼音文字系統。 Unicode9.0有多個新的block name,正體中文環境現階段,都還沒有現成的“正式的翻譯”,查資料查得真的會頭痛查不下去。那些到底是英文還是只是用英文拼注的某個地方的方言發音?真是頭痛。
2016/8/25 15:35
|
||||||||||
----------------
個人網路文字作品集: MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF http://www.scribd.com/ianian1979 全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表) https://sites.google.com/site/ianho7979/InputMethodTables |
|||||||||||
![]() |
回覆: Unicode9.0字元一覽有感 |
|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
會員五級
![]() ![]() 註冊日期:
2010/9/16 14:08 所屬群組:
已註冊使用者 等級: 25
HP : 0 / 619
![]() |
一些雜記:
我試著google搜羅網路上所能找到的公開的免費或自由的unicode字形檔,看看能不能填補unicode9.0規範的十二萬八千多個字元,搭配驗證的是babelmap.exe這隻Windows圖形介面程式(用wine來跑,所以圖形效果不好,但將就可用),把所有的block關鍵字都搜尋一輪之後,目前的成果是babelmap.exe顯示達成率為百分之91.5。還是有將近百分之十的字元數量,空有規範,但是找不到字形可以搭配,新規範出來的也就罷了,有些字元規範也定義了好幾年了。可惜的是,linux圖形桌面,到目前為止還是沒有接近”即時跟上“unicode規範的進度,沒有功能接近類似於babelmap.exe/babelpade.exe的“圖形介面”軟體,來協助處理/整理全世界各式各樣的unicode規範字元。
2016/9/2 1:46
|
||||||||||
----------------
個人網路文字作品集: MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF http://www.scribd.com/ianian1979 全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表) https://sites.google.com/site/ianho7979/InputMethodTables |
|||||||||||
![]() |
[自製資料檔案分享]Unicode9.0規範字元的大列表 |
|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
會員五級
![]() ![]() 註冊日期:
2010/9/16 14:08 所屬群組:
已註冊使用者 等級: 25
HP : 0 / 619
![]() |
[自製資料檔案分享]Unicode9.0規範字元的大列表
Unicode 9.0 規範字元的大列表(超級陽春版的"字元對應表"或"字元檢視器") for LibreOffice 5.X 這是一個ODS格式檔案(UNICODE9.0.ods),在LibreOffice 5.2.2.1 Calc for Mac完成檔案編製。 裡頭就是純粹的Unicode 9.0規範的十二萬八千多個字元和符號的列表,以一個Unicode Block分類在一個頁籤。還包含把兩百七十二個Unicode Block Name整理出“正體中文”、以及盡可能的找出每個Unicode Block所對應的字形有哪個可以選用。很遺憾的是我個人搜尋能力有限、軟體技術不足,所以無法整理出十二萬八千多個Unicode Character Name的“正體中文”。 以及字元與符號的字形檔搜集累積整理達成率只到91.5%,無法到達99%甚至100%。另外發現一個細節,LO 5.2.2.1 CALC 工作表>右鍵>移動或複製“試算表”> “試算表”改成“工作表”是否會比較順口且與清單中的其它功能項目的敘述較為一致??? 有需要的網友,或許參考。 補充:若在MAC平台上點選到了 檔案\屬性 可能會遇到彩球狂轉老半天,我也不知道為什麼。檔案本身約6.3MB,但是格子的數量“爆多”,所以可能無法線上開啟,會轉為下載模式。 https://drive.google.com/file/d/0By5TMJzd-tsHdFZEYzlpbWpjNmM/view?usp=sharing
2016/9/28 16:55
|
||||||||||
----------------
個人網路文字作品集: MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF http://www.scribd.com/ianian1979 全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表) https://sites.google.com/site/ianho7979/InputMethodTables |
|||||||||||
![]() |
回覆: Unicode9.0字元一覽有感 |
|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
會員五級
![]() ![]() 註冊日期:
2010/9/16 14:08 所屬群組:
已註冊使用者 等級: 25
HP : 0 / 619
![]() |
檔案上傳之後的馬後砲延伸疑惑:
Libreoffice Calc\檔案\屬性\字型內嵌\內嵌字型於文件中 勾選之後存檔,然而“UNICODE9.0.ods”還是6.3MB,“沒有”容量增大的跡象。 至少應該有二十個以上不同的字型來顯示檔案中包含的這十二萬八千多個“完全不同”的字元。有沒有什麼操作流程?可以讓我確認這幾十個字型有被嵌入“UNICODE9.0.ods”裡頭,若有正確嵌入,檔案容量應該不會只有 6.X MB 而已。
2016/9/28 20:10
|
||||||||||
----------------
個人網路文字作品集: MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF http://www.scribd.com/ianian1979 全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表) https://sites.google.com/site/ianho7979/InputMethodTables |
|||||||||||
![]() |
回覆: Unicode9.0字元一覽有感 |
|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
會員五級
![]() ![]() 註冊日期:
2010/9/16 14:08 所屬群組:
已註冊使用者 等級: 25
HP : 0 / 619
![]() |
2016/9/30 0:11
|
||||||||||
----------------
個人網路文字作品集: MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF http://www.scribd.com/ianian1979 全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表) https://sites.google.com/site/ianho7979/InputMethodTables |
|||||||||||
![]() |
回覆: Unicode9.0字元一覽有感 |
|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
會員五級
![]() ![]() 註冊日期:
2010/9/16 14:08 所屬群組:
已註冊使用者 等級: 25
HP : 0 / 619
![]() |
雜記+妄想:
unicode 9.0 的 272個 區塊名稱的“正體中文”整理出來了。 接下來,我在想像一個人挑戰 十二萬八千多個 字元名稱“正體中文”整理的可能性, 目前已經整理出 七萬七千多個 字元名稱 的 “正體中文” 了,還有五萬一千多個。 (謎之音:唬人的,七萬七千多個看起來好像很威,其實真正要整理的字句了不起四十多個,剩下的都是“數序”) 那 五萬一千多個 怎麼辦? 好象都是零散沒有重複的字句? 而且其中非常多字句連英漢/漢英字典都查不到。我也不知道,涼拌炒雞蛋。 只好先擺著了~~~
2016/9/30 0:42
|
||||||||||
----------------
個人網路文字作品集: MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF http://www.scribd.com/ianian1979 全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表) https://sites.google.com/site/ianho7979/InputMethodTables |
|||||||||||
![]() |
回覆: Unicode9.0字元一覽有感(如何透過unzip確認ODF是否有內嵌字型) |
|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
會員五級
![]() ![]() 註冊日期:
2012/4/22 10:50 所屬群組:
已註冊使用者 等級: 37
HP : 0 / 905
![]() |
備份連結
=================================================== IanHo 寫到: 對「ODF」的「格式」,目前沒深究, 只是剛剛發現可以用檔案解壓縮程式解開,因為該檔案是zip格式(請閱讀wiki上的說明),「EPUB」也是類似的模式。 所以稍微做了點測試,提供您參考,讓您可以有個起點,再去找到線索,深入探究,若您有興趣深究的話。 以下簡單紀錄 ## 測試環境 * Xubuntu 16.04 (64位元) 英文界面 * Libreoffice Version: 5.1.4.2 ## manpage * man unzip * man grep * man tree * man xxd * man hexdump * man od 「unzip」的用法,也可以參考「這篇案例」。 ## 測試一 先用「Libreoffice Calc」簡單產生一個ods檔, 在儲存格「A1」填入內容「測試」, 然後存檔,檔名「test-no-font.ods」, 檔案大小是「7.2kb」。 ### 檢視 可以使用下面指令檢視檔案內容
顯示
另外額外參考指令,用來觀看檔案 執行
或是執行
或是執行
可以顯示 hex+ASCII 對照觀看 ### 解開 然後使用下面指令解開「test-no-font.odf」,你也可以使用「GUI解壓縮工具」來解開。
顯示
## 探索資料夾 執行下面指令,檢視資料夾結構
顯示
執行下面指令,找尋檔案內容有「font」字眼的檔案
顯示
可以看到「./test-no-font/settings.xml」這個檔, 有一個設定「<config:config-item config:name="EmbedFonts" config:type="boolean">false</config:config-item>」 是設定「false」。 ## 測試二 然後上面的檔案,按照樓主提到的, 選擇功能選單「File / Properties」, 會跳出一個設定視窗。 選擇頁籤「Font」, 然後將「Font Embeddeing」勾選「Embed fonts in the document」。 按下「OK」。 最後另存新檔,檔名「test-font.ods」。 檔案大小變成「1.6MB」。 ### 檢視 可以使用下面指令檢視檔案內容
顯示
### 解開 然後使用下面指令解開「test-font.odf」,你也可以使用「GUI解壓縮工具」來解開。
顯示
## 探索資料夾 執行下面指令,檢視資料夾結構
顯示
執行下面指令,找尋檔案內容有「font」字眼的檔案
顯示
可以看到「test-font/settings.xml」這個檔, 有一個設定「<config:config-item config:name="EmbedFonts" config:type="boolean">true</config:config-item>」, 這時候是設定「true」。 ## 測試三 使用樓主提供的檔案「UNICODE9.0.ods」。 檔案大小「6.1MB」 ### 檢視 可以使用下面指令檢視檔案內容
顯示
### 解開 然後使用下面指令解開「UNICODE9.0.ods」,你也可以使用「GUI解壓縮工具」來解開。
顯示
## 探索資料夾 執行下面指令,檢視資料夾結構
顯示
執行下面指令,找尋檔案內容有「font」字眼的檔案
顯示
可以看到「UNICODE9.0/settings.xml」這個檔, 有一個設定「<config:config-item config:name="EmbedFonts" config:type="boolean">true</config:config-item>」, 一樣是設定「true」。 不過對照「測試二」卻沒有「UNICODE9.0/Fonts」這個資料夾。 ## 測試四 使用樓主提供的檔案「UNICODE9.0.ods」。 然後另存新檔, 檔案名稱「UNICODE9.0.font.ods」。 檔案大小「68.3MB」 ## 檢視 可以使用下面指令檢視檔案內容
顯示
### 解開 然後使用下面指令解開「UNICODE9.0.font.ods」,你也可以使用「GUI解壓縮工具」來解開。
顯示
## 探索資料夾 執行下面指令,檢視資料夾結構
顯示
執行下面指令,找尋檔案內容有「font」字眼的檔案
顯示
可以看到「UNICODE9.0/settings.xml」這個檔, 有一個設定「<config:config-item config:name="EmbedFonts" config:type="boolean">true</config:config-item>」, 一樣是設定「true」。 不過對照「測試三」多了「UNICODE9.0.font/Fonts」這個資料夾。
以上參考,其他檔案內容就請自行探究了。 若是要研究「EPUB」,可以到「GitBook」上找一本書來下載,就可以使用上面指令來操作。 ![]() ================================================================================ ## 相關討論 * #23 回覆: [自製注音輸入法表格分享]全字庫注音2016年08月份版本 裡面有提到使用「phpoffice/phpexcel」的「範例1」和「範例2」。 也可以參考「PHPOffice/PHPExcel/Classes/PHPExcel/Reader/OOCalc.php」的原始碼, 研究如何透過「php」來讀取「odf檔案」並且解析「content.xml」。 * #45 回覆: [自製文件分享]以Windows思維用Linux-GNOME桌面篇-第二版 裡面有提到一個指令「xmllint」的使用。
================================================================================ 以上提供參考 報告完畢 ![]()
2016/9/30 10:23
|
||||||||||
![]() |
回覆: Unicode9.0字元一覽有感 |
|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
會員五級
![]() ![]() 註冊日期:
2010/9/16 14:08 所屬群組:
已註冊使用者 等級: 25
HP : 0 / 619
![]() |
我把ODS檔案解壓縮查看裡頭包含的各種檔案與資料夾了,嵌入字型的選項也有勾選,奇怪為什麼字型就是無法嵌入?
照理所這份檔案若字型有被嵌入的話,應該可以從6.XMB胖到幾時MB都有可能。但還是6.XMB,檔案解壓縮後的資料夾內容,也都“沒有”跟嵌入字型直接相關的檔案和資料夾。會不會扯到什麼作業系統環節之類的?
2016/9/30 13:42
|
||||||||||
----------------
個人網路文字作品集: MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF http://www.scribd.com/ianian1979 全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表) https://sites.google.com/site/ianho7979/InputMethodTables |
|||||||||||
![]() |
回覆: Unicode9.0字元一覽有感(如何找尋系統已經安裝的字型檔所在路徑) |
|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
會員五級
![]() ![]() 註冊日期:
2012/4/22 10:50 所屬群組:
已註冊使用者 等級: 37
HP : 0 / 905
![]() |
IanHo 寫到: 目前不曉得為什麼你的檔案沒嵌入字型檔,我不知道那個出錯的環節在那,不知道怎麼重現。 ==================================================== 我上一個回覆有說明,我沒做任何設定,把你的檔案另存新檔, 然後檔案就從「6MB」變成「68MB」,解開來看,是有嵌入字形檔的。 <-- 測試4 ==================================================== 然後你原來的檔解開,「settings.xml」是有看到 「<config:config-item config:name="EmbedFonts" config:type="boolean">true</config:config-item>」 是設定「true」沒錯, 不過就是沒看到「Fonts」資料夾和相關的字形檔。 <-- 測試3 所以是這部份,不確定是什麼原因造成的 Orz... ==================================================== 另外給個參考指令,找尋系統已經安裝的字型檔所在路徑 舉例: 執行
顯示
安裝全字庫字型的方式,可以參考「這篇」和「這篇」。 ## 其他範例 執行
執行
## manpage $ man fc-list $ man grep 其他相關的指令,列在「這個索引」
2016/9/30 13:55
|
||||||||||
![]() |
回覆: Unicode9.0字元一覽有感 |
|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
會員五級
![]() ![]() 註冊日期:
2010/9/16 14:08 所屬群組:
已註冊使用者 等級: 25
HP : 0 / 619
![]() |
進度雜記:
雅虎奇摩字典、google翻譯、維基百科zh-tw 等等個人能力所及可以找到的現成網路資源,東拼西湊的,居然也完成了40個blocks(不過總共有272個blocks)的字元名稱的正體中文整理,剩餘字元名稱的數量起碼還有四萬多個,個人外文能力有限,東拼西湊這些字元名稱資料,整個頭痛,燃燒腦細胞(形容詞)。進度會不會繼續,天知道,可遇不可求。 然後,查資料的過程,發現原來unicode規範也還是有bug的,而且還是“將錯就錯”。嗯~我附上“免責申明”是對的,畢竟來源資料就有bug了,我也不可能自行隨意去更改那些所謂外國的規範組織既有的bug,既然他們原始資料就有bug的,那我整理出來的正體中文資料當然也是會同樣的bug(bug也要同步)。
2016/10/1 23:57
|
||||||||||
----------------
個人網路文字作品集: MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF http://www.scribd.com/ianian1979 全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表) https://sites.google.com/site/ianho7979/InputMethodTables |
|||||||||||
![]() |
您可以查看帖子.
您不可發帖.
您不可回覆.
您不可編輯自己的帖子.
您不可刪除自己的帖子.
您不可發起投票調查.
您不可在投票調查中投票.
您不可上傳附件.
您不可不經審核直接發帖.