Unicode9.0字元一覽有感 [論壇 - Ubuntu 哈啦]


正在瀏覽:   1 名遊客


 到底部   前一個主題   下一個主題  [無發表權] 請登錄或者註冊

« 1 ... 4 5 6 (7) 8 »


回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 24
HP : 0 / 588
MP : 245 / 12080
EXP: 54
離線
目前Unicode 9.0“字元名稱”的“正體中文”彙整,blocks進度是完成160個,當然這些都還只是初稿的階段,距離總共273個blocks也還有些距離。
然後看網路資料,Unicode 10.0今年也要發行了,有一種跟不完的fu~~~

有一個群組是 阿爾法、貝塔、伽瑪 系列的希臘字母的樣子,仔細查發現還包含有所謂的“停用字母”,然後“現階段”google無法湊齊“所有的”希臘字母(包含“停用字母”)的中文音譯,最後我決定維持“字元名稱”原文了。
然後
A7FE ꟾ LATIN EPIGRAPHIC LETTER I LONGA

LONGA
到底是什麼?
我google不出所以然來,若能確定LONGA的“正體中文”在這個“字元名稱”裡頭該要是什麼,拉丁字母系列的多個blocks就解決了~~~

6/5 3:09:14
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2017 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 24
HP : 0 / 588
MP : 245 / 12080
EXP: 54
離線
一個發現,原來字形檔會有bug,真的不能完全放手信任!
Arabic Presentation Forms-A
阿拉伯字母(天方字母)變體呈現形式-A
U+FBB9
ARABIC SYMBOL THREE DOTS POINTING DOWNWARDS BELOW

因為空間比例的關係,字圖小不拉嘰的跟螞蟻一樣~~~
一般當然預設是信任的而略過了,我預設的選擇是:
Noto Naskh Arabic, Version 1.06 uh
這款字形,不經意地看過去,覺得好像怪怪的,放大字圖一看,跟本就是"UPWARDS",而“不是”字元名稱的“DOWNWARDS”。
看樣子“免責聲明”得加註“字形檔本身可能就有bug”這類的論述內容了~~~

6/8 16:20:39
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2017 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 24
HP : 0 / 588
MP : 245 / 12080
EXP: 54
離線
又發現狀況了,我把字形換成
Noto Nastaliq Urdu Version 1.02 uh
之後,結果
ARABIC
阿拉伯字母(天方字母)
066D ٭ ARABIC FIVE POINTED STAR
實際上出現的字圖“不只” 五向 了,是“八向”。
怎麼狀況這麼多呢?

6/8 19:55:42
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2017 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 24
HP : 0 / 588
MP : 245 / 12080
EXP: 54
離線
目前的初稿整理進度為,還剩下97個blocks待整理~~~
資料整理的過程,會覺得奇怪,為什麼字元名稱的複製貼上取代操作流程會過不去,一路追查到unicode官網的PDF,然後發現:

FE17 
PRESENTATION FORM FOR VERTICAL LEFT WHITE LENTICULAR BRACKET

FE18 
PRESENTATION FORM FOR VERTICAL RIGHT WHITE LENTICULAR BRAKCET

原來“unicode規範資料本身”就“拼錯英文單字”了。

這樣“累積下來”,unicode規範裡頭的“錯誤資料”至少有十處以上了噎!
若我有天真的繼續把剩下97個blocks都完成了的話,說不定還有機會發現其他“錯誤資料”!
而且這些資料還就被"將錯就錯"下去了噎,我的天!
然後unicode這樣的組織他們也可以回應說:這僅是參考規範,你也是可以選擇“不參考使用”。雖然樣說也沒錯,但是目前地球上一時之間真的就是“找不到”跟unicode“同等級”的立即可用替代方案啊~~~
天阿~資料不整理還好,一整理發現狀況真的有夠多~~~

我曾經妄想寫了兩篇,完全跳過unicode這種西,從硬體之上,韌體開始重新造輪子的“狹義上的純中文電腦”的”開發大方向概述“的文章,可惜我貼在討論串的哪裡,我自己都無法在一時之間搜尋回來~~~
華人世界真的應該要研發“狹義上的純中文電腦”,中文電腦系統的底層,要“完全無視”“正體中文漢字”“以外的”任何“其他文字系統”。

6/9 22:02:17
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2017 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 24
HP : 0 / 588
MP : 245 / 12080
EXP: 54
離線
有問有機會:

目前的進度剩下1/3的blocks了(還是剩下挺多的~~~)~~~
ARABIC系列有六個blocks
然後剩下這三個:
1EEF0 126704 ARABIC MATHEMATICAL OPERATOR MEEM WITH HAH WITH TATWEEL
0640 1600 ARABIC TATWEEL
FE71 65137 ARABIC TATWEEL WITH FATHATAN ABOVE
其中的關鍵字“TATWEEL”我google找到了這個
https://en.wikipedia.org/wiki/Kashida
裡頭有關鍵字“TATWEEL”,我來回看了好幾遍,還是“看不懂”“TATWEEL”到底是什麼東西?

subgroup block name, Formal Alias 這兩個部分的 正體中文整理我決定先放棄了。
我能夠先把 unicode 9.0 的 block name 和 Character Name 的正體中文 全部整理出來,就已經盡力了~~~
(理想上,完美呈現的話,要把”每一個”Character Name在哪個有正體中文link可以查到一些什麼也都列出來,但我發現我消化不了、能力不及,無法全列出來~~~)

補充:
ubuntu-tw.org 管理群“是否方便能夠解決” ubuntu-tw.org 的介面“無法處理” unicode 9.0 “規範內”“ 所有字元和符號”的問題?
我的發文若包含可能是 “數值比較大”的 unicode碼位的字元或符號,該字元或符號之後輸入的文字全都會消失!
只是問問,不強求。

6/11 22:52:56
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2017 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 24
HP : 0 / 588
MP : 245 / 12080
EXP: 54
離線
以下是我剩下還在頭痛中的blocks,若能搞定這些blocks,就把unicode 9.0的字元名稱的正體中文整理完第一遍了~~~
(“第一遍”的意思就是還有待二校、甚至三校的意思)
真的是有滿多字元名稱裡頭的英文關鍵字,google大神完全無法找出其“正體中文”給我,所以google大神也並非全能~~~

韓文(諺文字母)擴充-A
韓文(諺文字母)擴充-B
韓文相容拼音符號(諺文相容字母)
拜占庭音樂符號
音樂符號
達伯彥速記符號
薩頓手語寫作系統
古希臘數字
數學運算子
補充的數學運算子
數學運算子
補充的數學運算子
多種的數學符號-B
多種的符號
多種的符號和箭頭符號
多種的符號和象形文字
補充的符號和象形文字
多種的專門技術符號
---

6/23 18:33:59
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2017 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2008/11/21 9:18
所屬群組:
已註冊使用者
等級: 23
HP : 0 / 566
MP : 225 / 14636
EXP: 66
離線
我對Unicode9.0一竅不通,幫不上任何一點忙。
但對樓主專注經營單一議題的精神感佩地五體投地,
這年頭,默默耕耘的人實在太少了。

6/24 5:00:57
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 24
HP : 0 / 588
MP : 245 / 12080
EXP: 54
離線
Marco 寫到:
我對Unicode9.0一竅不通,幫不上任何一點忙。
但對樓主專注經營單一議題的精神感佩地五體投地,
這年頭,默默耕耘的人實在太少了。


方便的話,可以幫忙範例:

1C3E LEPCHA PUNCTUATION TSHOOK CER-WA

“TSHOOK”在以上的字元名稱裡頭,到底代表什麼意思???
直譯會是什麼?
意譯會是什麼?
我嘗試google,但google“找不到”我能看得懂的東西~~~

當然不只“TSHOOK”,還有一堆其它的字元名稱“關鍵字”,google“找不到”東西~~~

6/24 6:55:24
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2017 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 24
HP : 0 / 588
MP : 245 / 12080
EXP: 54
離線
我個人有在嘗試看看把unicode9.0所規範的十二萬八千多個字元和符號以及字元名稱用肉眼看過一遍,目前為止瀏覽進度大約有九分之八左右吧?剩下的能否順利瀏覽玩,真的就天知道了~~~
看到目前為止,我產生了一種“解讀”:
這裡先設定以1990年開始來起算好了,這顆地球上的相對強勢國家語系“英文/英語”環境的所謂的語言與文字專家,使用“英文/英語”的”思維“去收集研究整理所有「非」“英文/英語”的文字系統,並且將之彙整於新世代的資訊儲存載體”電腦“這個東西上,還設計成所謂的”規範“資料。
然後對這些「非」“英文/英語”的文字系統,產生了某種程度的所謂”錯誤的解讀“,這些”錯誤的解讀“在新世代的資訊儲存載體”電腦“上被發現之後,”並沒有“被”根本性的修正“,反而因為”一些理由“,而將錯就錯。這些”錯誤的解讀“因為基本上都是「非」“英文/英語”的文字系統,所以對於“英文/英語”環境原則上幾乎”沒有影響“。
然而「非」“英文/英語”的文字系統的原生使用者,因為”近代的個人電腦“這個東西是“英文/英語”環境的人所發明的,而”無能為力“去根本性的修正這些”錯誤的解讀“,在當代也只能放任這些”錯誤的解讀“”繼續錯下去“。
這是面對相對強勢(惡霸?)“英文/英語”文化之下的一種”其他文字系統“的悲哀~~~

6/24 7:43:22
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2017 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2012/4/22 10:50
所屬群組:
已註冊使用者
等級: 32
HP : 156 / 781
MP : 471 / 12388
EXP: 26
離線
IanHo 寫到:
Marco 寫到:
我對Unicode9.0一竅不通,幫不上任何一點忙。
但對樓主專注經營單一議題的精神感佩地五體投地,
這年頭,默默耕耘的人實在太少了。


方便的話,可以幫忙範例:

1C3E LEPCHA PUNCTUATION TSHOOK CER-WA

“TSHOOK”在以上的字元名稱裡頭,到底代表什麼意思???
直譯會是什麼?
意譯會是什麼?
我嘗試google,但google“找不到”我能看得懂的東西~~~

當然不只“TSHOOK”,還有一堆其它的字元名稱“關鍵字”,google“找不到”東西~~~



請參考後面一篇「回覆#71」 。

以下非解答,以下無法解答樓主原本要問的:「TSHOOK」代表的涵義

我個人的想法,這要對該語言有研究的人,比較有機會瞭解相關的術語。

而我會紀錄此篇,只是根據上面提到的一些關鍵字,查到一些資料,對我來說有一些新的發現,所以紀錄下來。


================================================================================

一開始使用「1C3E unicode」當關鍵字查詢。


可以找到下面這個連結

* https://m.unicode-table.com/cn/1C3E/

然後衍伸可以找到下面幾個連結

* https://m.unicode-table.com/cn/blocks/lepcha/
* https://unicode-table.com/cn/blocks/lepcha/
* https://m.unicode-table.com/en/1C3E/



從「https://unicode-table.com/cn/blocks/lepcha/

* https://unicode-table.com/cn/1C3D/ (Lepcha Punctuation Cer-Wa)
* https://unicode-table.com/cn/1C3E/ (Lepcha Punctuation Tshook Cer-Wa)
* https://unicode-table.com/cn/1C3F/ (Lepcha Punctuation Tshook)


================================================================================

然後使用「雷布查 標點」當關鍵字查詢,可以找到下面兩個連結。

* https://github.com/unicode-table/unicode-table-data/blob/master/loc/cn/symbols/1C00.txt
* http://chukaml.tripod.com/linguistics/unicode/

會讓我想紀錄起來,是因為「GitHub」的那個連結。

我在之前的「回覆#48」有提到「Unicode字元百科」,
也就是剛剛一開始找到的網址「https://unicode-table.com/cn/」。
剛剛才發現,原來有放在「GitHub」上,連結是「https://github.com/unicode-table」。

一些簡體中文的翻譯,可以從下面這個連結找到
https://github.com/unicode-table/unicode-table-data/tree/master/loc/cn

每個字元名稱的翻譯,則是可以在下面這個連結,找到
https://github.com/unicode-table/unicode-table-data/tree/master/loc/cn/symbols

例如剛剛的(簡體中文)

https://github.com/unicode-table/unicode-table-data/blob/master/loc/cn/symbols/1C00.txt

對照(英文)

https://github.com/unicode-table/unicode-table-data/blob/master/loc/en/symbols/1C00.txt


對照Unicode官網的連結

http://www.unicode.org/charts/PDF/U1C00.pdf
http://www.unicode.org/Public/UCD/latest/ucd/NamesList.txt

http://www.unicode.org/charts/
http://www.unicode.org/charts/PDF/

http://www.unicode.org/Public/
http://www.unicode.org/Public/9.0.0/
http://www.unicode.org/Public/9.0.0/ucd/NamesList.txt


關於「Nameslist.txt」可以參考之前的回覆「#32」,「#40」,「#43」。


這也跟我之前「回覆#22」 提到的想法相呼應,可以簡單設計一些純文字格式來紀錄翻譯。

================================================================================

然後使用「Lepcha」查到「Wikipidia」上的連結

* https://en.wikipedia.org/wiki/Lepcha
* https://en.wikipedia.org/wiki/Lepcha_people
* https://en.wikipedia.org/wiki/Lepcha_language
* https://en.wikipedia.org/wiki/Lepcha_alphabet
* https://en.wikipedia.org/wiki/Lepcha_(Unicode_block)


* 維基百科 / 絨巴族

然後從「Wikipidia / Lepcha alphabet」看到下面的連結

* http://www.omniglot.com/writing/lepcha.htm

然後找到「Online Lepcha dictionary」,可以找到下面網址

* https://archive.org/details/cu31924023194198

後續的探索流程,關於「Cer-Wa」,「Tshook」請參考後來的「回覆#71


================================================================================

在下面這個頁面

http://www.unicode.org/versions/Unicode9.0.0/

可以找到「Full Text pdf for Viewing (13 MB)」

就可以找到下面的PDF連結

http://www.unicode.org/versions/Unicode9.0.0/UnicodeStandard-9.0.pdf

下載下來後,

我是使用「okular」來觀看。

查詢「lepcha」

可以找到


13 South and Central Asia-II     543
13.12 Lepcha                     583





所以可以從剛剛的頁面

http://www.unicode.org/versions/Unicode9.0.0/

找到「13 South and Central Asia-II」,

就可以找到下面的「PDF」

http://www.unicode.org/versions/Unicode9.0.0/ch13.pdf


以下摘錄其中一段


Punctuation. Currently the Lepchas use traditional punctuation marks only when copying
the old books. In everyday writing they use common Western punctuation marks such as
comma, full stop, and question mark.
The traditional punctuation marks include a script-specific danda mark, U+1C3B lepcha
punctuation ta-rol, and a double danda, U+1C3C lepcha punctuation nyet thyoom
ta-rol. Depending on style and hand, the Lepcha ta-rol may have a glyph appearance
more like its Tibetan analogue, U+0F0D tibetan mark shad.




================================================================================

以上紀錄,非回答樓主的問題。


6/24 9:47:08
應用擴展 工具箱

« 1 ... 4 5 6 (7) 8 »

 [無發表權] 請登錄或者註冊


可以查看帖子.
不可發帖.
不可回覆.
不可編輯自己的帖子.
不可刪除自己的帖子.
不可發起投票調查.
不可在投票調查中投票.
不可上傳附件.
不可不經審核直接發帖.