Unicode9.0字元一覽有感 [論壇 - Ubuntu 哈啦]


正在瀏覽:   1 名遊客


 到底部   前一個主題   下一個主題  [無發表權] 請登錄或者註冊

« 1 2 3 (4) 5 6 7 ... 9 »


回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 25
HP : 0 / 619
MP : 274 / 23582
EXP: 76
離線
我在用LO5.X Calc嘗試整理編輯unicode9.0的十二萬八千多個“字元名稱”的正體中文(目前的進度是完成272blocks之中的115個,何時能全部整理完畢?可遇不可求吧?),目前查資料遇到一個瓶頸,可能無法完整描述,總之有問有機會:
http://www.unicode.org/charts/PDF/U0530.pdf 為例。
我已知unicode9.0的分類規範下有個分類叫做“block name/區塊名稱”,也就是範例pdf頁面最上方的“Armenian”字樣。有個分類叫做“character name/字元名稱”,也就是範例pdf頁面最後頁“每一行”的“範例字元”“之後”的“字串”。然後在範例pdf“character name/字元名稱”所在的那頁,有幾個字級大小偏中間且粗體的“分類字串”例如:
Uppercase letters、Modifier letters、Lowercase letters、Punctuation、Religious symbols、Currency symbol。這些字串該怎麼稱呼???中、英文各是什麼??? 我想要在unicode官網文件中找出這些字串是什麼樣的分類的“敘述”,但是我看沒有/看不懂,像是在看天書。我試過在unicode官網下載最新版unicode CLDR、UCD打包檔,解壓縮後查關鍵字,我還是看沒有。誰可以指引我在unicode官網文件、CLDR、UCD裡頭的“哪個檔案”裡頭的“哪個段落哪幾行”?有描述到範例PDF文件中的中型粗體字Uppercase letters、Modifier letters、Lowercase letters、Punctuation、Religious symbols、Currency symbol 這些字串到底是什麼類型的分類?

2017/1/6 20:41
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2012/4/22 10:50
所屬群組:
已註冊使用者
等級: 37
HP : 0 / 905
MP : 679 / 30267
EXP: 23
離線
IanHo 寫到:
我在用LO5.X Calc嘗試整理編輯unicode9.0的十二萬八千多個“字元名稱”的正體中文(目前的進度是完成272blocks之中的115個,何時能全部整理完畢?可遇不可求吧?),目前查資料遇到一個瓶頸,可能無法完整描述,總之有問有機會:
http://www.unicode.org/charts/PDF/U0530.pdf 為例。
我已知unicode9.0的分類規範下有個分類叫做“block name/區塊名稱”,也就是範例pdf頁面最上方的“Armenian”字樣。有個分類叫做“character name/字元名稱”,也就是範例pdf頁面最後頁“每一行”的“範例字元”“之後”的“字串”。然後在範例pdf“character name/字元名稱”所在的那頁,有幾個字級大小偏中間且粗體的“分類字串”例如:
Uppercase letters、Modifier letters、Lowercase letters、Punctuation、Religious symbols、Currency symbol。這些字串該怎麼稱呼???中、英文各是什麼??? 我想要在unicode官網文件中找出這些字串是什麼樣的分類的“敘述”,但是我看沒有/看不懂,像是在看天書。我試過在unicode官網下載最新版unicode CLDR、UCD打包檔,解壓縮後查關鍵字,我還是看沒有。誰可以指引我在unicode官網文件、CLDR、UCD裡頭的“哪個檔案”裡頭的“哪個段落哪幾行”?有描述到範例PDF文件中的中型粗體字Uppercase letters、Modifier letters、Lowercase letters、Punctuation、Religious symbols、Currency symbol 這些字串到底是什麼類型的分類?




以下我個人的解讀,提供參考。

===============================================================================

你給的例子「http://www.unicode.org/charts/PDF/U0530.pdf」。

你可以從「http://www.unicode.org/Public/UCD/latest/ucd/NamesList.txt」找到相關的內容。
也可以下載「UCD.zip」解開找到
關於「NamesList.txt」這個檔案的格式說明,可以參考「NamesList.html」這一頁的說明。
在「Unicode Character Database」這一頁,有一個列表「Table 5. Files in the UCD

從上面「NamesList.txt」這個檔案,可以找尋「ARMENIAN FULL STOP」,可以找到下面的內容


@               Punctuation
0589    ARMENIAN FULL STOP
        = vertsaket
        * may also be used for historic Georgian texts
        x (colon - 003A)



下面會以上面這一段為例來說明。

另外「ARMENIAN FULL STOP」也會找到另一個區塊如下。


@		ASCII punctuation and symbols
003A	COLON
	* also used to denote division or scale; for that mathematical use 2236 is preferred
	x (armenian full stop - 0589)
	x (hebrew punctuation sof pasuq - 05C3)
	x (ratio - 2236)
	x (modifier letter colon - A789)



===============================================================================

查詢翻譯

* Yahoo / Punctuation
* Google / Punctuation

* Yahoo / FULL STOP
* Google / FULL STOP


「Punctuation」指的是「標點符號」
「FULL STOP」指的是「句點」

===============================================================================

從「Wikipedia / Armenian (Unicode block)」這一頁

可以找到「Wikipedia / Armenian alphabet」這一頁。

然後找尋「full stop」可以找到「Wikipedia / ։」這一頁 ( 在上面內文 『[ ։ ] The verjaket 』那裡)

從「維基百科 / 亞美尼亞字母」可以看到 『「:」(verjaket)是普通句號』。

也就是「U+0589」指的是「ARMENIAN的句號」。

===============================================================================


所以您原本提到的

IanHo 寫到:
...略...


然後在範例pdf“character name/字元名稱”所在的那頁,有幾個字級大小偏中間且粗體的“分類字串”例如:
Uppercase letters、Modifier letters、Lowercase letters、Punctuation、Religious symbols、Currency symbol。這些字串該怎麼稱呼???中、英文各是什麼???

...略...



「0531 ~ 0556」這範圍的字元,指的是「ARMENIAN Uppercase letters (大寫字母)」。
「0561 ~ 0587」這範圍的字元,指的是「ARMENIAN Lowercase letters (大寫字母)」。

「0589 ~ 058A」這範圍的字元,指的是「ARMENIAN Punctuation (標點符號)」。

...以此類推...

在「Unicode Character Database」這一頁,有一個列表「Table 12. General_Category Values」。

===============================================================================

關於

IanHo 寫到:

...略...

http://www.unicode.org/charts/PDF/U0530.pdf 為例。
我已知unicode9.0的分類規範下有個分類叫做“block name/區塊名稱”,也就是範例pdf頁面最上方的“Armenian”字樣。有個分類叫做“character name/字元名稱”,也就是範例pdf頁面最後頁“每一行”的“範例字元”“之後”的“字串”。

...略...



您提到的「“block name/區塊名稱”」,則是可以從「Blocks.txt」找到。

之前我「回覆#22」有列。

那時候我有寫一個專案「demo-convert-ucd」裡面有使用到。

===============================================================================


報告完畢


2017/1/6 22:34
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 25
HP : 0 / 619
MP : 274 / 23582
EXP: 76
離線
samwhelp 寫到:

以下我個人的解讀,提供參考。

===========================================================
恕刪
====================


報告完畢



或許是我的描述還是不夠精確吧?
還是被會錯意了~~~
我需要的東西真的不容易用文字描述吧?
我“不是”指
Uppercase letters、Modifier letters、Lowercase letters、Punctuation、Religious symbols、Currency symbol。
這些字串“個別的翻譯”。
我是指“這些字串”應該也會有一種“分類的稱呼”就像首篇PO文提到的兩種稱呼,
“block name/區塊名稱”、“character name/字元名稱”。
我推論
Uppercase letters、Modifier letters、Lowercase letters、Punctuation、Religious symbols、Currency symbol
應該會有第三種稱呼,例如 XXX name 之類的~~~
只是我找不到這 XXX name 之類的文件論述內容。

2017/1/6 23:17
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2012/4/22 10:50
所屬群組:
已註冊使用者
等級: 37
HP : 0 / 905
MP : 679 / 30267
EXP: 23
離線
IanHo 寫到:
samwhelp 寫到:

以下我個人的解讀,提供參考。

===========================================================
恕刪
====================


報告完畢



或許是我的描述還是不夠精確吧?
還是被會錯意了~~~
我需要的東西真的不容易用文字描述吧?
我“不是”指
Uppercase letters、Modifier letters、Lowercase letters、Punctuation、Religious symbols、Currency symbol。
這些字串“個別的翻譯”。
我是指“這些字串”應該也會有一種“分類的稱呼”就像首篇PO文提到的兩種稱呼,
“block name/區塊名稱”、“character name/字元名稱”。
我推論
Uppercase letters、Modifier letters、Lowercase letters、Punctuation、Religious symbols、Currency symbol
應該會有第三種稱呼,例如 XXX name 之類的~~~
只是我找不到這 XXX name 之類的文件論述內容。


歹勢,我誤解了您原本要問的了,

那您要問的,會不會是跟下面這個有關

samwhelp 寫到:

在「Unicode Character Database」這一頁,有一個列表「Table 12. General_Category Values」。



後來有補到上面的回覆。

再從內文的說明,找到「Unicode® 9.0.0 / 4 Character Properties」。

裡面可以看到「4.5 General Category」。

以上


2017/1/6 23:25
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 25
HP : 0 / 619
MP : 274 / 23582
EXP: 76
離線
我根據 samwhelp 提供的
http://www.unicode.org/reports/tr44/tr44-18.html#GC_Values_Table

還有
http://www.unicode.org/reports/tr44/tr44-18.html#General_Category_Values

使用 前面提到的關鍵字 Religious 去搜尋

PropertyAliases.txt

PropertyValueAliases.txt

檔案裡頭“找不到” Religious 字串。找“分類的稱呼”還真的很難找啊~~~

2017/1/6 23:41
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2012/4/22 10:50
所屬群組:
已註冊使用者
等級: 37
HP : 0 / 905
MP : 679 / 30267
EXP: 23
離線
IanHo 寫到:
我根據 samwhelp 提供的
http://www.unicode.org/reports/tr44/tr44-18.html#GC_Values_Table

還有
http://www.unicode.org/reports/tr44/tr44-18.html#General_Category_Values

使用 前面提到的關鍵字 Religious 去搜尋

PropertyAliases.txt

PropertyValueAliases.txt

檔案裡頭“找不到” Religious 字串。找“分類的稱呼”還真的很難找啊~~~



題外話,以下跟樓主原本要問的,沒直接關係,只是紀錄我找尋的方法,提供參考。

================================================================================

## 從 UCD(Unicode Character Database) 查詢

可以在「Unicode® 9.0.0」這一頁的左側欄,找到「9.0.0 UCD」,

那有個「9.0.0 Zipped files (for bulk download)」,可以看到兩個「zip檔」,

分別是「UCD.zip」和「Unihan.zip」。

執行下面指令,下載「UCD.zip」。


$ wget -c http://www.unicode.org/Public/zipped/9.0.0/UCD.zip



執行下面指令,解開「UCD.zip」。


$ unzip UCD.zip -d UCD



執行下面指令,觀看「UCD」這個資料夾結構。


UCD
├── ArabicShaping.txt
├── auxiliary
│   ├── GraphemeBreakProperty.txt
│   ├── GraphemeBreakTest.html
│   ├── GraphemeBreakTest.txt
│   ├── LineBreakTest.html
│   ├── LineBreakTest.txt
│   ├── SentenceBreakProperty.txt
│   ├── SentenceBreakTest.html
│   ├── SentenceBreakTest.txt
│   ├── WordBreakProperty.txt
│   ├── WordBreakTest.html
│   └── WordBreakTest.txt
├── BidiBrackets.txt
├── BidiCharacterTest.txt
├── BidiMirroring.txt
├── BidiTest.txt
├── Blocks.txt
├── CaseFolding.txt
├── CJKRadicals.txt
├── CompositionExclusions.txt
├── DerivedAge.txt
├── DerivedCoreProperties.txt
├── DerivedNormalizationProps.txt
├── EastAsianWidth.txt
├── EmojiSources.txt
├── extracted
│   ├── DerivedBidiClass.txt
│   ├── DerivedBinaryProperties.txt
│   ├── DerivedCombiningClass.txt
│   ├── DerivedDecompositionType.txt
│   ├── DerivedEastAsianWidth.txt
│   ├── DerivedGeneralCategory.txt
│   ├── DerivedJoiningGroup.txt
│   ├── DerivedJoiningType.txt
│   ├── DerivedLineBreak.txt
│   ├── DerivedNumericType.txt
│   └── DerivedNumericValues.txt
├── HangulSyllableType.txt
├── Index.txt
├── IndicPositionalCategory.txt
├── IndicSyllabicCategory.txt
├── Jamo.txt
├── LineBreak.txt
├── NameAliases.txt
├── NamedSequencesProv.txt
├── NamedSequences.txt
├── NamesList.html
├── NamesList.txt
├── NormalizationCorrections.txt
├── NormalizationTest.txt
├── PropertyAliases.txt
├── PropertyValueAliases.txt
├── PropList.txt
├── ReadMe.txt
├── ScriptExtensions.txt
├── Scripts.txt
├── SpecialCasing.txt
├── StandardizedVariants.html
├── StandardizedVariants.txt
├── TangutSources.txt
├── UnicodeData.txt
├── USourceData.txt
└── USourceGlyphs.pdf

2 directories, 62 files



執行下面指令,查詢關鍵字「Religious」會出現在那些檔案。


$ grep 'Religious' ./* -R -n



顯示


./UCD/Index.txt:4075:Political Symbols, Religious and 2626
./UCD/Index.txt:4350:Religious and Political Symbols 2626
./UCD/Index.txt:5200:Symbols, Religious and Political 2626
./UCD/NamesList.txt:3527:@ Religious symbols
./UCD/NamesList.txt:6822:@ Religious symbols
./UCD/NamesList.txt:15560:@ Religious and political symbols
./UCD/NamesList.txt:45593:@ Religious symbol
./UCD/NamesList.txt:45721:@ Religious symbols



關鍵字「Religious」,只有出現在「Index.txt」和「NamesList.txt」這兩個檔案。

執行下面指令,查詢關鍵字「Religious」會出現在那些檔案,並多列下面四行


$ grep 'Religious' ./* -R -n -A 4



執行下面指令,查詢關鍵字「Religious」會出現在那些檔案,並多列下面四行,和多列上面四行


$ grep 'Religious' ./* -R -n -A 4 -B 4



參數用法請閱讀「grep」的「Manpage」。

$ man grep

================================================================================

## google keyword site:unicode.org

在「Google」輸入下面的文字查詢


Religious site:unicode.org



或是輸入


Religious site:http://www.unicode.org/versions/Unicode9.0.0/



或是輸入


Religious site:http://www.unicode.org/charts/



例如:可以找到「這一頁」和「這一頁」和「這一頁」,這幾頁裡面可以找到「Religious」。

這個用法可參考「這篇討論」,
也可以善用「這篇」的「WebExtension」,
或是到「Google Advanced Search」這一頁,來填表單查詢。
原理都是一樣的。


================================================================================

## 連結整理

* Unicode® 9.0.0
* Unicode® Standard Annex #44 - Unicode Character Database
* http://www.unicode.org/ucd/


* http://www.unicode.org/Public/
* http://www.unicode.org/Public/zipped/
* http://www.unicode.org/Public/9.0.0/
* http://www.unicode.org/Public/UCD/latest/
* http://www.unicode.org/Public/UCD/latest/ucd/Index.txt <-- 可以找尋「Religious」
* http://www.unicode.org/Public/UCD/latest/ucd/NamesList.html
* http://www.unicode.org/Public/UCD/latest/ucd/NamesList.txt <-- 可以找尋「Religious」
* http://www.unicode.org/Public/UCD/latest/ucd/Blocks.txt

下面這三頁,可以找尋「Religious」
* http://www.unicode.org/charts/beta/nameslist/n_0F00.html
* http://www.unicode.org/charts/beta/nameslist/n_0530.html
* http://www.unicode.org/charts/beta/nameslist/n_1F300.html

下面這三頁,可以找尋「Religious」
* http://www.unicode.org/charts/PDF/U0F00.pdf
* http://www.unicode.org/charts/PDF/U0530.pdf
* http://www.unicode.org/charts/PDF/U1F300.pdf


* http://www.unicode.org/charts/charindex.html
* http://www.unicode.org/charts/nameslist/

================================================================================

報告完畢


2017/1/7 1:22
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2010/9/16 14:08
所屬群組:
已註冊使用者
等級: 25
HP : 0 / 619
MP : 274 / 23582
EXP: 76
離線
我找到“表格”了!!!
/CLDR3003/tools/tools/java/org/unicode/cldr/draft/picker/blocks_subblocks.html
/CLDR3003/tools/tools/java/org/unicode/cldr/draft/picker/subblocks_blocks.html
遺憾的是,描述這個subblocks是怎麼一回事以及完整名稱的unicode官網文件還是沒找到!

2017/1/7 2:03
----------------
個人網路文字作品集:
MacOSX10.5.8 安裝、設定、使用,個人經驗分享,正體中文版;以Windows思維用Linux,GNOME桌面篇;PDF
http://www.scribd.com/ianian1979
全字庫注音輸入法表格檔2019 (搭配CNS11643中文全字庫規格的Unicode格式傳統注音輸入法對照表)
https://sites.google.com/site/ianho7979/InputMethodTables
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2012/4/22 10:50
所屬群組:
已註冊使用者
等級: 37
HP : 0 / 905
MP : 679 / 30267
EXP: 23
離線
IanHo 寫到:
我找到“表格”了!!!
/CLDR3003/tools/tools/java/org/unicode/cldr/draft/picker/blocks_subblocks.html
/CLDR3003/tools/tools/java/org/unicode/cldr/draft/picker/subblocks_blocks.html
遺憾的是,描述這個subblocks是怎麼一回事以及完整名稱的unicode官網文件還是沒找到!


一開始因為我不知道你這個連結是連到那,或是從那找到的?

所以使用「subblocks_blocks.html」來查詢。

找到下面連結

* http://www.unicode.org/L2/L2009/09009-subheads.html
* http://macchiato.com/utc/subblocks/blocks_subblocks.html
* http://macchiato.com/utc/subblocks/subblocks_blocks.html
* http://macchiato.com/picker/MyApplication.html
* http://www.macchiato.com/unicode/utc/char-picker
* https://sites.google.com/site/macchiato/unicode/utc/char-picker


從「這一頁」內容來看,
這「blocks_subblocks.html」和「subblocks_blocks.html」兩個表,
應該是解析「NamesList.txt」而來的

以「blocks_subblocks.html」裡面的前三行「Aegean Numbers」為例,

可以看到

* Aegean Numbers <=> Measures
* Aegean Numbers <=> Numbers
* Aegean Numbers <=> Punctuation

然後再看「NamesList.txt」這個檔的內容

可以看到


	...略...

@@	10100	Aegean Numbers	1013F
@		Punctuation

	...略...

@		Numbers

	...略...

@		Measures

	...略...

@@	10140	Ancient Greek Numbers	1018F

	...略...




所以初步推測

前面「@@<tab>」是「block」,
前面「@<tab>」是「subblock」。

然後再去對照「NamesList.html」裡面的說明。

從「1.1 NamesList File Overview」可以看到


The NamesList files are plain text files which in their most simple form look like this:

@@<tab>0020<tab>BASIC LATIN<tab>007F
; this is a file comment (ignored)
0020<tab>SPACE
0021<tab>EXCLAMATION MARK
0022<tab>QUOTATION MARK
. . .
007F<tab>DELETE







	...略...

A double @@ introduces a block header, with the title, and start and ending code of the block provided as shown.

	...略...



然後再研讀「2.0 NamesList File Structure」




	...略...


SUBHEADER:	"@" TAB LINE 
			// Output LINE as column header

	...略...


BLOCKHEADER:	"@@" TAB BLOCKSTART TAB BLOCKNAME TAB BLOCKEND LF
			// Cause a page break and optional
			// blank page, then output one or more charts
			// followed by the list of character names. 
			// Use BLOCKSTART and BLOCKEND to define
			// what characters belong to a block.

	...略...



===========================================================

後來使用「cldr/draft/picker/」來查詢,找到「這一頁」。


然後從「這一頁」下載「cldr-tools-30.0.3.zip

下載


$ wget -c http://unicode.org/Public/cldr/30.0.3/cldr-tools-30.0.3.zip



觀看zip檔案列表



$ unzip -l cldr-tools-30.0.3.zip | grep subblocks



顯示


   133434  2016-12-13 10:40   tools/java/org/unicode/cldr/draft/picker/blocks_subblocks.html
   106441  2016-12-13 10:40   tools/java/org/unicode/cldr/draft/picker/subblocks_blocks.html



就可以找到「blocks_subblocks.html」和「subblocks_blocks.html」這兩個檔案。

解開zip檔,指令如下


$ unzip cldr-tools-30.0.3.zip -d cldr-tools-30.0.3




## 相關連結

* http://cldr.unicode.org/tools
* http://cldr.unicode.org/index
* http://cldr.unicode.org/index/downloads
* http://unicode.org/Public/cldr/


===========================================================

以上


2017/1/7 2:37
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2012/4/22 10:50
所屬群組:
已註冊使用者
等級: 37
HP : 0 / 905
MP : 679 / 30267
EXP: 23
離線
IanHo 寫到:
我根據 samwhelp 提供的
http://www.unicode.org/reports/tr44/tr44-18.html#GC_Values_Table

還有
http://www.unicode.org/reports/tr44/tr44-18.html#General_Category_Values

使用 前面提到的關鍵字 Religious 去搜尋

PropertyAliases.txt

PropertyValueAliases.txt

檔案裡頭“找不到” Religious 字串。找“分類的稱呼”還真的很難找啊~~~



我也還沒完全讀通,先紀錄目前新的發現,提供參考

================================================================================

延續上面回覆提到的

samwhelp 寫到:

在「Unicode Character Database」這一頁,有一個列表「Table 12. General_Category Values」。



摘錄該表的其中一段,關於「Symbol」那一段。


Sm 	Math_Symbol 	a symbol of mathematical use
Sc 	Currency_Symbol 	a currency sign
Sk 	Modifier_Symbol 	a non-letterlike modifier symbol
So 	Other_Symbol 	a symbol of other type
S 	Symbol 	Sm | Sc | Sk | So



然後摘錄「NamesList.txt」其中一段,關於「Armenian / Religious symbols」那一段,也可以從樓主提供的「http://www.unicode.org/charts/PDF/U0530.pdf」找到。


@@	0530	Armenian	058F

	...略...

@		Religious symbols
058D	RIGHT-FACING ARMENIAN ETERNITY SIGN
058E	LEFT-FACING ARMENIAN ETERNITY SIGN
	* maps to AST 34.005:1997




再來從「Scripts.txt」可以發現到一行,


058D..058E    ; Armenian # So   [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN




可以執行


$ grep '058D' UCD/Scripts.txt -n



顯示


759:058D..058E    ; Armenian # So   [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN



可以知道在「759行」。

然後我們可以看到在該行中,有一個「# So」,然後在對照剛剛提到的「Unicode Character Database /「Table 12. General_Category Values」這個表。


So 	Other_Symbol 	a symbol of other type



然後再來看「UnicodeData.txt」,可以看到下面這一行(第1406行)。


058D;RIGHT-FACING ARMENIAN ETERNITY SIGN;So;0;ON;;;;;N;;;;;



在上面這一行中,其中也有「;So;」。


> 所以我個人推測,「Armenian / Religious symbols」是被歸納到「General_Category / Other_Symbol」代號是「So」。


關於「Scripts.txt」可以參考閱讀「Unicode® Standard Annex #24 - Unicode Script Property / 4.1 Scripts.txt

另外在「Unicode® Standard Annex #24 - Unicode Script Property」,有一個表「Table 7. Script_Extensions Examples」,
其中就有一個欄位「Gc」,指的應該就是「General_Category」。

還有可以閱讀「Unicode® 9.0.0 / 4 Character Properties」。

===================================================================================================================

在「extracted/DerivedGeneralCategory.txt」這個檔案,也可以看到下面這一行(第3671行)


058D..058E    ; So #   [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN



代號一樣是「So」。

然後向上面觀看,在「第3361行」,可以看到下面的內容


# General_Category=Other_Symbol



你可以看到「3666 ~ 3839行」,裡面都是歸類在「So (Other_Symbol)」這個「Gc (General_Category)」。

===================================================================================================================


執行


$ grep '# General_Category' UCD/* -R -n



顯示


UCD/extracted/DerivedGeneralCategory.txt:16:# General_Category=Unassigned
UCD/extracted/DerivedGeneralCategory.txt:661:# General_Category=Uppercase_Letter
UCD/extracted/DerivedGeneralCategory.txt:1295:# General_Category=Lowercase_Letter
UCD/extracted/DerivedGeneralCategory.txt:1935:# General_Category=Titlecase_Letter
UCD/extracted/DerivedGeneralCategory.txt:1952:# General_Category=Modifier_Letter
UCD/extracted/DerivedGeneralCategory.txt:2016:# General_Category=Other_Letter
UCD/extracted/DerivedGeneralCategory.txt:2468:# General_Category=Nonspacing_Mark
UCD/extracted/DerivedGeneralCategory.txt:2760:# General_Category=Enclosing_Mark
UCD/extracted/DerivedGeneralCategory.txt:2772:# General_Category=Spacing_Mark
UCD/extracted/DerivedGeneralCategory.txt:2934:# General_Category=Decimal_Number
UCD/extracted/DerivedGeneralCategory.txt:2995:# General_Category=Letter_Number
UCD/extracted/DerivedGeneralCategory.txt:3014:# General_Category=Other_Number
UCD/extracted/DerivedGeneralCategory.txt:3081:# General_Category=Space_Separator
UCD/extracted/DerivedGeneralCategory.txt:3095:# General_Category=Line_Separator
UCD/extracted/DerivedGeneralCategory.txt:3103:# General_Category=Paragraph_Separator
UCD/extracted/DerivedGeneralCategory.txt:3111:# General_Category=Control
UCD/extracted/DerivedGeneralCategory.txt:3120:# General_Category=Format
UCD/extracted/DerivedGeneralCategory.txt:3145:# General_Category=Private_Use
UCD/extracted/DerivedGeneralCategory.txt:3155:# General_Category=Surrogate
UCD/extracted/DerivedGeneralCategory.txt:3163:# General_Category=Dash_Punctuation
UCD/extracted/DerivedGeneralCategory.txt:3187:# General_Category=Open_Punctuation
UCD/extracted/DerivedGeneralCategory.txt:3269:# General_Category=Close_Punctuation
UCD/extracted/DerivedGeneralCategory.txt:3348:# General_Category=Connector_Punctuation
UCD/extracted/DerivedGeneralCategory.txt:3361:# General_Category=Other_Punctuation
UCD/extracted/DerivedGeneralCategory.txt:3533:# General_Category=Math_Symbol
UCD/extracted/DerivedGeneralCategory.txt:3604:# General_Category=Currency_Symbol
UCD/extracted/DerivedGeneralCategory.txt:3628:# General_Category=Modifier_Symbol
UCD/extracted/DerivedGeneralCategory.txt:3664:# General_Category=Other_Symbol
UCD/extracted/DerivedGeneralCategory.txt:3845:# General_Category=Initial_Punctuation
UCD/extracted/DerivedGeneralCategory.txt:3863:# General_Category=Final_Punctuation
UCD/PropertyValueAliases.txt:615:# General_Category (gc)



關於「UCD/PropertyValueAliases.txt」,可以對照「Unicode Character Database /「Table 12. General_Category Values」這個表來觀看。

===================================================================================================================

執行

$ grep '# General_Category (gc)' UCD/PropertyValueAliases.txt -R -n -A 40



顯示


615:# General_Category (gc)
616-
617-gc ; C                                ; Other                            # Cc | Cf | Cn | Co | Cs
618-gc ; Cc                               ; Control                          ; cntrl
619-gc ; Cf                               ; Format
620-gc ; Cn                               ; Unassigned
621-gc ; Co                               ; Private_Use
622-gc ; Cs                               ; Surrogate
623-gc ; L                                ; Letter                           # Ll | Lm | Lo | Lt | Lu
624-gc ; LC                               ; Cased_Letter                     # Ll | Lt | Lu
625-gc ; Ll                               ; Lowercase_Letter
626-gc ; Lm                               ; Modifier_Letter
627-gc ; Lo                               ; Other_Letter
628-gc ; Lt                               ; Titlecase_Letter
629-gc ; Lu                               ; Uppercase_Letter
630-gc ; M                                ; Mark                             ; Combining_Mark                   # Mc | Me | Mn
631-gc ; Mc                               ; Spacing_Mark
632-gc ; Me                               ; Enclosing_Mark
633-gc ; Mn                               ; Nonspacing_Mark
634-gc ; N                                ; Number                           # Nd | Nl | No
635-gc ; Nd                               ; Decimal_Number                   ; digit
636-gc ; Nl                               ; Letter_Number
637-gc ; No                               ; Other_Number
638-gc ; P                                ; Punctuation                      ; punct                            # Pc | Pd | Pe | Pf | Pi | Po | Ps
639-gc ; Pc                               ; Connector_Punctuation
640-gc ; Pd                               ; Dash_Punctuation
641-gc ; Pe                               ; Close_Punctuation
642-gc ; Pf                               ; Final_Punctuation
643-gc ; Pi                               ; Initial_Punctuation
644-gc ; Po                               ; Other_Punctuation
645-gc ; Ps                               ; Open_Punctuation
646-gc ; S                                ; Symbol                           # Sc | Sk | Sm | So
647-gc ; Sc                               ; Currency_Symbol
648-gc ; Sk                               ; Modifier_Symbol
649-gc ; Sm                               ; Math_Symbol
650-gc ; So                               ; Other_Symbol
651-gc ; Z                                ; Separator                        # Zl | Zp | Zs
652-gc ; Zl                               ; Line_Separator
653-gc ; Zp                               ; Paragraph_Separator
654-gc ; Zs                               ; Space_Separator
655-# @missing: 0000..10FFFF; General_Category; Unassigned




在「PropertyValueAliases.txt」可以找到「General_Category」的列表,
可以對照「Unicode Character Database /「Table 12. General_Category Values」這個表。

或是閱讀「Unicode® 9.0.0 / 4 Character Properties」,也可以看到「Table 4-9. General Category」。

===================================================================================================================

以下是我一開始找尋所下的指令,可以找到一些檔案。

執行


$ grep '058D' UCD/* -R -n



顯示


UCD/DerivedAge.txt:1328:058D..058E ; 7.0 # [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/DerivedCoreProperties.txt:9801:058D..058E ; Grapheme_Base # So [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/EastAsianWidth.txt:253:058D..058E;N # So [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/extracted/DerivedLineBreak.txt:531:058D..058E ; AL # So [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/extracted/DerivedEastAsianWidth.txt:123:058D..058E ; N # So [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/extracted/DerivedGeneralCategory.txt:3671:058D..058E ; So # [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/extracted/DerivedBidiClass.txt:1330:058D..058E ; ON # So [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/extracted/DerivedCombiningClass.txt:125:058D..058E ; 0 # So [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/LineBreak.txt:194:058D..058E;AL # So [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/NamesList.txt:3528:058D RIGHT-FACING ARMENIAN ETERNITY SIGN
UCD/Scripts.txt:759:058D..058E ; Armenian # So [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/UnicodeData.txt:1406:058D;RIGHT-FACING ARMENIAN ETERNITY SIGN;So;0;ON;;;;;N;;;;;




執行


$ grep '058D..058E' UCD/* -R -n



顯示


UCD/DerivedAge.txt:1328:058D..058E    ; 7.0 #   [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/DerivedCoreProperties.txt:9801:058D..058E    ; Grapheme_Base # So   [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/EastAsianWidth.txt:253:058D..058E;N     # So     [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/extracted/DerivedLineBreak.txt:531:058D..058E    ; AL # So   [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/extracted/DerivedEastAsianWidth.txt:123:058D..058E    ; N # So   [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/extracted/DerivedGeneralCategory.txt:3671:058D..058E    ; So #   [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/extracted/DerivedBidiClass.txt:1330:058D..058E    ; ON # So   [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/extracted/DerivedCombiningClass.txt:125:058D..058E    ; 0 # So   [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/LineBreak.txt:194:058D..058E;AL     # So     [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN
UCD/Scripts.txt:759:058D..058E    ; Armenian # So   [2] RIGHT-FACING ARMENIAN ETERNITY SIGN..LEFT-FACING ARMENIAN ETERNITY SIGN



===================================================================================================================

報告完畢


2017/1/8 23:41
應用擴展 工具箱
回覆: Unicode9.0字元一覽有感
會員五級
註冊日期:
2012/4/22 10:50
所屬群組:
已註冊使用者
等級: 37
HP : 0 / 905
MP : 679 / 30267
EXP: 23
離線
IanHo 寫到:
或許是個蠢問題。
以
Alchemical Symbols
http://www.unicode.org/charts/PDF/U1F700.pdf
為例
文件下方的字元名稱清單,很多字元的字元名稱下方,都會有一堆的 "="和"→",
於是我想要找unicode官網文件中有關描述 "="和"→" 是怎麼一回事的文件內容段落,
我試了很多關鍵字排列組合去google,個人能力有限,我“找不到”描述 "="和"→" 是怎麼一回事的unicode官網文件內容段落。
也試過在維基百科中文和英文頁面下關鍵字,我找不出所以然來。
所以有問有機會,那份unicode官網文件中的哪個章節段落,會描述到unicode pdf字元名稱下方的 "="和"→" 這兩個符號是怎麼一回事?
或者維基百科的哪個現成已有的條目(含中文和英文)中的哪個章節段落,,有描述到unicode pdf字元名稱下方的 "="和"→" 這兩個符號是怎麼一回事?
我有下載了
http://www.unicode.org/versions/Unicode9.0.0/UnicodeStandard-9.0.pdf
我看不出所以然來。



關於在另一個論壇「第二個提問」,以上引用過來。

提供線索,供您參考

以您提的範例

http://www.unicode.org/charts/PDF/U1F700.pdf

您可以先觀看「NamesList.txt」,

然後查詢「1F772」,可以找到下面這一段


@		Measures
1F772	ALCHEMICAL SYMBOL FOR HALF DRAM
	= drachma semis
	x (latin small letter ezh - 0292)



您可以對照「U1F700.pdf」在「第四頁」下方

基本上內容是差不多的,
「=」一樣維持「=」,
「x」在「pdf」被置換成「→」,
「(latin small letter ezh - 0292)」位置有對調「0292 ʒ latin small letter ezh」。


所以可以參考「NamesList.html」裡的說明。

在「2.1 NamesList File Elements」

可以找到


ALIAS_LINE:	TAB "=" SP LINE      
			// Replace = by itself, output line as alias






CROSS_REF:	TAB "x" SP CHAR SP LCNAME LF
		| TAB "x" SP CHAR SP "<" LCNAME ">" LF
			// x is replaced by a right arrow

		| TAB "x" SP "(" LCNAME SP "-" SP CHAR ")" LF    
		| TAB "x" SP "(" "<" LCNAME ">" SP "-" SP CHAR ")" LF  
			// x is replaced by a right arrow;
			// (second type as used for control and noncharacters)

			// In the forms with parentheses the "(","-" and ")" are removed
			// and the order of CHAR and LCNAME is reversed;
			// i.e. all inputs result in the same order of output

		| TAB "x" SP CHAR LF
			// x is replaced by a right arrow
			// (this type is the only one without LCNAME
			// and is used for ideographs)



其中有一個「// x is replaced by a right arrow;」。


您可以再自行對照其他的例子,例如「1F771」和「1F773」。

================================================================================


另外摘錄「NamesList.html


1.0 Introduction

The Unicode name list file NamesList.txt (also NamesList.lst) is a plain text file used to drive the layout of the character code charts in the Unicode Standard. The information in this file is a combination of several fields from the UnicodeData.txt and Blocks.txt files, together with additional annotations for many characters.

This document describes the syntax rules for the file format, but also gives brief information on how each construct is rendered when laid out for the code charts. Some of the syntax elements are used only in preparation of the drafts of the code charts and are not present in the final, released form of the NamesList.txt file.

...略...



================================================================================


報告完畢


2017/1/19 12:45
應用擴展 工具箱

« 1 2 3 (4) 5 6 7 ... 9 »

 [無發表權] 請登錄或者註冊


可以查看帖子.
不可發帖.
不可回覆.
不可編輯自己的帖子.
不可刪除自己的帖子.
不可發起投票調查.
不可在投票調查中投票.
不可上傳附件.
不可不經審核直接發帖.