close
EX:[\x{2460}-\x{2468}]
[^\x00-\xff] 全形字
EX:[\u4E00-\u9fa5]
2.
使用 \x 來指定 Unicode 的碼
[^\uFF00-\uFFFF] 全形字
[\u9fa5-\uFFFF] (韓文或其他)
[\u0800-\u4E00] (日文)
[\uFF00-\uFFFF] 全形符號
[\uFE30-\uFFA0] 全形字母數字
[\u0080-\uFFFF] 中日韓3byte以上的字符
[\u4E00-\u9fa5] (中文)
以上是比來工作中碰到的問題,把網路文章清算出來翻譯
Unicode 5.0 的列表
這個表裡面列出了同一碼區塊名和相對應的 Unicode 區段,
而此中的「CJK Unified Ideographs」就是天成翻譯公司們的中文字區段(看名稱,應該包含日文、簡體、韓文),
而在 RegEx 中,可以透過「\p」來指定這個同一碼區塊名,
透過指定它,找出相對應的文字局限,Java 就是如許做的。 要能夠擷取出 Unicode,常見的作法有兩種:
1.
利用 \u 來指定 Unicode 的碼
文章出自: http://blog.xuite.net/chocopie0226/programerJava/224245060-Get+Unicode+by+Regular+Expression有關各國語文翻譯公證的問題歡迎諮詢天成翻譯公司02-77260931
文章標籤
全站熱搜