来源:https://www.jianshu.com/p/57a6600d2862
工具介绍
pinyin4j 是一个支持将简体
和繁体
中文转换到成拼音的Java开源类库;
功能
- 支持同一汉字有多个发音
- 还支持拼音的格式化输出,比如第几声之类的,
- 同时支持简体中文、繁体中文转换为拼音…使用起来也非常简单。下面是其官方网址,其中提供了下载:
目录结构及说明
doc :
pinyin4j的api文档
lib :
pinyin4j的jar包
src:
pinyin4j的源代码
CHANGELOG.txt :
pinyin4j的版本更新日志
COPYING.txt :
LICENSE说明
README.txt :
pinyin4j的概要介绍
原理
pinyin4j使用了一个.txt的文本文件(uicode_to_hanyu_pinyin.txt)用来存储汉字unicode编码与拼音的对应关系,通过读取该配置文件达到转换的目的。该属性文件存储信息的基本格式如下:89E3 (jie3,jie4,xie4) //(对应汉字”解”)89E3 是汉字对应的unicode编码的16进制数,(jie3,jie4,xie4)是该汉字对应的三种读音(在汉语里有多音字),说明pinyin4j支持多音字的处理pinyin4j的处理过程是这样的:根据String的toCharArray方法得到每个字符(得到”解”字的unicode编码,实际上是35299,由于java中char和String都是unicode编码的可以直接转为int型的编码数据35299),然后利用Integer.toHexString(c1).toUpperCase()将其转换成16进制数[也就是89E3],通过读取配置文件得到“解”字的拼音(jie3,jie4,xie4),那么这里有三个拼音,pinyin4j的默认取值为第一个,也就是jie3[表示读jie,声调是三声]
pinyin4J 使用
pinyin4j 提供的工具类为PinyinHelper
,里边提供了静态方法
toHanyuPinyinString()
(过时)
toHanyuPinyinStringArray()
pinyin4j 中有四个辅助类分别是:
- HanyuPinyinCaseType
- HanyuPinyinToneType
- HanyuPinyinVCharType
- HanyuPinyinOutputFormat
具体功能和用法见一下代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
| HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
defaultFormat.setCaseType(HanyuPinyinCaseType.UPPERCASE);
defaultFormat.setToneType(HanyuPinyinToneType.WITH_TONE_NUMBER);
defaultFormat.setVCharType(HanyuPinyinVCharType.WITH_U_UNICODE);
String[] pinyin = PinyinHelper.toHanyuPinyinStringArray('重', defaultFormat); for(String str: pinyin){ System.out.println(str); }
|
结果:
其他工具类
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62
|
public static String getAlpha(String chines) { String pinyinName = ""; char[] nameChar = chines.toCharArray(); HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat(); defaultFormat.setCaseType(HanyuPinyinCaseType.UPPERCASE); defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); for (int i = 0; i < nameChar.length; i++) { if (nameChar[i] > 128) { try { pinyinName += PinyinHelper.toHanyuPinyinStringArray( nameChar[i], defaultFormat)[0].charAt(0); } catch (BadHanyuPinyinOutputFormatCombination e) { e.printStackTrace(); } } else { pinyinName += nameChar[i]; } } return pinyinName; }
public static String getPingYin(String inputString) { HanyuPinyinOutputFormat format = new HanyuPinyinOutputFormat(); format.setCaseType(HanyuPinyinCaseType.LOWERCASE); format.setToneType(HanyuPinyinToneType.WITHOUT_TONE); format.setVCharType(HanyuPinyinVCharType.WITH_V); String output = ""; if (inputString != null && inputString.length() > 0 && !"null".equals(inputString)) { char[] input = inputString.trim().toCharArray(); try { for (int i = 0; i < input.length; i++) { if (java.lang.Character.toString(input[i]).matches( "[\\u4E00-\\u9FA5]+")) { String[] temp = PinyinHelper.toHanyuPinyinStringArray( input[i], format); output += temp[0]; } else output += java.lang.Character.toString(input[i]); } } catch (BadHanyuPinyinOutputFormatCombination e) { e.printStackTrace(); } } else { return "*"; } return output; }
|