西西软件园多重安全检测下载网站、值得信赖的软件下载站!
软件
软件
文章
搜索

首页编程开发其它知识 → 学习Python语言中文怎么输出

学习Python语言中文怎么输出

相关软件相关文章发表评论 来源:西西整理时间:2014/8/17 11:17:07字体大小:A-A+

作者:西西点击:844次评论:0次标签: Python

《派森》(Python)3.13 win32 英文安装版
  • 类型:编程工具大小:21M语言:英文 评分:8.7
  • 标签:
立即下载

Python中文是蟒蛇,Python是著名的“龟叔”Guido van Rossum在1989年圣诞节期间,为了打发无聊的圣诞节而编写的一个编程语言。比如,完成同一个任务,C语言要写1000行代码,Java只需要写100行,而Python可能只要20行。
我发表这个贴子是想让更多人去认识Python。Python语言很好上手,语句简单明了,不像C++  .  VB等语言复杂。Python语言涉及到很多方面,比如3D游戏等。
如果想计算50+100的结果是多少,C语言和VB语言等一大串的代码,而Python计算50+100的代码只需要这样“50+100”
 
如果不信的话,大家可以用Python试一试这段代码。

输出的代码
print 后加引号输出的文字
例:print '基德逗逗'  (Python是 不允许加中文的,如果加中文的话请看一下教程)
 
出现错误提示,怎么回事,接着往下看

print语句后也可以跟上多个字符串,使用的方法是用逗号隔开
例:print '你是男人', '不用谢'    (Python是 不允许加中文的,如果加中文的话请看一下教程)            
 
出现错误提示,怎么回事,接着往下看

中文的加法在前面写入代码:
# encoding: utf-8
print '你是男人', '不用谢'

修改了代码之后,还是错误,最会得知原来标点符号错了,'打成了‘
这次代码对了,很兴奋,大概就是写代码的乐趣吧!
 

使用nltk来处理中文资料

nltk 怎么样使用中文?这是个大问题。这么个工具目前只能比较好的处理英文和其他的一些拉丁语系,谁让别人的单词与单词之间有个空格隔开呢!中文汉字一个挨一个的,nltk在分词这一关就过不去了,分词没法分,剩下的就都做不了。唯一能做的, 就是对网上现有的中文语料进行处理,这些语料都分好了词,可以使用nltk进行类似与英文的处理。

python处理中文首先需要设置一下文本的编码, 文件的首行加上: #coding utf-8 这个是给python解释器识别的,然后文件保存的时候,还需要保存为utf-8的编码。

这些编码设置完了, ntlk还是处理不了中文。

nltk处理中文的第一步障碍就是中文资料不是分好词的, 词语与词语之间没有空格。要使用nltk对中文进行处理, 首先的第一步就是中文分词(台湾叫中文断词)。

目前python中文分词的包,我推荐使用结巴分词。 使用结巴分词,之后,就可以对输出文本使用nltk进行相关处理。

当然中文分词, 不应该成为使用nltk的障碍,或许很多人认为,既然用nltk,那么nltk就应该支持中文。但是我们得认清现实,现实就是nltk就是不支持处理中文,因此,这个给国内很多自然语言处理的研究人员有了研究的空间了,nltk既然没做中文分词,那么中国人就应该自己做了这个。一个口碑比较好的中文分词工具就是ICTCLAS中文分词。

当然,我个人觉得中国人自己开发的纯python实现的结巴分词也不错。

总的来说,nltk不提供中文分词,不应该纠结于此,并止步不前,我们完全可以使用其他的中文分词工具,将需要处理的资料分好词,然后再使用nltk进行处理,因此,这里就不多说中文分词的那点事了。如果你因为中文分词而分心,并转向到中文分词的研究之中,那么你就掉入了另外一个深坑之中。牢记本文的主题是nltk。当然需要多啰嗦一点的就是,nltk的默认词性标注集使用的是Penn Treebank 的词性标注集,因此,你选用中文分词模块的时候,最好能够使用和penn词性标注集差不多的中文分词工具,当然,不一样也没事。

    相关评论

    阅读本文后您有什么感想? 已有人给出评价!

    • 8 喜欢喜欢
    • 3 顶
    • 1 难过难过
    • 5 囧
    • 3 围观围观
    • 2 无聊无聊

    热门评论

    最新评论

    发表评论 查看所有评论(0)

    昵称:
    表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
    字数: 0/500 (您的评论需要经过审核才能显示)