Python テキスト統計関数: 西遊記は単語統計演算を使用します-Python チュートリアル-php.cn

Python テキスト統計関数: 西遊記は単語統計演算を使用します

不言

リリース： 2018-05-07 13:53:27

オリジナル

3537 人が閲覧しました

この記事では主に、Python テキスト統計関数を使用した西遊記の単語統計操作を紹介し、Python テキストの読み取り、トラバース、統計およびその他の関連操作スキルを例の形式で分析します。この記事では Python の例を紹介しています。西遊記のテキスト統計関数は単語統計演算を使用します。参考のために皆さんと共有してください。詳細は次のとおりです。

1. データ xyj.txt、「西遊記」のテキスト、2.2MB

呉承源先生への追悼、4020 行(段落)

2、「西遊記」の統計: 1. それぞれの漢字が合計で何回出現するか。最も頻繁に出現する漢字はどれですか。

3. 関与するコンテンツ:

1. ファイルの読み込み
3. 辞書の書き込み

5. ソースコード

# coding:utf8
import sys
reload(sys)
sys.setdefaultencoding("utf8")
fr = open(&#39;xyj.txt&#39;, &#39;r&#39;)
characters = []
stat = {}
for line in fr:
  # 去掉每一行两边的空白
  line = line.strip()
  # 如果为空行则跳过该轮循环
  if len(line) == 0:
    continue
  # 将文本转为unicode，便于处理汉字
  line = unicode(line)
  # 遍历该行的每一个字
  for x in xrange(0, len(line)):
    # 去掉标点符号和空白符
    if line[x] in [&#39; &#39;,&#39;&#39;, &#39;\t&#39;, &#39;\n&#39;, &#39;。&#39;, &#39;，&#39;, &#39;(&#39;, &#39;)&#39;, &#39;（&#39;, &#39;）&#39;, &#39;：&#39;, &#39;□&#39;, &#39;？&#39;, &#39;！&#39;, &#39;《&#39;, &#39;》&#39;, &#39;、&#39;, &#39;；&#39;, &#39;“&#39;, &#39;”&#39;, &#39;……&#39;]:
      continue
    # 尚未记录在characters中
    if not line[x] in characters:
      characters.append(line[x])
    # 尚未记录在stat中
    if not stat.has_key(line[x]):
      stat[line[x]] = 0
    # 汉字出现次数加1
    stat[line[x]] += 1
print len(characters)
print len(stat)
# lambda生成一个临时函数
# d表示字典的每一对键值对，d[0]为key，d[1]为value
# reverse为True表示降序排序
stat = sorted(stat.items(), key=lambda d:d[1], reverse=True)
fw = open(&#39;result.csv&#39;, &#39;w&#39;)
for item in stat:
  # 进行字符串拼接之前，需要将int转为str
  fw.write(item[0] + &#39;,&#39; + str(item[1]) + &#39;\n&#39;)
fr.close()
fw.close()

ログイン後にコピー