Home > Archives > 2008-02-19

2008-02-19

WEBに登場する単語の登場頻度を調べる

WEBサイトを作るときのレギュレーションを決めようやないのと、用語辞書を作ることになりましたとさ。やり口は色々やろけど、今回は現サイトで使ってる単語を調べて、一覧化して、類似用語を抜いて、ここからルールを決めることにした。

「茶筅」or「和布蕪」とかの形態素解析ソフトを使うにせよ今回はイッパツものなんんでこんな感じでやってみる。

  1. 検査対象のHTMLページ(PHPとかも)もローカル保存
  2. HTML -> テキスト変換ツールで余計なタグを除去
  3. テキストを1ファイルにマージ
  4. 形態素解析ソフトで解析して「単語+出現件数」が出力
  5. エクセルとかにまとめて用語集化
  6. 完成!
では具体例

HTMLをテキストに変換して単語の登場頻度を調べる
  1. 調査対象を落とす
    Website Explorer で検査対象のURLチェックする
    フォルダ小窓を右クリ→ファイル出力
    HTMLファイルがだらだれ出力されるわけですわ
  2. HTMLからテキストに変換する
    HTML→テキスト変換ツール H2Tconv for Windows
     でテキスト化したファイルをいっきにテキストファイル化
  3. ファイルマージ
    テキストファイルをcopyコマンドで1つにまとめ
    copy *.txt marge.txt
  4. 形態素解析ソフトで解析
    xxxxxxっていうソフトやったような気がする。
    わすれた。
  5. エクセルでソート
  6. どうするべ会議する

Home > Archives > 2008-02-19

Twitter@touna
Follow @touna_com (22 followers)
Calendar
« 2008 年 2月 »
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29  
ページ
Tag Cloud
アーカイブ
Spam Blocked
RSS Feed
ブログ村

Return to page top