Home > Archives > 2008-02-19
2008-02-19
WEBに登場する単語の登場頻度を調べる
- 2008-02-19 (火)
- デジモノ
WEBサイトを作るときのレギュレーションを決めようやないのと、用語辞書を作ることになりましたとさ。やり口は色々やろけど、今回は現サイトで使ってる単語を調べて、一覧化して、類似用語を抜いて、ここからルールを決めることにした。
「茶筅」or「和布蕪」とかの形態素解析ソフトを使うにせよ今回はイッパツものなんんでこんな感じでやってみる。
- 検査対象のHTMLページ(PHPとかも)もローカル保存
- HTML -> テキスト変換ツールで余計なタグを除去
- テキストを1ファイルにマージ
- 形態素解析ソフトで解析して「単語+出現件数」が出力
- エクセルとかにまとめて用語集化
- 完成!
HTMLをテキストに変換して単語の登場頻度を調べる
- 調査対象を落とす
Website Explorer で検査対象のURLチェックする
フォルダ小窓を右クリ→ファイル出力
HTMLファイルがだらだれ出力されるわけですわ - HTMLからテキストに変換する
HTML→テキスト変換ツール H2Tconv for Windows でテキスト化したファイルをいっきにテキストファイル化 - ファイルマージ
テキストファイルをcopyコマンドで1つにまとめ
copy *.txt marge.txt - 形態素解析ソフトで解析
xxxxxxっていうソフトやったような気がする。
わすれた。 - エクセルでソート
- どうするべ会議する
- Comments: 0
- Trackbacks: 0
Home > Archives > 2008-02-19
-
- 江ノ島の隣駅なう!風ふいて気持ちエエわ
-
« 2008 年 2月 » 日 月 火 水 木 金 土 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 -
- 2010年7月 (8)
- 2010年6月 (11)
- 2010年5月 (6)
- 2010年4月 (3)
- 2010年3月 (4)
- 2010年2月 (12)
- 2010年1月 (18)
- 2009年12月 (18)
- 2009年11月 (2)
- 2009年10月 (2)
- 2009年9月 (3)
- 2009年8月 (3)
- 2009年7月 (5)
- 2009年6月 (9)
- 2009年5月 (4)
- 2009年4月 (10)
- 2009年3月 (4)
- 2009年2月 (7)
- 2008年12月 (6)
- 2008年11月 (3)
- 2008年10月 (7)
- 2008年9月 (49)
- 2008年8月 (12)
- 2008年7月 (10)
- 2008年6月 (7)
- 2008年5月 (14)
- 2008年4月 (13)
- 2008年3月 (28)
- 2008年2月 (19)
- 2008年1月 (12)
- 2007年12月 (15)
- 2007年11月 (13)
- 2007年10月 (6)
- 2007年9月 (4)
- 2007年8月 (10)
- 2007年7月 (9)
- 2007年6月 (7)
- 2007年5月 (6)
- 2007年4月 (11)
- 2007年3月 (13)
- 2007年2月 (13)
- 2007年1月 (17)
- 2006年12月 (19)
- 2006年11月 (10)
- 2006年10月 (8)
- 2006年9月 (6)
- 2006年8月 (11)
- 2006年7月 (1)
- 2006年6月 (1)
- 2006年3月 (1)
- 2006年2月 (1)
- 2006年1月 (5)
- 2005年12月 (4)
- 2005年9月 (1)
- 2005年8月 (1)
- 2005年7月 (7)
- 2005年6月 (4)
- 2005年5月 (11)
- 2005年4月 (16)
- 2005年3月 (23)
- 2005年2月 (19)
- 2005年1月 (9)
- 2004年12月 (6)
- 2004年11月 (4)
- 2004年10月 (3)
- 2004年9月 (2)
- 2004年8月 (8)
- 2004年7月 (7)
- 2004年6月 (5)
- 2004年5月 (5)
- 2004年4月 (9)
- 2004年3月 (12)
- 2004年2月 (9)