Word_Counter [v0.7]
written by
HT_genetics
和文や英文の単語単位への簡易分割と頻度計算
Word Splitting:
Short Word Trimming:
Frequency Counting:
日本語や英語(およびヨーロッパ系言語)の文章を単語へ分割します。分割処理には正規表現を使った簡易的な手法を用いており、品詞の区別は行っておらず、本格的なテキストマイニングへの使用は想定していません。
分割の次に、指定の長さ以下の文字を除去します。英文においては、指定長に満たない単語でも遺伝子名と類似しているものは、なるべく残すように工夫してあります。
正規表現 (regular expression) を用いた文字列の検索機能も付けてあります。使用例を示すと、".{10}キーワード.{10}" は前後の 10 文字ずつを含めた文字列領域にマッチします。幾つかの正規表現の例 (線虫の変異体名など) が、プルダウンメニューから選べるようにもなっています。
最後に、単語の出現頻度を計算します。計算結果は、アルファベット順 (初期設定) もしくは頻度順に報告されます。想定している使い分けは、自分の文章における用語の統一などの用途にはアルファベット順で、他者の文章からキーワードを抽出するなどの用途には頻度順です。計算結果はタブ区切りのテキスト形式であり、表計算シートへ貼り付けることも可能です。
文章情報はサーバーへ送信されずに、計算はウェブブラウザで行われます。入力可能なテキストファイルのサイズ上限は 2 MBです。ページ右上の "Paste a language example" を押すと、テストデータが入力欄に挿入されます。
Word_Counter 0.7 (last modified on 2023 Nov)