平テキスト

平テキストの画面には、メニューの下に8つのタブが用意されている。
                   
         

1.File List(データの読み込み)





タブFile Listの右側にボタン「Open the File List」「Add New Files」「Confirm」「Clear All」「Save」「Cut Files To The Same Length」を設けている。
一般的には、ボタン「Add New Files」を用いてファイルの読み込みを行う。ボタン「Add New Files」を押すとファイルが置かれている場所を指定する画面が開かれる。下図のようにドライブ、フォルダ、サブフォルダ順に選択し続け、読み取りたいテキストを選択し、画面上の「開く」ボタンを押すと選択されたテキストがMTMineRのタブ「File List」の左の窓にリストアップされる。



ほかのフォルダ中のファイルを追加したいときには、上記の操作を繰り返す。
「Save」ボタンを用いて、リストアップしたリストを保存しておくことができる。これにより、後日にリストアップしたファイルを利用する時、再びリストアップしなくて済む。ファイルリストの保存は、まず「tput File:」の下の窓に保存する場所とファイル名前を指定し、次に「Save」ボタンを押す。ファイルの場所の指定は窓の右側のボダンを用いることが可能である。保存したファイルリストを読み込んで用いる際には、ボタン「Open the file list」を用いて保存しておいたファイルリストを指定する。
リストアップしたファイルについて処理を行う前に確認ボタン「Confirm」を押す。ファイルリスト画面のクリアはボタン「Clear All」を用いる。
ボタン「Cut Files To The Same Length」は、ファイルを同じの長さに前から切り取るためのボタンである。これを押すと、ファイルの長さ及び出力場所を指定する画面が開かれる。デフォルトではファイルの長さが200(全角文字数)になっている。テキストの長さと出力場所を指定し、画面上の「OK」ボタンを押すと同じ長さに切り取ったテキストが保存され、当時にそのファイルがMTMineRにリストアップされる。
Go To Top

2.Summary(データの要約)


タブSummaryは、読み込んだテキストについてバイト数(FileLengthInBytes),文字・記号数(FileLengthInChars),文の数(SentencesNum),文字の数(CharNum),漢字の数(KanjiNum),平仮名の数(HiraganaNum),片仮名の数(KatakanaNum),ローマ字の数(RomajiNum),数字の数(NumberNum),全角記号の数(ZenkakuKigoNum),半角記号の数(HankakuKigoNum)を集計する。
ボタン「Summarizing」を押すと集計結果が左側の窓に返される。


データの形式は画面の右側のラジオボタンで指定できる。「Tab format」はデータをタブで区切り、「CSV format」はデータをコンマで区切る。「File in row」は個体(テキスト)を行に、「File in column」は個体を列に表示する。集計したデータを保存する時、保存の場所とファイル名前を指定し、ボタン「Save」を押すと保存される。

Go To Top

3.n-gram


タブn-gramでは、文字単位のn-gramのデータを集計する。
画面の右側の「Ngram Type」下の窓でnを指定する。中にはUnigram(n=1),Bigram(n=2),Trigram(n=3),Fourgram(n=4),Fivegram(n=5),Sixgram(n=6)という6つの選択肢がある。
集計結果のサイズはcutoff値(閾値)を用いてコントロールできる。例えば、Cutoff値を100すると全対象テキストにおいて合計の頻度が100未満の項目はすべて、1つの項目“OTHERS”にまとめる。集計したデータは総度数が大きいものから降順にソートされている。
ボタン「Processing」を押すと、集計結果が左側の窓に返される。結果の保存は、Output Fileの窓にフォルダを指定し、ファイルの名を付け、ボタン「Saving…」を押す。

Go To Top

4.Length(長さの分布)


タブLengthでは、文の長さ(Sentence Length)と段落の長さ(Paragraph Length)、リズムの長さ(Rhythm Length)を集計する。文については句点、感嘆符、疑問符を文の終わりと判断する。これらの記号を用いず、改行を文の終わりとしている場合は画面上の「Use line break to split sentence」にチックをいればよい。リズムはコロン、セミコロン、読点、句点、感嘆符、疑問符をリズムの区切りとする。
平テキストの場合は、長さを集計する際、一般的には文字単位として「Length in Character」を集計する。Mecabがインストールされている環境では、漢字を読み方に置き換え、読み方による長さ「Length in Reading」を集計することも可能である。
形態素解析済みの場合、一般的には延べ語数「Token Number」を単位として集計するが、異なり語数「Token Type Number」で集計ことも可能である。文字を単位とする時は「Char Unit」を選択し、バイトを単位とする時は「Byte Unit」を選択する。
長さの分布のデータを集計する際、1文字ごとに一つの変数(項目)にするとデータのサイズ大きくなるので、いくつの文字を1つの項目にまとめて集計すると便利である。これは画面上の「Category Index」で自由に指定できる。例えば、文字を単位とした場合、Category Indexが5であると1文字から5文字を1項目、6文字から10文字を1項目のように集計する。
画面上の「Cutoff」(閾値)を用いて集計サイズをコントロールすることができる。デフォルトは100になっている。Cutoff値が100の場合は、100文字以上の文はすべて一つの項目にまとめて集計する。



結果の保存は、「Output File」の窓にフォルダを指定し、ファイルの名を付け、ボタン「Save」を押す。
Go To Top

5.Mark(指定文字・記号の前後)


タブMarkでは、ある文字・記号の前後の文字を切り取ったデータを集計する。
「Please input keyword」下の窓に指定の文字或は記号を入力して、当該文字・記号がどの文字の前に付けているかを集計する時、「After」にチェックを入れる。逆に当該文字・記号がどの文字の後に付けているかを集計する時、「Before」にチェックを入れる。タブ「Mark」で集計したデータは、文字単位のBigramの一部分である。
結果の保存は、Output Fileの窓にフォルダを指定し、ファイルの名を付け、ボタン「Saving…」を押す。



Go To Top

6.KWIC(クウィック検索)


タブ「KWIC」(Keyword in context)では、指定したキーワードについてすべてのテキストから、その前後の文脈を一定の長さで切り取って返す。右側の画面上の「Please input keyword」下の窓に検索したいキーワードを入力し、画面上の「No. Left」と「No. Right」を用いて前後切り取る長さを自由に指定し、ボタン「Process」を押すと、結果が左側に返される。返された結果は自由にソートすることができる。切り取った部分の前後を基準としたソートは、左側の画面上の「Left」或は「Right」の部分をクリックすると降順、昇順に入れ替わる。



返された結果の一行をクリックするとそれが含まれているテキストが左下側の空白欄に返される。また、キーワードは正規表現(regular expression)で指定することが可能である。[Use regular expression]にチェックを入れると正規表現によるKWIC検索ができる。結果の保存は、「Output File」の窓にフォルダを指定し、ファイルの名を付け、ボタン「Save」を押す。
Go To Top

7.WordList


タブ「Word List」では、各自が作成したワードリストに指定している語句をテキストごとに集計する。ワードリストは直接画面の左側の「Rule List」の窓に直接記述できる。また、文章エディターで作成したファイルを、ボタン「Open Rule List」から読み込み用いることもできる。
項目の記述は、1行を一つの項目とする。また、記述には論理演算を用いることができる。かつ(and)演算は半角の&、また(or)演算は半角の縦棒|を用いる。



結果の保存は、「Output File」の窓にフォルダを指定し、ファイルの名を付け、ボタン「Save」を押す。
Go To Top

8.Tools(テキストの整形のための小ツール)


タブToolsには、「Replacement」 「Parenthesis Process」「Sentences Randomizer」という三つのサブタブがある。前の二つはテキストの整形や洗浄に必要な機能である。サブタブ「Replacement」では、テキストの中の記号・文字列を置き換える。記述は1行を一項目にする。また、置き換え前と置き換え後の文字列は半角の縦棒|で切り分ける。また、正規表現を用いて記述することもできる。



サブタブ「Parenthesis Normalizer」では、さまざまな括弧の中のものを削除する機能である。括弧「」の中の会話文を削除したいときには、画面の左部分の「」をチェックし、その下の確認ボタン「Conform」押す。括弧「」の中身だけ削除したいときには、出力場所を指定した上でボタン「Normalizing」を押す。括弧「」の記号も削除したいときには右側の「」の前にチェックを入れる。



サブタブ「Sentences Randomizer」ではテキストから、ランダムに文を取り出す。取り出す文の数は画面の右側の「Num of Sentences」の窓で自由に指定できる。また、取り出すファイルの数は「Num of Files」の窓で選択できる。画面の右側の「Ngram Type」下の窓でnを選択できる。ボタン「Processing」を押すと、結果は左側の窓Resultsに返される。抽出したデータを保存する時、保存場所とファイル名前を「Save」ボタン上の窓に指定し、ボタン「Save」を押すと保存される。



Go To Top