タグ付きテキスト

タグ付きのデータは大きく3種類:

  1. 自由に作成したタグ付きテキスト
  2. 形態素解析器により形態素の属性が付けられたテキスト
  3. Cabochaにより文節に切り分けたテキストに分けられる
(1)(2)の処理は、メニューの「Data Format」から Tagged Textを選択する。デフォルトには自由に作成したタグ付きテキストの処理環境である。自由にタグをつける際のタグは全角記号<>中に記入する。
MeCab、ChaSen、JUMANがインストールされ、パスが通されている環境では、平テキストを読み込みMTMineRでメニュー操作により形態素解析を行い、タグを付け集計を行うことが可能である。
下図から分かるように、これらのタグ付きテキストについても8つのタブが用意されている。

         

1.File List(データの読み込み)


MeCab、ChaSen、JUMANによって形態素解析を行ったテキストを読み込み処理するときには、画面の上部の三種類の形態素解析器の名前にラジオボタンを押す。ただし、形態素解析結果のファイルを読み込んで用いるときには、形態素解析結果の形式は表1に示す通りとする。表1から分かるようにJUMANの出力結果の中の品詞は階層化されていないのでそのまま用いてもよいが、ChaSenとMeCabの品詞は階層化されている。たとえば、助詞「の」の第1層は助詞で、第2層は連帯化助詞になっている。品詞タグをどのように付けて集計するかは集計者の考えによって異なるが、MTMineRでは、各自が自由にタグを命名するステップを置いている。
ボタン「Add New Files」を用いてファイルの読み込みを行う。ボタン「Add New Files」を押すとファイルが置かれている場所を指定する画面が開かれる。ドライブ、フォルダ、サブフォルダ順に選択し続け、読み取りたいテキストを選択し、画面上の「開く」ボタンを押すと選択されたテキストがMTMineRのタブ「File List」の左の窓にリストアップされる。
形態素解析済みのテキストを読み込み、形態素解析器の名前のラジオボタンを選択すると、下図に示すメッセージボックスが開かれる。これは処理したテキストをMTMineRの中のtmpというフォルダに保存することを知らす。保存場所は画面上の「Tagged Files Output Path」で自由に指定できる。



ChaSenとMeCabの結果の場合は、さらに「POS Renaming」ボタンを押し、品詞の命名を行う。ボタン「POS Renaming」を押すと下図のような品詞を命名する窓が開かれる。黒字は形態素解析器の結果であり、青色縦棒の右の赤文字は自由に書き換えられる形態素の属性である。属性の命名が終わったら確認ボタン「Conform」を押す。



平テキストを読み込み、MTMineR上で形態素解析処理を行うためには、画面右上の「Call POS Tagger」の前にチェックを入れることが必要である。
「Save」ボタンを用いて、リストアップしたリストを保存しておくことができる。これにより、後日にリストアップしたファイルを利用する時、再びリストアップしなくて済む。保存する前にまず保存場所を「Save」ボタン上の窓に指定する。保存したファイルリストを読み込んで用いる際には、ボタン「Open the file list」を用いて保存しておいたファイルリストを指定する。
 リストアップしたファイルについて処理を行う前に確認ボタン「Confirm」を押す。ファイルリスト画面のクリアはボタン「Clear All」を用いる。
Go To Top

2.Summary(データの要約)


タブ「Summary」では、半角と全角によるテキストのサイズ(File Length In Byte,Files Length In Char)、述べ語数(Token Num)、異なり語数(Token Type Num)、片仮名語の数(Katakana Token Num)、ローマ字語の数(Romaji Token Num)、数値の数(Number Token Num)を集計する。ボタン「Summarizing」を押すと集計結果が左側の窓に返される。
データの形式は画面の右側のラジオボタンで指定できる。「Tab format」はデータをタブで区切り、「CSV format」はデータをコンマで区切る。「File in row」はデータを行で、「File in column」はデータを列で表示する。集計したデータを保存する時、保存の場所とファイル名前を指定し、ボタン「Save」を押すと保存される。




Go To Top

3.n-gram


タブ「n-gram」ではタグ(Tag)、形態素(Word)、タグ付いた形態素(Word Tag)のn-gramを集計する。また、すべての属性と指定した属性のみを分けて集計することもできる。
まず、処理の種類(Processing Type)のTag、Word、WordTagから一つを指定する。そして、「Ngram Type」下の窓でnを選択する。中にはUnigram(n=1), Bigram(n=2), Trigram(n=3), Fourgram(n=4), Fivegram(n=5), Sixgram(n=6)という6つの選択肢がある。次に「Cutoff」を用いて集計サイズをコントロールする。デフォルトは100になっている。Cutoff値が100の場合は、100文字以上の文はすべて一つの項目にまとめて集計する。
データの形式は画面の右側のラジオボタンで指定できる。「Tab format」はデータをタブで区切り、「CSV format」はデータをコンマで区切る。「File in row」はデータを行で、「File in column」はデータを列で表示する。
ボタン「All Tag Processing」を押すと集計結果が左側のResults窓に返される。下側の左図はタグを集計した画面である。右図はタグ付きの形態素を集計した画面である。処理の種類(Processing Type)をWord或はWordTagに指定すると、項目数は下図と同じであるが、タグ付いていない形態素またはタグ付きの形態素形態素の集計結果を返す。



タグの種類を指定し、集計を行うためにはタグを指定するボタン「Selecting Tag」を押し、タグを指定することが必要である。ボタン「Selecting Tag」を押すと、次のようなタグ選択画面が表れる。



タグの前にチェックを入れ、確認ボタン「Confirm」を押し、画面上の「Pointed Tag Processing」を押すと集計結果が左側の窓に返される。

Go To Top

4.Co-occurrence(共起)


タブ「Co-occurrence」では、形態素の共起データを集計する。集計するのはタグに基づいた形態素の共起である。n-gramの場合と同じく、すべての形態素の共起と指定したタグのみの形態素の共起を集計することができる。
「Cutoff」を用いて集計サイズをコントロールする。デフォルトは100になっている。Cutoff値が100の場合は、100文字以上の文はすべて一つの項目にまとめて集計する。
データの形式は画面の右側のラジオボタンで指定できる。「Tab format」はデータをタブで区切り、「CSV format」はデータをコンマで区切る。「File in row」はデータを行で、「File in column」はデータを列で表示する。
ボタン「AllPOS Processing」を押すと、全ての形態素の共起についての集計結果が左側のResults窓に返される。指定したタグのみの形態素の共起を集計したい時に、タグを指定するボタン「Selecting POS」を押し、タグを指定することが必要である。ボタン「Selecting POS」を押してタグの選択ができる。
タグの前にチェックを入れ、確認ボタン「Confirm」を押し、画面上の「PointedPOS Processing」を押すと集計結果が左側の窓に返される。



Go To Top

5.Length(文の長さ、形態素の長さ)


タブ「Length」には、 「Sentence Length」、 「Word Length」という二つのサブタブがあり、それにより、文の長さ、文字単位で形態素の長さを集計することができる。
文の長さを集計するとき、延べ語数「Token Number」で数えることができ、異なり語数「Token Type Number」で数えることも可能である。
画面上の「Category Index」により、いくつの形態素を1つの項目にまとめて集計することを指定できる。k個の形態素をまとめて一つの項目にする時には、Category Indexの窓に数値kを指定してください。Cutoff値が100の場合は、100文字以上の文はすべて一つの項目にまとめて集計する。
データの形式は画面の右側のラジオボタンで指定できる。「Tab format」はデータをタブで区切り、「CSV format」はデータをコンマで区切る。「File in row」はデータを行で、「File in column」はデータを列で表示する。
ボタン「Sentence Length By Word Unit」を押すと、文字を単位とする文の長さについて集計結果が左側の窓に返される。
 


文字単位で形態素の長さを集計する時のやり方も大体同じである。文字を単位とする時は「Char Unit」を選択し、バイトを単位とする時は「Byte Unit」を選択する。そして、ボタン「Word Length(AllPOS)」を押すと、全部の形態素の長さについての集計結果が左側の窓に返される。特定したタグの形態素の長さを集計する時、タグを指定するボタン「Selecting POS」を押し、タグ選択画面が開かれる。対象タグの前にチェックを入れ、確認ボタン「Confirm」を押し、画面上の「PointedPOS Processing」を押すと集計結果が左側の窓に返される。
 


  Go To Top

6.Mark(指定した形態素の前後の形態素)


タグ「Mark」では、ある形態素の前後のデータを集計する。たとえば、格助詞「の」がどの形態素の前に位置するかを集計する際には、キーワードを記述する「Please input Keyword」の窓に「の<格助詞>」のカギ括弧の中のものを入力する。画面上のボタン「Processing」を押すと、集計結果が左側の窓に返される。
尚、「Cutoff」を用いて集計サイズをコントロールすることができる。Cutoff値が100の場合は、100文字以上の文はすべて一つの項目にまとめて集計する。
データの形式は画面の右側のラジオボタンで指定できる。「Tab format」はデータをタブで区切り、「CSV format」はデータをコンマで区切る。「File in row」はデータを行で、「File in column」はデータを列で表示する。
 


Go To Top

7. KWIC(タグ付きのKWIC検索)


タグ「KWIC」では、タグ付きのテキストから指定したキーワードの前後を切り取り返す。
たとえば、一般名詞「山」について全てのテキストから、その前後の文脈を一定の長さで切るとき、キーワードを記述する「Please input Keyword」の窓に「山<一般名詞>」のカギ括弧の中のものを入力し、画面上の「No. Left」と「No. Right」を用いて前後切り取る長さを指定し、ボタン「Process」を押すと、結果が左側に返される。
返された結果は自由にソートすることができる。切り取った部分の前後を基準としたソートは、左側の画面上の「Left」或は「Right」の部分をクリックすると降順、昇順に入れ替わる。



返された結果の一行をクリックするとそれが含まれているテキストが左下側の空白欄に返される。また、画面の右側の「Use regular expression」の前にチェックを入れば、キーワードを正規表現(regular expression)で指定できる。
Go To Top
 

8.Tools


タグ「Tools」には、「Format Converter」と「Replacement」という二つのサブタブがある。サブタブ「Format Converter」ではJUMAN、ChaSen、MeCabで形態素解析を行った結果をカギ括弧<>でタグ付けるなどの処理を行うことができる。「Replacement」では置き換え処理ができる。
Go To Top