「自然言語処理ことはじめ」を読んだ

  • n-gram(隣接する文字を2、3文字で区切って、統計的に出現頻度を求める)
  • bigram(隣接する文字を2、3文字で区切って、2つの文字を統計的に出現頻度を求める)
  • trigram(隣接する文字を2、3文字で区切って、3つの文字を統計的に出現頻度を求める)

無作為に分けるだけではなく、名詞、接続詞、動詞などで区別したりもする。

n-gram

「私は眠い」

|私は| |は眠| |眠い|

「わたしははがいたい」=> 「私母が痛い」 「わたしははがいたい」=> 「私は歯が痛い」

どのように適切な単語区切りを行うか(アルゴリズム)
文章の中の単語の前後関係をどうやって上手く使うか(アルゴリズム)

与えられた言葉を正確にコンピュータが理解できれば
コンピュータのリソースの効率化が行われて、
人間の生きる速度が上昇するなーって思いました。

最終的に与えられたものだけではなく、その先の
自分が考えなければならないことや決断しなければならないことを
コンピュータが補助してくれたら面白そうだなって思いました。