ニュース 21,000記事の解析

現在、enHackで取得しているニュース記事21,000を解析、集計しグラフにしたものを以下に示します。

各記事のレベルである 記事難易度

難易度はTOEIC点数に類似したものになっています

各記事のワード難易度レベル

ニュース記事平均値は、高卒レベルの5000語に近い値です

各記事の文の複雑度、構文レベル

構文レベルは、1センテンスの平均節数等を示します。
多くの記事が、1センテンス平均3~5個の節を持ちます

記事のポジティブ/ネガティブ分布

値は-1~+1の範囲、平均は若干ポジティブです

記事の感情強度、派手さ

ニュースなので、平均はクールな書き方であることを示しています
コラム的な記事は派手な書き方になる傾向があります

記事の語数

ニュース記事の平均は600語ほど、コラム的な記事は語数が多くなっています

記事の語数と記事難易度の相関

語数が多いと、使用する語彙も多くなり、記事難易度が増す傾向があります

記事の語数と構文レベルの相関

記事語数が多くても、1センテンスの複雑さ、節数の多さとは関係が無いことが分かります