九月低谷期中…

一篇无聊的个人文章词频分析

闲着没事做(也没心情更文的)lo主,拿自己写过的几篇礼狗同人文分析着玩。♪(^∇^*)一来是因为没有其他文本包,二是因为想看看自己都写了些什么东西(喂)。


数据分析这种东西,研究起来简直暴露好多东西x……


===========


分析的软件为ROSTCM6(看了尼古丁酱  @尼古丁 的一篇文才知道有这么个软件的,www感谢~)(啊,擅自艾特……希望不会造成什么困扰ww)。软件的界面看起来比较专业化,不过研究一会儿还是可以用起来的嘿嘿嘿。


分析数据为:我自己写的几篇文,如下(好羞耻啊!大家好我是lo主的脸,她不要我了)


 【 字数精确到千位的话,为85000字。】



我自己补充了一下分词表,不过依然可能有遗漏的词,总之,不要在意这些细节,这是实验的误差,误差是不可避免的(2333333)

话不多,来看结果www,我力争通俗易懂地表达出来吧!o(* ̄▽ ̄*)ブ


===========


第一,是词频分析,也就是文章中词语出现的频率统计。(比如一篇文章里我写了十次“宗像礼司”,那么“宗像礼司”的词频也就是10)

这里就一张图总结好了。

左边词语的大小代表词频的高低,而右边则是词频的具体数值。经计算,宗像礼司的总词频541+104=645,而夜刀神狗朗的总词频为372+205+78=655……狗朗竟然以微妙的优势超越了礼司!(哈哈哈泥垢)


然后我粗略的筛选了一下人物的名字(和词频),除宗像礼司和夜刀神狗朗以外,文章中出现最多的是:【威兹曼】84,接下来【伏见】48,【一言大人】37,以及【淡岛】34。各种暴露写文的私心啊(喂)——

另外:软件中没有词性分析,不过我觉得如果这个功能可以实现的话简直太炫酷(x),比如我自己粗略地筛选了某些词性(见下图)……哈哈哈哈哈简直好污!


简直可以脑补出一本羞耻的……(哔,已和谐)


咳咳,打住。



===========



那什么,第二。接下来的使用的是该软件中的【语义网络和社会网络生成工具】,我觉得这个工具的神奇之处在于它竟然能找出词语与词语之间的关系!跪服。

直接上图:



读者:这什么玩意?(黑人问号.jpg)


桥豆麻袋!!数据都是需要经过整理的!经过我个人【不一定准确的整理方法】,去除了一些无意义的介词、连词之后,数据很快清晰明了,爽爆了!

【放上原图的目的,是想着如果有有心的小伙伴想要对照着比较一下差别的话,可以粗略扫一眼(并没有)】

总算能稍微看一看了。

好啦。逐条来看:

【一】红色是我标记的人物名字,其中包括同一个人物的不同称呼(这没办法,毕竟是以词语进行分析的,词不同,结果就会不同)。请看下图:


这分明是一张社交关系网啊!(误)比如从【狗朗】分支出的【一言大人】和【小白】,【宗像】分支出的【周防】,以及两个人共有的【威兹曼】。

【威兹曼】对两人的称呼:【宗像先生】、【小黑】。

【宗像】对【狗朗】的称呼:【夜刀神君】、【狗朗君】、【夜刀神狗朗】、【夜刀神】。

【狗朗】对【宗像礼司】的称呼:【宗像礼司】(啊!怨念!其实还有“礼司”的!估计是词频太低,没显示出来QAQ)

实际上,毕竟有【不同的称呼实为同一个人】的情况。我想如果文本的内容更准确,词语定向性更强的话,效果应该更加明显。

【实际上这也暴露了我的写作习惯,人物总有不同的称呼(人称、视角经常变换)。有些人写文人称可能会比较固定,各有各的好处吧!(经常变换视角,用词容易乱)】


【二】

粉色、黄色和绿色,我分明用它们代表了【关键的名词】、【形容情绪的形容词】以及【表示方位或地点的名词、介词】。请看下图:


神奇的图,通过筛选高频词所生成的表让我发现,我自己在写这两个人的时候:

1,【粉色点】中,【身体】、【长发】、【眼镜】是双方共有的。(我确实有专门写到这几个梗,详见lo里的文哈哈哈哈。)此外,宗像点亮了【终端】成就,而狗朗则获得了【蔬菜】达人称号哈哈哈哈(果然是烹饪小能手!)。妥妥的暴露属性啊。

2,【黄色点】中,【感受】是写两个人时常出现的词语。我确实很喜欢写人物的内心想法(我所写的角色大概内心戏都会MAX)。不过,写宗像时,我尝试去写他的很多方面情绪和感受,但都过于笼统,倾向于用【眼神】、【情绪】、【心情】一类的概括性词语;而狗朗的情绪则描写的更为直接,且表现出【紧张】的情绪居多。(其他的情绪描写用词肯定也是有的,只不过没有多到可以出现在数据表上的那种程度)

3,【绿色点】中,表示具体地理位置的【厨房】一马当先,成为两人共处最频繁的场所(泥够),好了,我要考虑一下要不要写一个【厨房play】了(xxxxxxxx好羞涩我还是个孩子啊哈哈哈!)……另外,其余三个【脸上】、【身后】、【怀里】……(嗯,这都是我喜欢的两个人的姿势哦不放屁!!我在说什么!)

我的文还是很纯洁的好吗!至今还没开过车(无照啊摔)。


【三】此外,还有最后的蓝色点:


这个我觉得也是相当神奇。毕竟文是我写的,蓝色点的关键词我能肯定都是出自于desperate games里的。神奇的是它不但能把文章中高频的词抓取出来,连相互间的关系都弄得很清楚。比如【时间】写的多是围绕【狗朗】与【石板】间的冲突,而【王权者】的【力量】则是【宗像】与【石板】间的冲突;【石板】的【意识】将【夜刀神】与【宗像】牵扯进故事中,目的就是为了【吞噬】。(哦啊啊啊啊我的妈这个东西简直神奇啊有木有_(:з)∠)_我服,我真的跪了,哈哈哈有意思!)



===========



光是弄这两个结果,我就研究了好半天。总之这个东西真的是太有意思了,感觉还能对写文有帮助呢。如果数据容量更大一点的话,应该能得出更为丰富的结论。目前得出了几点结论(没错我最终还是忍不住想要写一下了),值得注意一下。

(1)因为写文这种事情,每个人的风格都各有不同。如果说为了让写文“更生动鲜活”,那么比如在反复表达同一内容时,必定是需要多用不同的表达形式来表现。

在分析词频表时,举个例子,比如:与“笑”有关的词——【笑容】、【微笑】、【笑意】这些高频词反复出现的话,说明文章中对“笑”的描写可能反而并不是特别生动,因为反复用固定的几个词来形容同样的情绪的话,容易干涩枯燥,显得乏味。假设如果换做【欣喜若狂】、【喜上眉梢】、【笑里藏刀】之类的【能够在丰富辞藻的同时更加凸显心理和情感】的词语的话,效果应该会好很多。这样高频词数量会减少,而低频词数量则会更多。这是一个可以改进文章表达的好方向。


(2)另外就是高频词中对于词性的筛选,可以明确个人的写作习惯。如果高频词中出现的词性主要为介词、形容词,则可以稍加判断得出,所分析的样本文章内容中应该包含了较多的定语、修饰语、方位词等,这样的句子……通常皆是长句,有各种定语修饰。(是的爱写长句确实是我的习惯,也是我的毛病。太长的句子过于冗余,读起来也很头疼。)由此也可以猜想到,如果换做大量句式结构以短句为主的文章,那么动词的占比应该会明显上升。

此外如果不考虑词频的高低,将整个分词表中的词性划分得更加细致的话,一定还能捕捉到许多有趣的小细节。在文本分析结果中,关注各种词性的占比(占比指的是某一类词性的词语在所有词语中所占的比例,并不等同于词频高),可以得到很多结论:(以下为猜想……并不严谨)

1.拟声词占比多-->写文者对声响十分敏感,擅长在文中描写各种声乐。

2.地理名词占比多-->写文者对具体的位置与地点十分敏感,擅长描绘文字地图。

3.表现人物行为的动词占比多-->写文者对人物动作十分敏感,擅长描绘运动场景。

4.表现心理的词语(名词、动词、形容词皆有可能)占比多-->写文者对人物心理十分敏感,擅长描写心理活动。

5.……

诸如此类,数不胜数,就不一一枚举了。由此发掘出自己最擅长的写文习惯,将薄弱的方向避开或是稍加弥补,想必对于写作是一件很有意义的事情哈哈哈哈哈。




此外也没有什么要特别列出的结论了。就这样结尾吧~~~如果大家能看到这里,真是十分感谢wwww一家之拙见,希望对读者能起到什么小帮助~~

同时再次感谢尼古丁妹子~~www

评论(9)
热度(7)

© 一紫 | Powered by LOFTER