纽约州检察长施耐德曼(Schneiderman)估计,数十万美国公民的身份被窃,并可能被用于支持废除网络中立的垃圾邮件活动。研究人员发现,至少有 130 万个假评论,他们怀疑还有更多的虚假评论尚未发现。事实上,它们大都由机器人所为,已经严重影响了公众对网络中立性的立场。
研究人员发现,一个有助于废除垃圾邮件的活动被人利用,使用邮件合并的方式,将 130 万条假评论掩盖为独特的基层用户意见,甚至可能还有多个其他运动旨在向系统注入总共数百万个废弃的评论。研究人员认为,如果去掉这些假评论,那么真实评论当中,超过 99% 的用户是有可能赞成保持网络中立性。
由于整个评论提交过程中有很多文件存在违规记录,从一开始就很清楚,数据将是重复和混乱的。研究人员将 22M + 评论和 60GB + 价值的文本数据和元数据分解成更小的片段,并且汇总了许多重复的评论,并获得了 2,955,182 个独特的评论和他们各自的重复计数。然后将每个评论映射到语义空间矢量上,并根据评论的含义运行一些聚类算法。在对评论类别进行分类并删除重复内容之后,研究人员发现向 FCC 提交的 2200 多万条评论中的不到 80 万(3-4%)可以被认为是独一无二的。
往期热门内容推荐
更多安全资讯,戳左下角“阅读原文”查看!