在社交媒体环境,如Twitter中,这个问题变得尤为明显,Twitter中使用的语言更加口语化,充满了日常的表达、俚语和不同的情感意味,如讽刺、兴奋和失望,并且表达得非常简单,难以辨别说话的背景。在多语言国家,当在线数据采用几种语言时,这个问题可能会变得极具挑战性。
“我们的Social Recon分析工具提供的结果是可被理解和可操作的,”他补充道。
这些工具能够直接提供渠道,与鼓动或煽动民众的人员联系,还能通过其发表意见使用的社交媒体工具与他们接触,或者在社交网站上与他们就某一个主题展开讨论。
“同样,利用我们的Social Recon工具,也可以联络那些提出不正确或负面评论的人士,并且无论出现哪些话题,都可以展开对话,”希门尼斯说。
这套工具还可以确定哪些地方流行的观点不太正确或正在传播错误的信息。
SAS公司的社交媒体分析(Social MediaAnalytics,SMA)提供了很多途径,使人们可以察看特定感兴趣的话题,剔除不相关的信息,并且囊括个人和数以百万计的人员的情绪。这套工具可以从博客、Twitter、Facebook或其他有价值的公开的社交媒体网站上提取信息。它可以由分析人员设定,查询特定的主题或关键词,而且这套工具可以全天候工作。
“当分析人员开始工作时,他们会得到最新的信息,并且全天持续更新,”加西亚说。
由SAS公司提供的解决方案还允许多个个体在相似感兴趣的领域内交换数据。随着分析人员掌握接收到的信息是更贴近自身的需要,还是与他们所需要的信息有所偏离,他们可以在工具运行过程中进一步优化搜索方法,对接收到数据实施进一步的管理。
“这套工具还有能力确定信息源的位置,”加西亚补充说,“SAS公司正在与AGI公司一起,在确认社交媒体用户位置的基础上,为用户提供地理位置信息。这对于作战人员来说具有重要意义,可用于评估部队威胁,或营救陷于困境而无法利用传统沟通渠道的人员。”
SAS可以分析28种本土语言的感情色彩,第29种语言——波斯语目前正在进行验收测试。这些语言不会被翻译成英语,而是以它们的母语形式进行评估,以提供更准确的情绪评分。“这对于评估可能的威胁非常关键,因为情绪的变化可能是细微的,”加西亚解释说。
SAS正在与现有用户合作,为那些需要得知有细微变化发生的用户创建情绪状态。
“对于一次单一的事件,一个人很难从非常积极的情绪变得非常消极,”她评论道,“因此情绪状态可以针对一个主题,在一段时间内评估目标对象观点或情感的变化。这有助于别国人员更好地了解哪些行为或活动可以在本土民众中产生一种积极或消极反应。”
这样做的目的是使军队成员在更深入了解平民文化,或在更深入了解他们过去对于与军队互动反应的基础上,与他们开展积极互动。
开源陷阱
开源数据的首要优势在于它的刷新速度。新的信息不断涌现。同样的道理,海量的可用数据也是一项挑战。
“虽然正在研究使最终用户面对的数据‘瘦身’的技术,但每年的数据集成倍增长,所以,这些技术必须相应做出调整,以跟上数据量增长的速度,”莱乌说。
此外,鉴于用户在获取技术上存在不对等,相对于文字信息,社交媒体未必会提供大范围民众有代表性的图片。业界目前正在讨论的一些具体问题包括多国外语分析,以及特定类型社交媒体的独特特质。
关于外语分析,用于推导主题的统计技术的基本水平是独立于目标对象的语言。
“不过,在处理外语时肯定会有难题出现,”麦科马克说,“谷歌翻译和雅虎!宝贝鱼(Yahoo! BabelFish)之类的工具能够就讨论的问题为用户提供一些粗略的认知,但不能表达更多更地道的语言上的细微差别。”
在整个自然语言处理界,这是一个较为活跃的研究领域。
媒体中拼写的不同和词汇的不同形式也带来了巨大的挑战。尤其是在Twitter中,错误的拼写、缩略语和文体的拼写变化,所有这些都使得标准的规范化技术难于实施。在这种情况下,自动化的集群技术变得十分必要。
加西亚补充说这当中还存在其他问题,如个体如何在博客、Twitter或其他网站上创建新的身份。个人或团体可以在保密设置的基础上隐藏他们的身份和位置信息。
“任何人都可以就其他人讲述的事件或提出的主题发表自己的见解,但这些事件或见解未必都是准确或真实的,”她说,“如果发现这些评论甚至有部分失实,就需要对这些信息的来源进行查证并认真评估它可能造成的影响。”
在感知方面也存在挑战。许多个体可能会目击事件的发生,并且会基于他们的观察角度和个人偏见使得感知非常不同。
加西亚指出,由于社交媒体是一种论坛,对于偏见、观察角度或有意误导没有真正的过滤器,因此必须谨慎使用这样一种强有力的工具。分析人员必须在自身经验、理解力和所学知识的基础上做出有价值的判断。社交媒体只是一种数据源,它并不比其他单一的数据来源更为精确。由于个体提供消息的可靠性无法保证,它可能更不明确。
“由于提供信息的人可能是这个世界上的任何一员,评论的真实性也如同这个星球上个人的诚实度一样,存在很大的差异,因此仍要依赖于我们拥有正确解读消息的能力,”她说。
未来的发展方向
莱乌预测,在下一个5年,随着越来越多的用户使用社交媒体开发作为一种信息搜集与分析的可行手段,会有大量新的工具和方法出现,以便处理不断增长的数据集。
希门尼斯声称,移动和社交应用程序将继续增加,功能得到扩充的设备将继续普及。
“实用功能会得到增强,如地理知识的补充——例如,你可以拿着自己的手机查看在一个特定方向上有哪些商店、饭店和/或设施——已经出现,但是随着产业的发展与成熟,它们将变得更加准确与实用,”他说。
社交媒体也开始渗透到企业。各行机构正在对内并对外应用社交工具,以更好地了解并打破阻碍经济增长与效率提高的孤岛。经历了人口结构变化并转向年轻一代的机构已经接受了此类工具,将其作为一种参与途径和沟通方式,这些机构中的个体已经适应并理解了这种做法。
麦科马克主张,随着美国国防部和情报机构转向更多的开放资源分析,对于先进分析能力的需求将会增加,这些能力能够解答一些战略和战术问题。
“在技术方面,我们将开始看到使用分布式和云计算技术处理大量实时流数据逐渐增多,”麦科马克补充道,“从统计语言模型到动态趋势分析模型,如何顺应分析技术的发展,对于这些环境,可能会是一个活跃的研究领域。”
最后,由于新生分析技术出现,当前工作大多集中于对社交媒体事件的回顾性分析上(如“阿拉伯之春”)。
“未来5年这些工具将经历真正的考验,我们将看到在事件演变成昨天的新闻之前,它们能否有效预测社交媒体的走向,”他说。
知远/铁木编译自美国《军事信息技术》杂志2012年6月刊
转载请注明:北纬40° » 美军如何从社交媒体中提取情报