中国作家网>> 民族文艺 >> 资讯动态 >> 正文

“云藏”攻坚 藏文信息将迎来云时代

//m.zimplifyit.com 2014年07月01日11:48 来源:中国民族报

  作为全球首个藏文智能搜索引擎,“云藏”研发进入攻坚阶段。这个集搜索引擎、藏文百科自动问答为一体的大型藏文门户系统工程,将开辟新闻、网页、图片、视频、百科、文库、知道7个板块。它将在满足藏文网民个性化检索需求的同时,推动藏文信息全方位融入互联网世界。

  满足藏文网民检索需求,推动藏文信息全方位融入互联网世界

  “作为全球首个藏文智能搜索引擎,‘云藏’研发进入攻坚阶段。”据青海省海南藏族自治州藏语文工作委员会办公室主任、“云藏”项目负责人才洛介绍,目前,研发各项工作有序进行,已处于藏文信息录入和分词标注阶段。预计2015年投入使用。

  “云藏”藏文搜索引擎系统平台建设项目(www.yongzin.com),是一个集搜索引擎、藏文百科自动问答为一体的大型藏文门户系统工程,是青海省少数民族事业“十二五”规划中藏文信息化建设的重要组成部分,于2013年4月正式启动。该项目由青海省海南州藏文信息技术研究中心承担。“云藏”研发团队现有100余位工作人员,分藏文信息录入组、分词标注组和技术组3个小组,团队中藏族比例达84%。

  “‘云藏’将开辟新闻、网页、图片、视频、百科、文库、知道7个板块。项目建成后,将成为互联网藏文信息的主要来源和共享资源中心。”才洛介绍,网页、图片、新闻、视频所涉及的藏文搜索引擎,是以一定的策略从互联网上搜集、发现信息,对信息进行理解、提取、组织和处理,并为藏文用户提供检索服务,从而起到信息导航的目的,让藏文网民更加便捷地获取信息,找到所求。而包括知道、文库、百科在内的藏文自动问答系统,则可以看作是对藏文搜索引擎功能的一种补充。它可以让用户头脑中的隐性知识变成显性知识,通过对回答的沉淀和组织形成新的信息库,其中信息可被用户进一步检索和利用。

  “‘云藏’建成后,该系统的藏文搜索正确识别率将达95%,不仅能满足藏文网民个性化的检索需求,还将推动藏文信息全方位融入互联网世界。”才洛说。

  实现系统开发和现有科研成果的转化应用,兼具政治、社会、文化多方面效应

  当前,搭建藏文搜索引擎和藏文自动问答系统平台,推动藏文信息数字化工作迫在眉睫。据了解,在国内,汉文搜索引擎基本不具备识别少数民族文字的能力。在我国最大的搜索引擎“百度”的搜索页面输入的藏文,会被当作乱码处理。在国际上,“谷歌”具有藏文搜索功能,但它是用简单的数据匹配的模式实现搜索,存在不能识别语义、词汇打乱导致搜索结果不稳定等问题。

  “‘云藏’首次提出了系统开发和现有科研成果转化应用的具体策略,具有较高的科技效应、文化效应和社会效应。在抵御境外藏文网络信息渗透方面,具有不可忽略的支撑作用。”才洛说,搜索引擎作为文化与历史传承的新载体,对一国的文化安全有着相当重要的意义。任何搜索引擎都是有立场、有倾向的。在互联网时代,抓住搜索引擎,也就意味着抓住了话语权,抓住了互联网信息传递的主动权。

  据了解,目前,已知的藏文正规网站大约有300多个,藏文网页超过1个亿。初步估算,“云藏”运行初期,青、藏、甘、川、滇五省区的藏文用户数量约为120万,随着搜索引擎产品的推广和宣传,用户量将达200万。

  “要想保证藏文信息安全以及藏文信息技术的安全,就必须研制自己的藏文搜索引擎系统平台。只有这样,才能牢固树立我国在这一领域的主导地位。”才洛说。

  突破三大技术难题,未来发展需社会各界支持

  首先,是藏文搜索引擎的核心技术问题。“百度”等搜索引擎为何不能识别藏文?这是因为其缺乏藏文搜索引擎的核心技术——赋予网络爬虫(一种按照一定规则,自动抓取万维网信息的程序或者脚本)识别藏文的能力。而这一核心技术的关键在于藏文分词和词性标注。

  作为这一核心技术的持有者,西北民族大学中国藏文典籍全文数字化研究所已经与“云藏”实现合作。“云藏”藏文分词及词性标注计划完成100万条,目前已完成30万条。

  其次,是实现智能搜索必备的技术支撑。为了使“云藏”具备从互联网上自动抓取藏文网页,进行自动分词及词性标注处理,并自动提取关键词建立索引数据库等功能,还要研究攻关搜索器、索引器和检索器这几方面的内容及平台。

  目前,北京线点科技有限公司与“云藏”联手,承接栏目分类、页面设置、网络爬虫与分词词性标注兼容与技术对接等工作。

  “我们采用的是高校、地方、企业三方合作的协同创新模式。”才洛说,在信息技术高歌猛进的今天,建设少数民族文字搜索引擎依然存在现实的难度。这项工程必须多方合作才能完成。民族语文的精通、核心技术的掌握、软件开发的能力,缺哪样都不行。

  第三,是藏文百科、文库和自动问答数据库的建设。这是一项从零开始的浩大工程。“这项工程不是把百科全书扫描录入那么简单。”才洛说,它覆盖文化、卫生、教育、科技、宗教、人物等方方面面的内容,需要凝聚全社会的力量,经历数年乃至数十年的时间才能完成。

  为了吸引人们参与这项工作,今年4月,“云藏”面向社会招贤纳士。在社会各界的积极响应下,“云藏”已拥有30余位专攻数据库的兼职“专家”。

  “‘云藏’自己的数据库建成后,网民输入一个词汇,就会有对应的百科知识。如果词条内容空缺,系统会提示网民自主添加,后台审核通过即可录入数据库。这种方式,将使数据库不断地丰富、扩充。”才洛说。

  “目前,项目遇到的主要问题还是资金和人才缺乏。”才洛相信,在党和政府的坚强领导下,随着越来越多的人关注“云藏”,这些问题终将得以解决。

 

网友评论

留言板 电话:010-65389115 关闭

专 题

网上期刊社

博 客

网络工作室