设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 103|回复: 2

[汉语分词] 关于分词系统几个问题想问大家

[复制链接]
发表于 2018-1-5 14:49:43 | 显示全部楼层 |阅读模式
1.如何获得商业授权?费用是多少?
2.如何批量对txt进行分词?并批量导出?(我用的java,eclipse,win64)
3.如何去掉停用词?很多停用词表怎么知道自己适合用哪一种?我是在做专利分析(关于潜在竞争对手)
回复

使用道具 举报

 楼主| 发表于 2018-1-5 14:51:16 | 显示全部楼层
我是菜鸟,刚接触分词系统,编程基础有一点
回复 支持 反对

使用道具 举报

发表于 2018-1-6 22:37:26 | 显示全部楼层
1.如何获得商业授权?费用是多少?
张华平 博士 副教授 研究生导师
大数据搜索挖掘实验室 主任
地址:北京海淀区中关村南大街5号 100081
电话:+86-10-68918642 13681251543(助理)
Email:kevinzhang@bit.edu.cn
MSN:  pipy_zhang@msn.com;
2.如何批量对txt进行分词?并批量导出?(我用的java,eclipse,win64)
参考分词的例子代码,读取文本,然后进行分词,然后按行写入文件。
3.如何去掉停用词?很多停用词表怎么知道自己适合用哪一种?我是在做专利分析(关于潜在竞争对手)
每个领域的停用词是不一样的,通用的只是基础,还需要自己来维护的。
去掉停用词比较简单,简单来说就是两个匹配,去重。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4  

GMT+8, 2018-1-23 22:06 , Processed in 0.210292 second(s), 25 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表