距离上一篇博文居然已经过去了4个月了!
这四个月,我干了些什么,是该好好缕缕了。顺便来一波更新,把学过的东西都记录一下。
2017年9月,研二上学期开始,正式投入项目+科研+比赛。
项目
项目方面,导师和一家生物公司有合作,去年我们就有初步接触,当时做了点数据可视化,然后就匆匆忙忙开始研一上课了,今年他们倒是为项目起了个比较响的名头–“AI团队”,想让我们用算法来解决一些生化实验上的问题。他们做的事情也很有意义,简单来说,他们做的事情就是–用基因检测的方法来检验变异的基因,从而能够尽早的发现癌症。
几个月来,断断续续有在跟进这个项目,跑了一些回归算法,分类算法,也学了一些统计学的知识。
感觉算法来来去去就是那些,要真正理解业务需求,了解数据意义,才能发挥算法的作用。
科研
大方向是自然语言处理,具体一点是实体识别,更具体一点,是商品名识别。
在深度学习火起来之后,命名实体识别也有积极的发展。
这几个月,尝试了用规则提取实体,到使用HMM算法,再到最大熵、CRF,然后是比较新的深度学习方法,如LSTM+CRF。大概对常规操作有了一定的了解了,接下来,就要思考改进方向了,争取把一些新的研究成果用上来。
比赛
恰好开学之后,2017CCF BDCI(CCF 大数据与计算智能大赛)开始了,其中的《基于机构实体的智能摘要和风险等级识别》这个赛题还比较适合我,就和实验室小伙伴良超同学组队开搞了。
其实这道赛题涵盖的内容非常多,包括命名实体识别、情感分析、关键词和摘要的抽取,当然了,最后评分的标准主要是命名实体和情感分析这一块。
最终用CRF和FastText,还有我们两个我们也取得了还不错的效果,幸运挤进TOP5,去江苏常熟参加了决赛答辩,最终斩获第四(前三才有奖金,哭)。
还算是一段不错的经历。
文章更新计划
接下来,要把这几个月做过的技术问题,逐渐以文章的形式记录出来。
1.命名实体识别相关(规则、CRF、神经网络)
2.分类相关(文本分类fasttext、SVM、LR、提升树模型等等)
3.比赛经历、解题思路