编程之美竞赛处理文本数据走的坑

  • 语料中的英文逗号和 CSV 文件中的逗号是一样的。要提前替换掉
  • iWork 的 Numbers 处理的数据行数有限 the same as Excel 65536 Rows and 256 Columns per table 。测试语料集 9 万多行,提交进行评分时,总是现实行数错误。过了一个多月,看到 6553X 仍然有头胀的感觉
  • 监督学习下的人工智能一点也不智能,所有的都要人类教。决定 Bot 智商的,就是小组里的数据官。处理几十行数据还好,可是成千行,上万行呢?资格赛我记得好像 29 万行...
  • 学校的各个网页结构差异太大,想用爬虫都不行,只能人工采集(有调试爬虫的时间,数据都采集完了......)
  • 我爱空格,不爱 Tab。Tab 带来的混乱太疯狂了,而且 调查发现使用空格键的程序员赚得比使用 Tab 键的程序员多
  • 国际互联网服务对 GB 编码的各种不兼容......

感谢学长强悍的编程能力,已经趟过了 LUIS,Bot Framework 的河,正在突破 QnAMaker 中


其实我很好奇,我们怎么过的资格赛。资格赛我们只是拿结巴分词去算了算匹配度罢了。。。看群里别的组都上机器学习,学习匹配模式去了,我们这是啥?

Comments
Write a Comment