2009-06-20 2 views
0

특정 텍스트가 이름, 사람, 장소 또는 개체 (장치)인지 검색하는 웹 서비스 또는 도구가 있습니까?사람, 장소 또는 개체를 검색하는 웹 서비스 또는 메커니즘

예 :

입력 : 빌 클린턴 출력 : 사람

입력 : 블랙 베리 출력 : 장치

입력 : 뉴욕 출력 : 장소

정확도 낮을 수있다. 나는 opencyc를 보았다. 그러나 나는 couldnt한다 그것이 일하는 것을 얻는다. WikiPedia를 사용할 수있는 방법이 있습니까?

사람이나 물건을 분리하기 시작하면 좋습니다.

+0

위키 백과를 사용하는 것은 흥미로운 아이디어입니다. 그렇게하는 경우 데이터를 사용하는 대상에 따라 라이선스 문제에주의해야합니다. – balpha

+0

opencyc를 사용할 수없는 이유는 무엇입니까? –

답변

1

위키 백과는 아주 좋은 자료라고 생각합니다. 입력이 주어지면 위키피디아에서 항목을 찾아서 결과 페이지를 스크랩 할 수 있습니다 (존재하는 경우).

Persons and Places는 기사에서 별개로 말할 수있는 생년월일, 위치 등 상당히 다른 데이터 세트가 있어야하며 다른 것은 개체입니다.

어쨌든 촬영 가치가 있습니다.

1

검색 엔진 사용은 어떻습니까? Google은 좋을 것이라고 생각합니다. Yahoo! 나만의 검색을위한 도구가 있습니다.

내가 봤 :

Results 1 - 10 of about 27,100,000 for "bill clinton" person 
Results 1 - 10 of about 6,050,000 for "bill clinton" place 
Results 1 - 10 of about 601,000 for "bill clinton" device 

그는 사람입니다!

Results 1 - 10 of about 391,000,000 for "new york" place. 
Results 1 - 10 of about 280,000,000 for "new york" person. 
Results 1 - 10 of about 84,100,000 for "new york" device. 

장소입니다!

Results 1 - 10 of about 11,000,000 for "blackberry" person 
Results 1 - 10 of about 36,600,000 for "blackberry" place 
Results 1 - 10 of about 28,000,000 for "blackberry" device 

불행히도, 블랙 베리는 장소이기도합니다. :/

'블랙 베리'의 경우에만 '기기'가 닫히기도한다는 것을 유의하십시오. 어쩌면 페이지 히트 값에 가중치를 주어야합니다. 귀하의 신청서는 무엇입니까? 분류해야 할 "장치"가 무엇인지 알고 있습니까? 가능한 입력 범위는 무엇입니까?

다른 출처에서 얻은 결과를 결합하고 싶을 수도 있습니다.

+0

Google은 분명히 매우 유용하지만, 쿼리 형식이 항상 당신이 찾고있는 의미 론적 관계를 반영하지 않기 때문에 끔찍한 분류자를 발견했습니다. 상위 N 개의 Google 결과에서 텍스트를 추출하고, 훈련 된 SVM을 사용하여 bag-of-word를 기반으로 사람/장소/기기를 예측하는 것이 더 효과적 일 수 있습니다. – Cerin

1

Wolfram Alpha의 출력을 보면, 당신이 가능 Bill Clinton Birthday하거나 Bill Clinton을 검색하여 개인을 식별 할 수 있습니다, 또는 당신이 더 나은 결과를 위해, New York GPS coordinates하거나 New York를 검색하여 위치를 식별 할 수있는 것 같다. 검은 딸기는 열매로 그것을 해석하고 싶기 계속 있기 때문에, 알파를 위해 거친 낱말 같이 보인다. Froogle을 검색하여 기기를 식별 할 수 있습니다.

유명인/장소를 사용하는 경우 WA가 당신에게 상당히 괜찮은 정확성을 줄 것 같습니다.

+0

+1 울프 람 알파가 꽤 정확 해 보이는 것 같습니다. "검은 딸기"는 "검은 딸기"보다 과일처럼 구체적입니다. OP는 완벽한 정확성을 필요로하지 않으며, 의도 된 알고리즘을 기대할 수 없습니다. 추가 문맥없이 입력. –

0

나는 당신이 달성하려고하는 기본 작업이 더 공식적으로 named entity recognition이라고 생각합니다. 이 작업은 중요하지 않으며 모든 컨텍스트에서 제거 된 이름 만 입력하면 더 어렵게 만듭니다.

예를 들어, "Bill Clinton"과 "New York"과 같은 예가 명백하게 명확하다고 생각하고 싶지만 Wikipedia의 모호성 제거 페이지를 보면 그들이 참조 할 수있는 몇 가지 잠재적 인 요소가 있음을 알 수 있습니다. "뉴욕"은 주, 도시 및 영화 제목입니다. "빌 클린턴 (Bill Clinton)"은 단지 위키 피 디아 (Wikipedia) 만보고 있으면 모호하지 않지만 모든 전화 번호부에서 수십개의 빌 클린턴 (Bill Clintons)을 찾을 수있을 것이라고 확신합니다. 그것은 또한 누군가의 범선이나 애완견의 이름 일 수도 있습니다. 누군가가 "워싱턴"을 입력하면 어떨까요? 그것은 미국 대통령, 주, 구,시, 호수, 거리, 섬, ​​영화, 여러 미국 해군 선박 중 하나, 다리 일뿐만 아니라 다른 것들 일 수 있습니다. "올바른"사용법을 결정하면 웹 서비스를 반환하는 것이 매우 복잡해 질 수 있습니다.

Cyc가 알고있는만큼 Wikipedia만큼 포괄적이지는 않습니다. 그러나 Wikipedia의 주된 단점은 그것이 본질적으로 구조화되어 있지 않다는 것입니다. 개인적으로 Cyc의 API가 복잡하고 문서화가 잘되어 있지 않아 Wikipedia의 자연어를 파싱하는 것이 더 쉬워 진 것 같습니다.

웹 서비스를 처음부터 구현해야한다면 위키 백과의 스냅 샷을 작성한 다음 모든 기사를 읽을 수있는 파서를 작성하고 기사 제목을 기반으로 명명 된 엔티티 색인을 생성합니다. 사람/장소/대상으로 수 십 가지의 예제를 수동으로 "분류"하고 분류 기준 (Bayesian, Maxent, SVM)을 훈련하여 기사의 단어 빈도를 기반으로 다른 예제를 자동으로 분류 할 수 있습니다.

관련 문제